Вопросы по работе "Парсер ссылок"

Здесь обсуждаются технические вопросы работы ПК XseoN

Модератор: XseoN Founder

Re: Вопросы по работе "Парсер ссылок"

Сообщение vawsan 15 июл 2012, 13:35

У меня яшка вообще наотрез отказывается парситься....
Видео работы я вам уже скидывал на емейл....
vawsan
 
Сообщений: 49
Зарегистрирован: 11 май 2012, 18:11
Откуда: Москва

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 15 июл 2012, 16:38

У меня яшка вообще наотрез отказывается парситься....
Видео работы я вам уже скидывал на емейл....

На сколько помню, проблема была в том, что при установленной отсылке капчи на антигейт, при запуске 10 потоков, потоки висли т.е. не отображались в статусной строке запущенные запросы - такое иногда бывает, когда не один или два потока обращаются к сервису антигейт, а сразу все и бывает, что сервис из-за перегруженности не отдает очень долго ни одного ответа, при этом может выйти таймаут ожидания ответа и парсер не будет работать, я Вам предлагал попробовать запустить парсер Яши в режиме ручного распознавания капчи и посмотреть как будет работать парсер, но ответа не получил.

Upd.
У одного пользователя тоже была схожая проблема, решалась, запуском сначала работы парсера в ручном режиме работы с капчей, потом полный стоп и запуск работы с отправкой капчи на сервис.

ЕЩЕ ОДИН ВАЖНЫЙ МОМЕНТ!!!
Куки в текущей версии парсера Яши должны быть от IE не выше 7-ки, в 8-ке и 9-ке куки имеют другой формат.
XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение vawsan 16 июл 2012, 12:23

XseoN Founder писал(а): я Вам предлагал попробовать запустить парсер Яши в режиме ручного распознавания капчи и посмотреть как будет работать парсер, но ответа не получил

Да, пардон, просто ушел тестировать, а потом начались Гос. экзамены..... Не до того было)) :)
В ручном режиме все работает, однако по вот этому методу:
XseoN Founder писал(а):У одного пользователя тоже была схожая проблема, решалась, запуском сначала работы парсера в ручном режиме работы с капчей, потом полный стоп и запуск работы с отправкой капчи на сервис.

Не получается, он так и стоит на месте.
XseoN Founder писал(а): быть от IE не выше 7-ки

Все так.
vawsan
 
Сообщений: 49
Зарегистрирован: 11 май 2012, 18:11
Откуда: Москва

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 16 июл 2012, 18:25

Не получается, он так и стоит на месте.

В личку скинул ссылку на новую сборку для теста.
XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 17 июл 2012, 17:19

XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение Graundefined 13 авг 2012, 08:09

Как часто обновляются прокси листы? Из двух листов (около 400 прокси) абсолютно все в бане Яндекса.

Да и походу и у меня парсер Яндекса не работает. В ручном режиме вроде как пробовал, не получается. В Гугле только начал пробовать парсинг - "РАБОТА ПРИНУДИТЕЛЬНО ОСТАНОАВЛЕНА, ТЕКУЩИЙ БАЛАНС", баланс есть, кстати ошибку исправьте в слове ОСТАНОАВЛЕНА.

В Гугле вроде нормально, вот из за чего остановился парс: "ВСЕ РАБОТНИКИ В ДАННЫЙ МОМЕНТ ЗАНЯТЫ".
Graundefined
 
Сообщений: 11
Зарегистрирован: 30 июл 2012, 12:33

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 13 авг 2012, 09:23

Да и походу и у меня парсер Яндекса не работает.

Да, в конце июля Яндекс сменил форматирование тегов страницы выдачи, в новой сборке (выход в конце августа) парсер Яндекса полностью переписан - скрин работы нового парсера Яндекса
В Гугле только начал пробовать парсинг - "РАБОТА ПРИНУДИТЕЛЬНО ОСТАНОАВЛЕНА, ТЕКУЩИЙ БАЛАНС", баланс есть,

В парсере нажмите на кнопку "antigate" и в появившемся окне уберите галку в группе "остановка работы при балансе на счете". Если галка стоит, то при достижении баланса, указанном в соответствующем поле на счете в antigate.com, работа парсера останавливается.
XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение Sliper 14 авг 2012, 08:41

XseoN Founder писал(а):Да, в конце июля Яндекс сменил форматирование тегов страницы выдачи

Помоему это довольно часто происходит, не только у яндекса, но и угугла: может просто сделать настройки для парсера ссылок где всегда можно ввести свежую регулярку по которой тянуть ссылки из выдачи?
Sliper
 
Сообщений: 35
Зарегистрирован: 21 ноя 2011, 14:23

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 14 авг 2012, 09:14

Помоему это довольно часто происходит, не только у яндекса, но и угугла: может просто сделать настройки для парсера ссылок где всегда можно ввести свежую регулярку по которой тянуть ссылки из выдачи?

Это будет реализовано к выходу следующего билда.

Update:
Реализовано (кстати, вчера Yandex опять поменял формат выдачи)

В новом билде будут 4 ПС: Google, Yandex, Yahoo, Rambler
XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 21 авг 2012, 08:14

Выкладываю скрины работы нового парсера:
Google
Yandex
Yahoo
Rambler

Особенность данной сборки в том, что теперь нет необходимости искать куки и забивать их в парсер, парсер все сделает сам. При запуске парсера в ПС: Google, Yandex и Rambler парсер получит кол-во капч, примерно равное кол-ву запущенных потоков, это связано с тем, что при отправке запроса на дпнные ПС без кук, ПС отсылает сначала капчу и в случае правильного ответа, отсылает куки, с которыми парсер работает уже дальше. В Google другая ситуация: если в запросе содержится тег, к примеру, inurl и запрос сделан через прокси, который находится в бане Google, то даже при наличии валидных кук, Google все-равно выдает капчу, поэтому число капч при работе с Google выше, чем при работе с др. ПС.
XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26

Пред.След.

Вернуться в Технические вопросы

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 3

cron