Страница 5 из 10

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 21 авг 2012, 10:07
XseoN Founder
Его уже можно скачать или в конце августа?

Данная сборка не высылается даже недавно купившим пользователям. Выход намечен на конец августа. В новой сборке парсер будет защищен доп. защитой, т.к. аналоги стоят от $100, а по парсингу Yandex практически без капч аналогов нет. На сегодня в версии, которая рассылается и которую можно скачать с нашего сервера не работает парсер Yandex из-за смены форматирования выдачи, кстати, в новой сборке можно менять регулярные выражения, используемые для поиска ссылок на стр. выдачи ПС. В текущей версии кол-во потоков - макс. 32 и то проблематично с таким кол-вом потоков парсить, в новой 128 потоков и новая технология работы с куками, позволяющая в теории увеличить кол-во потоков до большой цифры, но пока ограничимся 128.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 21 авг 2012, 13:37
mutter
Ждем новый релиз :)

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 03 сен 2012, 18:22
mutter
Парсер работает неплохо, а можно ли добавить регулятор глубины парсинга ? Что бы парсил более 1000 на запрос.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 04 сен 2012, 04:43
XseoN Founder
а можно ли добавить регулятор глубины парсинга ? Что бы парсил более 1000 на запрос.

Получить с одного запроса больше чем 1000 линков НЕВОЗМОЖНО. Возможно Вы ориентируетесь на заявление разработчика парсера - BabbloPars, выдержка с офсайта BabbloPars:
У Поисковых Систем есть ограничения в 1000 результатов на запрос, а мой парсер с помощью уникального алгоритма не замечает этого ограничения и соберет все.

Анализ работы парсера BabbloPars показал следующий алгоритм работы:
1. Парсер BabbloPars отсылает в ПС поисковый запрос;
2. Парсер BabbloPars получает от ПС выдачу (линки) и парсит со стр. выдачи сниппеты (слова и словосочетания - описание найденного ресурса);
2. Парсер BabbloPars забивает полученные сниппеты в базу MySQL и проверяет их на уникальность;
3. Далее полученные сниппеты присоединяются по-очереди к исходному поисковому запросу и снова отсылаются в ПС и так до бесконечности.
3. Данный режим работы имеется и у парсера Ксеона - режим работы со словарем.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 04 сен 2012, 09:17
mutter
XseoN Founder писал(а):
а можно ли добавить регулятор глубины парсинга ? Что бы парсил более 1000 на запрос.

Получить с одного запроса больше чем 1000 линков НЕВОЗМОЖНО. .


Спасибо за ответ. Попарсил несколько дней : парсер показывает хорошие как на меня результаты, в среднем примерно 100к ссылок с яндекса за 1 час роботы.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 05 сен 2012, 18:18
vawsan
Постепенно отмирают потоки, ставлю 85, после 2млн ссылок парсинг завершается, хотя запросов отработало 5900 из 20к.
Win Server 2003.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 05 сен 2012, 18:44
XseoN Founder
Постепенно отмирают потоки, ставлю 85, после 2млн ссылок парсинг завершается, хотя запросов отработало 5900 из 20к.
Win Server 2003.

Если парсинг ссылок останавливается резко, то необходимо проверить список с поисковыми запросами на наличие дублей.
Если потоки умирают медленно, то причин умирания потоков может быть несколько, но основная причина - это канал связи, если канал временами очень сильно сужается, но соединение есть, то обрыва связи не происходит, и если в работе находится несколько десятков потоков, то каждый поток будет ожидать ответа на посланный запрос, и это ожидание может очень сильно затянуться и повлечь зависание потока, если поток завис, его очень проблематично перезапустить.
Если Интернет получаете через какого-либо сетевого агента провайдера, то он тоже может сужать канал. Так же сужение канала может быть, если включены два сетевых интерфейса, "смотрящих" в разные сети, при работе должен быть включен один сетевой интерфейс, "смотрящий" в Интернет.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 05 сен 2012, 19:22
vawsan
Сильно сомневаюсь, что причина в этом.
В старых то версиях парсера такой проблемы не было.
Да и у сервера с количеством соединений не проблема, а канал у меня 100мбит.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 05 сен 2012, 20:43
wmbases1
Такая же проблема с потоками парсера,причем колличество запущеных потоков не влияет- всеравно отмирают, чувство что они забивают канал, тк после того как потоков становится 0, браузер ничего не открывает,закрываю ксеон и все работает нормально.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 09 сен 2012, 09:45
kir55rus
включаю парсер ссылок с такими настройками: Изображение

первые 1-1,5к запросов парсинг идет нормально (с каждого потока по 100 ссылок), но потом ссылки добавляться перестают..
Для примера: был пропарсен запрос allintext: "Powered by phpBB" -viagra работать дураку, но новых ссылок не добавилось.. как было 59649, так и осталось.. открываем гугл и ищем этот запрос, получаем свыше 80к результатов. В чем проблема?