Вопросы по работе "Парсер ссылок"

Здесь обсуждаются технические вопросы работы ПК XseoN

Модератор: XseoN Founder

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 21 авг 2012, 10:07

Его уже можно скачать или в конце августа?

Данная сборка не высылается даже недавно купившим пользователям. Выход намечен на конец августа. В новой сборке парсер будет защищен доп. защитой, т.к. аналоги стоят от $100, а по парсингу Yandex практически без капч аналогов нет. На сегодня в версии, которая рассылается и которую можно скачать с нашего сервера не работает парсер Yandex из-за смены форматирования выдачи, кстати, в новой сборке можно менять регулярные выражения, используемые для поиска ссылок на стр. выдачи ПС. В текущей версии кол-во потоков - макс. 32 и то проблематично с таким кол-вом потоков парсить, в новой 128 потоков и новая технология работы с куками, позволяющая в теории увеличить кол-во потоков до большой цифры, но пока ограничимся 128.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение mutter 21 авг 2012, 13:37

Ждем новый релиз :)
mutter
 
Сообщений: 17
Зарегистрирован: 03 авг 2012, 11:12

Re: Вопросы по работе "Парсер ссылок"

Сообщение mutter 03 сен 2012, 18:22

Парсер работает неплохо, а можно ли добавить регулятор глубины парсинга ? Что бы парсил более 1000 на запрос.
mutter
 
Сообщений: 17
Зарегистрирован: 03 авг 2012, 11:12

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 04 сен 2012, 04:43

а можно ли добавить регулятор глубины парсинга ? Что бы парсил более 1000 на запрос.

Получить с одного запроса больше чем 1000 линков НЕВОЗМОЖНО. Возможно Вы ориентируетесь на заявление разработчика парсера - BabbloPars, выдержка с офсайта BabbloPars:
У Поисковых Систем есть ограничения в 1000 результатов на запрос, а мой парсер с помощью уникального алгоритма не замечает этого ограничения и соберет все.

Анализ работы парсера BabbloPars показал следующий алгоритм работы:
1. Парсер BabbloPars отсылает в ПС поисковый запрос;
2. Парсер BabbloPars получает от ПС выдачу (линки) и парсит со стр. выдачи сниппеты (слова и словосочетания - описание найденного ресурса);
2. Парсер BabbloPars забивает полученные сниппеты в базу MySQL и проверяет их на уникальность;
3. Далее полученные сниппеты присоединяются по-очереди к исходному поисковому запросу и снова отсылаются в ПС и так до бесконечности.
3. Данный режим работы имеется и у парсера Ксеона - режим работы со словарем.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение mutter 04 сен 2012, 09:17

XseoN Founder писал(а):
а можно ли добавить регулятор глубины парсинга ? Что бы парсил более 1000 на запрос.

Получить с одного запроса больше чем 1000 линков НЕВОЗМОЖНО. .


Спасибо за ответ. Попарсил несколько дней : парсер показывает хорошие как на меня результаты, в среднем примерно 100к ссылок с яндекса за 1 час роботы.
mutter
 
Сообщений: 17
Зарегистрирован: 03 авг 2012, 11:12

Re: Вопросы по работе "Парсер ссылок"

Сообщение vawsan 05 сен 2012, 18:18

Постепенно отмирают потоки, ставлю 85, после 2млн ссылок парсинг завершается, хотя запросов отработало 5900 из 20к.
Win Server 2003.
vawsan
 
Сообщений: 49
Зарегистрирован: 11 май 2012, 18:11
Откуда: Москва

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 05 сен 2012, 18:44

Постепенно отмирают потоки, ставлю 85, после 2млн ссылок парсинг завершается, хотя запросов отработало 5900 из 20к.
Win Server 2003.

Если парсинг ссылок останавливается резко, то необходимо проверить список с поисковыми запросами на наличие дублей.
Если потоки умирают медленно, то причин умирания потоков может быть несколько, но основная причина - это канал связи, если канал временами очень сильно сужается, но соединение есть, то обрыва связи не происходит, и если в работе находится несколько десятков потоков, то каждый поток будет ожидать ответа на посланный запрос, и это ожидание может очень сильно затянуться и повлечь зависание потока, если поток завис, его очень проблематично перезапустить.
Если Интернет получаете через какого-либо сетевого агента провайдера, то он тоже может сужать канал. Так же сужение канала может быть, если включены два сетевых интерфейса, "смотрящих" в разные сети, при работе должен быть включен один сетевой интерфейс, "смотрящий" в Интернет.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение vawsan 05 сен 2012, 19:22

Сильно сомневаюсь, что причина в этом.
В старых то версиях парсера такой проблемы не было.
Да и у сервера с количеством соединений не проблема, а канал у меня 100мбит.
Последний раз редактировалось vawsan 07 сен 2012, 18:39, всего редактировалось 1 раз.
vawsan
 
Сообщений: 49
Зарегистрирован: 11 май 2012, 18:11
Откуда: Москва

Re: Вопросы по работе "Парсер ссылок"

Сообщение wmbases1 05 сен 2012, 20:43

Такая же проблема с потоками парсера,причем колличество запущеных потоков не влияет- всеравно отмирают, чувство что они забивают канал, тк после того как потоков становится 0, браузер ничего не открывает,закрываю ксеон и все работает нормально.
wmbases1
 
Сообщений: 12
Зарегистрирован: 12 янв 2012, 07:50

Re: Вопросы по работе "Парсер ссылок"

Сообщение kir55rus 09 сен 2012, 09:45

включаю парсер ссылок с такими настройками: Изображение

первые 1-1,5к запросов парсинг идет нормально (с каждого потока по 100 ссылок), но потом ссылки добавляться перестают..
Для примера: был пропарсен запрос allintext: "Powered by phpBB" -viagra работать дураку, но новых ссылок не добавилось.. как было 59649, так и осталось.. открываем гугл и ищем этот запрос, получаем свыше 80к результатов. В чем проблема?
kir55rus
 
Сообщений: 1
Зарегистрирован: 11 май 2012, 11:27
Откуда: Омск

Пред.След.

Вернуться в Технические вопросы

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 6

cron