Парсер ссылок

Здесь обсуждаются технические вопросы работы ПК XseoN

Модератор: XseoN Founder

Парсер ссылок

Сообщение Турист 29 сен 2011, 07:38

Пытался разобраться с парсером, но так ничего и не вышло.
Поисковый запрос простой, поиск по тексту - Русская поддержка phpBB.
Включена галка - работа только с proxy
Постоянно лезут капчи, не понимаю зачем тогда прокси...
В статусной строке - всего ссылок - 200, а в окне где должны быть URL пусто. Где-то я явно что=то упускаю. Но глаз замусолися и никак не пойму.
Турист
 
Сообщений: 15
Зарегистрирован: 28 сен 2011, 15:32

Re: Парсер ссылок

Сообщение XseoN Founder 29 сен 2011, 10:16

Постоянно лезут капчи, не понимаю зачем тогда прокси...

Если парсить без проксей даже в два потока, то ПС в течение 10-15 минут забанит Ваш реальный ip, всвязи с чем, необходимо использовать прокси. ПС предлагает распознать капчу, т.к. прокси сервера используются паблик и если у ПС возникают сомнения в том действительно ли запрос делает человек а не бот, а использование паблик прокси дает повод для такого сомнения, то она выводит капчу. Бывает, но редко, капча может выводится даже без использования проксей, если запрос направлен на спарс ресурсов для спама. Парсить без проксей можно, только в один поток и сделать интервал между запросами 25-30 сек (25000-30000 мсек).
Для распознования капчи в парсере ссылок можно подключить сервис antigate.com.
В статусной строке - всего ссылок - 200, а в окне где должны быть URL пусто

Существует видео работы в парсере ссылок, во время работы напарсенные ссылки не отображаются, это сделано по причине того, что список может насчитывать несколько сотен тысяч ссылок и при добавлении очередной ссылки в список нагружать систему, в статусной строке отображается только общее кол-во ссылок. После окончания парсинга можно кнопкой "из файла" выбрать файл \tmp\Resurs\parsres.txt,в данный файл во время работы парсера пишутся напарсенные ссылки, и удалить из загруженного списка дубли строк и доменов, так же дубли можно удалить и не загружая список в форму, поставив галку "из файла", т.к. загрузка в форму очень длинного списка может длиться долго. И еще рекомендация - для составления поисковых запросов рекомендую использовать тэги без "All" в теге, т.е. лучше так intitle:xseon, тем так allintitle:xseon, результат по первому запросу будет выше.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Парсер ссылок

Сообщение Турист 29 сен 2011, 17:01

Если парсить без проксей даже в два потока
Я ведь указал что парсил с прокси. Но по поводу капчи понял, она действительно вылазит только в начале, потом парсится норм.
можно подключить сервис antigate.com.
нет желания платить людям за то что они свое зрение гробят ;)
После окончания парсинга можно кнопкой "из файла" выбрать файл \tmp\Resurs\parsres.txt,
Ну дык :? так и делал. Подумало минут пять, а потом намертво повисло.
Турист
 
Сообщений: 15
Зарегистрирован: 28 сен 2011, 15:32

Re: Парсер ссылок

Сообщение Yabuti 30 сен 2011, 13:58

Турист, прокси,скорее всего, паблик?
Почти весь паблик заюзан, ПС выкупают их на раз и даже до оправки запросов некоторым проксям дают вести капчу :|

Антигейт хороший сервис, тем более цена упала на капчи.
Yabuti
 
Сообщений: 10
Зарегистрирован: 27 сен 2011, 05:52

Re: Парсер ссылок

Сообщение rep0rt1n 18 окт 2011, 01:04

Фаундер, возможно ли каким нибудь образом улучшить парсер, чтобы выпарсивал все ссылки. А то с одного запроса очень выходит мало ссылок. Хотя в результатах огого. Не знаю с чем это связано..
rep0rt1n
 
Сообщений: 28
Зарегистрирован: 10 июн 2011, 17:15

Re: Парсер ссылок

Сообщение XseoN Founder 18 окт 2011, 02:34

чтобы выпарсивал все ссылки

Напомню, что ссылка proxy сервера на интернет-ресурсе должна иметь вид proxyserver:port, только в этом случае она будет спарсена, если сервер будет в одной ячейке таблицы, а порт в другой, такая ссылка спарсена не будет. Пришлите, пожалуйста, мне страницу с прокси серверами, где по Вашему мнению XPCP не спарсивает ссылки на прокси, подпадающие под вышеозвученное условие.
Хотя в результатах огого
Возможно выше Вы имели ввиду не парсинг, а чекинг ссылок, если да, то публичные прокси живут не долго и не регулярно и кол-во работающих на момент проверки незначительно, хотя списки выкладываютя огого какие.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Парсер ссылок

Сообщение rep0rt1n 18 окт 2011, 06:50

XseoN Founder, :mrgreen: FUNNY_SHIT
Не речь идет о парсере ссылок. Например, парсим запрос inurl:"forum.php" В результатах намного больше ресурсов. Вот я о чем. И не очень понятно, почему парсер постоянно обращается к google.ru. Выходит только одна доменнах зона или чето не понял?
rep0rt1n
 
Сообщений: 28
Зарегистрирован: 10 июн 2011, 17:15

Re: Парсер ссылок

Сообщение XseoN Founder 18 окт 2011, 12:00

Например, парсим запрос inurl:"forum.php" В результатах намного больше ресурсов

http://clip2net.com/page/m84912/18473373 - потеря 9 ссылок из 1000. Напомню, что все поисковики искусственно ограничивают выдачу по запросу 1000 ссылками. Чтобы обойти данное ограничение, необходимо менять контент поисковых запросов (выборка по дате создания, по типу тэга, по аргументам тэга и т.п.) В текущей версии есть недоработка - не парсится последняя сотня с 900 по 1000, баг уже устранен.
И не очень понятно, почему парсер постоянно обращается к google.ru

Рядом с выбором поисковой системы справа вверху есть кнопка, при нажатии на которую появляется форма с выбором зоны Google, но рекомендую пользоваться только зонами .com и .ru, т.к. выдача при поиске в других зонах будет полностью дублировать выдачу в зонах .com и .ru.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Парсер ссылок

Сообщение rep0rt1n 20 окт 2011, 04:09

Founder, у меня еще вопрос. Что означает язык не поддерживается в программе? Ксеон будет нормально работать с es/it/fr форумами?
Спасибо. кстати не расскажете над чем сейчас работаете. Что нового в новой версии ждать? Очень хотелось чтобы по возможности добавили не только форумы, а фри/донейт цмс(те на которых делают обычно проф/полупроф сайты).
Псы касательно парсера. Парсер норм. Только возможно ли уменьшить затраты на каптчу. Жрем прорвой. Прокси есстесстенно не паблик.
Псы касательно ошибки при нажатии на ... в результатах. Вообщем она не исчезла так. Проект пересоздовал несколько раз. Под последней версии.
rep0rt1n
 
Сообщений: 28
Зарегистрирован: 10 июн 2011, 17:15

Re: Парсер ссылок

Сообщение XseoN Founder 20 окт 2011, 04:45

Что означает язык не поддерживается в программе?

Это значит, что язык ресурса отличается от заложенных в программе, соответственно у такого ресурса программа не может идентифицировать выдаваемое ресурсом сообщение, и не может определить статус выполненной операции. По html коду проблематично определить статус, т.к. форумы модированные. Со временем языки будут дополняться, сейчас в phpBB3 поддержка порядка 10 языков, в phpBB2, ipB2-3 - 4 языка.
кстати не расскажете над чем сейчас работаете.

Сейчас занимаюсь первым типом капчи SMF, до конца года планирую доделать SMF, добавить функционал. Кстати по заказу баблорубов добавил импорт/экспорт в/из XML, в т.ч. импорт XML проекта из Xrumer -
обновил на сервере дистрибутивы для обновления, номер релиза не стал менять, для того, чтобы скачать новую сборку, необходимо в файле C:\Program Files\OWS_\date\ch_date.txt заменить номер релиза 1.1.0.1 на другой, например, на 1.1.0.0 и после сохранения скачать обновление.
Собственно о новшествах:
Импорт проекта Xrumer:
Проект-->Новый-->Импорт из XML-->выбираем файл проекта Xrumer-->выбираем язык, в поля которого будем импортировать данные-->OК, далее можно подкорректировать необходимые данные;
Экспорт проекта ПК XseoN:
Проект-->Открыть-->выбираем проект для экспорта-->Экспорт в XML /если перед экспортом делаете изменения в проекте, то сначала необходимо сохранить проект, а затем делать экспорт/-->выбираем путь для сохранения и сохраняем. Импорт полученного проекта делаем как при импорте проекта Xrumer, только язык выбирать не надо. С помощью импорта/экспорта проектов можно делать резервные копии Ваших проектов, а так же удобно при пересылке.
Только возможно ли уменьшить затраты на каптчу

Единственное, что можно сделать - увеличить таймаут между запросами
Псы касательно ошибки при нажатии на ... в результатах. Вообщем она не исчезла так

Пробовал несколько раз ошибка не возникала, соответственно не могу отловить :(
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26


Вернуться в Технические вопросы

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 33

cron