Страница 10 из 10

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 14 ноя 2013, 21:28
tyty
Из FAQ антигейта:
Вы шлете среди своих капч русские капчи без пометки is_russian=1, чем вводите наших индусов и китайцев в состояние шока и они массово выходят из системы.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 15 ноя 2013, 15:27
XseoN Founder
is_russian=1

С этим ключом мы знакомы :)
Будем разбираться.

P.S. В последние дней 10 у Yandex каждый день новая фишка :)

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 17 дек 2013, 19:24
Andreus
Я заметил, что при парсинге ссылок, например сначала ставлю диапазон даты весь 2012 год, потом выключаю, проверяю, регистрирую, и после, с теми же ключами, начинаю парсить 2013 год, и получается таже база ссылок, тоесть идентичная(возможно конечно не вся, но при регистрации пишет "админ еще не активировал", "регистрация была ранее" и т.д.). Это так и должно быть?
ЗЫ: Yandex - ссылки

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 18 дек 2013, 02:53
XseoN Founder
Я заметил, что при парсинге ссылок, например сначала ставлю диапазон даты весь 2012 год, потом выключаю, проверяю, регистрирую, и после, с теми же ключами, начинаю парсить 2013 год, и получается таже база ссылок, тоесть идентичная

Пришлите на decontent@gmail.com шаблон Yandex и экспорт запросов Yandex за 2012 и 2013 гг. Посмотрим и отпишем.

--Upd-- 18/12/13 19.59МСК
все получили, спарсим базу отдельно за 12 г. и отдельно за 13 г. по нашим признакам и отпишем.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 19 дек 2013, 04:16
XseoN Founder
Я заметил, что при парсинге ссылок, например сначала ставлю диапазон даты весь 2012 год, потом выключаю, проверяю, регистрирую, и после, с теми же ключами, начинаю парсить 2013 год, и получается таже база ссылок,

В видео демонстрируется парсинг отдельно 2012г. и отдельно 2013 г., затем производится удаление дублей строк и доменов и получение итоговой базы.
После парсинга 2012г. и удаления дублей получили 22к ссылок, после парсинга 2013г. и удаления дублей получили 28к ссылок, в итоговой базе после объединения двух первых баз и удаления дублей получили 38к ссылок, соответственно можно сделать вывод, что результаты парсинга по разным годам отличаются.

Видео

По данной ссылке можно скачать файл шаблона Yandex.
По данной ссылке можно скачать хорошую базу признаков по некоторым поддерживаемым движкам, при составлении запросов используйте словарь.

Если Вы не задаете интервал деления запросов по временным интервалам, то парсинг будет производится за нелимитированный промежуток времени.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 04 окт 2014, 17:53
DarkMan
Привет всем! А нет ли какого-нить лога, где было бы видно по какому запросу с какими параметрами сколько ссылок было спарсено? Было бы весьма полезно для анализа актуальности запросных слов (фраз), признаков движков и временны'х интервалов. Просто при больши'х объемах по гуглу сильно на капчу тратиться приходится причем как на актуальных выборках, так и на холостых. Вот от холостых и хотелось бы избавится. Заранее спасибо всем откликнувшимся по теме за любые полезные советы

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 06 окт 2014, 17:18
XseoN Founder
А нет ли какого-нить лога, где было бы видно по какому запросу с какими параметрами сколько ссылок было спарсено?

Такого лога в программе нет.
Парсинг гугла требует хороших прокси, с паблик или заезженными прокси приходится тратиться на капчу.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 13 дек 2014, 16:12
Collapse
А как отключить отображение каптчи? Мне нужно чтобы прокси сервер с каптчей (закаптченный) считался плохим и программа запускала в поток следующий прокси.

Re: Вопросы по работе "Парсер ссылок"

СообщениеДобавлено: 15 дек 2014, 05:29
XseoN Founder
А как отключить отображение каптчи? Мне нужно чтобы прокси сервер с каптчей (закаптченный) считался плохим и программа запускала в поток следующий прокси.

Введите невалидные данные доступа к OCR (сервис распознавания). При этом парсер не сможет отправить правильный ответ капчи и будет перебирать прокси. Если прокси 3-раза оказался невалидным по тем или иным причинам, парсер выкидывает его из списка прокси. Но как поведет себя ПС при такой схеме работы, особенно Google, не известно.