Вопросы по работе "Парсер ссылок"

Здесь обсуждаются технические вопросы работы ПК XseoN

Модератор: XseoN Founder

Re: Вопросы по работе "Парсер ссылок"

Сообщение tyty 14 ноя 2013, 21:28

Из FAQ антигейта:
Вы шлете среди своих капч русские капчи без пометки is_russian=1, чем вводите наших индусов и китайцев в состояние шока и они массово выходят из системы.
tyty
 
Сообщений: 18
Зарегистрирован: 27 ноя 2012, 19:17

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 15 ноя 2013, 15:27

is_russian=1

С этим ключом мы знакомы :)
Будем разбираться.

P.S. В последние дней 10 у Yandex каждый день новая фишка :)
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение Andreus 17 дек 2013, 19:24

Я заметил, что при парсинге ссылок, например сначала ставлю диапазон даты весь 2012 год, потом выключаю, проверяю, регистрирую, и после, с теми же ключами, начинаю парсить 2013 год, и получается таже база ссылок, тоесть идентичная(возможно конечно не вся, но при регистрации пишет "админ еще не активировал", "регистрация была ранее" и т.д.). Это так и должно быть?
ЗЫ: Yandex - ссылки
Andreus
 
Сообщений: 5
Зарегистрирован: 28 окт 2013, 21:07

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 18 дек 2013, 02:53

Я заметил, что при парсинге ссылок, например сначала ставлю диапазон даты весь 2012 год, потом выключаю, проверяю, регистрирую, и после, с теми же ключами, начинаю парсить 2013 год, и получается таже база ссылок, тоесть идентичная

Пришлите на decontent@gmail.com шаблон Yandex и экспорт запросов Yandex за 2012 и 2013 гг. Посмотрим и отпишем.

--Upd-- 18/12/13 19.59МСК
все получили, спарсим базу отдельно за 12 г. и отдельно за 13 г. по нашим признакам и отпишем.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 19 дек 2013, 04:16

Я заметил, что при парсинге ссылок, например сначала ставлю диапазон даты весь 2012 год, потом выключаю, проверяю, регистрирую, и после, с теми же ключами, начинаю парсить 2013 год, и получается таже база ссылок,

В видео демонстрируется парсинг отдельно 2012г. и отдельно 2013 г., затем производится удаление дублей строк и доменов и получение итоговой базы.
После парсинга 2012г. и удаления дублей получили 22к ссылок, после парсинга 2013г. и удаления дублей получили 28к ссылок, в итоговой базе после объединения двух первых баз и удаления дублей получили 38к ссылок, соответственно можно сделать вывод, что результаты парсинга по разным годам отличаются.

Видео

По данной ссылке можно скачать файл шаблона Yandex.
По данной ссылке можно скачать хорошую базу признаков по некоторым поддерживаемым движкам, при составлении запросов используйте словарь.

Если Вы не задаете интервал деления запросов по временным интервалам, то парсинг будет производится за нелимитированный промежуток времени.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение DarkMan 04 окт 2014, 17:53

Привет всем! А нет ли какого-нить лога, где было бы видно по какому запросу с какими параметрами сколько ссылок было спарсено? Было бы весьма полезно для анализа актуальности запросных слов (фраз), признаков движков и временны'х интервалов. Просто при больши'х объемах по гуглу сильно на капчу тратиться приходится причем как на актуальных выборках, так и на холостых. Вот от холостых и хотелось бы избавится. Заранее спасибо всем откликнувшимся по теме за любые полезные советы
DarkMan
 
Сообщений: 1
Зарегистрирован: 06 янв 2014, 22:50

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 06 окт 2014, 17:18

А нет ли какого-нить лога, где было бы видно по какому запросу с какими параметрами сколько ссылок было спарсено?

Такого лога в программе нет.
Парсинг гугла требует хороших прокси, с паблик или заезженными прокси приходится тратиться на капчу.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Re: Вопросы по работе "Парсер ссылок"

Сообщение Collapse 13 дек 2014, 16:12

А как отключить отображение каптчи? Мне нужно чтобы прокси сервер с каптчей (закаптченный) считался плохим и программа запускала в поток следующий прокси.
Collapse
 
Сообщений: 15
Зарегистрирован: 19 апр 2011, 12:58

Re: Вопросы по работе "Парсер ссылок"

Сообщение XseoN Founder 15 дек 2014, 05:29

А как отключить отображение каптчи? Мне нужно чтобы прокси сервер с каптчей (закаптченный) считался плохим и программа запускала в поток следующий прокси.

Введите невалидные данные доступа к OCR (сервис распознавания). При этом парсер не сможет отправить правильный ответ капчи и будет перебирать прокси. Если прокси 3-раза оказался невалидным по тем или иным причинам, парсер выкидывает его из списка прокси. Но как поведет себя ПС при такой схеме работы, особенно Google, не известно.
XseoN Founder
Администратор
 
Сообщений: 803
Зарегистрирован: 08 июл 2010, 14:26

Пред.

Вернуться в Технические вопросы

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 9

cron