Добрый день!
Хочу рассказать с какими моментами я столкнулся при обучении ксеона текстовым капчам.
Когда первый раз обучал, то обучал чисто чтобы скачать серверную базу (кстати я не понял там так мало ресурсов?), ну и попробовать свои силы на этом поприще
.
Собрал около 1000 ресов с доп. полями и начал обучать, первое что кинулось в глаза это то что, на каких-то ресурсах одно поле, на каких-то 10 полей, в итоге чтобы сильно не заморачиваться
обучил ресурсы там где одно поле (времени ушло где-то пол дня) и скачал серверную базу (думаю что очень многие так относятся к этим обучениям).
Дальше решил что если я трачу свое время на обучение текстовым полям, то необходимо это время проводить с максимальной пользой, значит необходимо более качественно подойти к этому вопросу.
Первое что я сделал накачал кучу трастовых баз из инета, прогнал в проверке ссылок собрал доп.поля и обучил текстовым капчам.
Но я думаю что вы понимаете что эти трастовые ресурсы я не стал отдавать в серверную базу, в итоге у меня на данный момент собралось порядка 100 трастовых ресов с открытыми ссылками которые я могу прогнать с помощью ксеона а не ручками.
Итак мои предложения разработчикам по развитию программы:
1. Необходимо собирать трастовые ресурсы с доп полями в серверную базу т.е. вот эти 50 ежемесячных ресурсов должны быть трастовые (вы можете нам их давать скачивать или мы их сами можем собирать об этом ниже
).
Но возникает закономерный вопрос как понять трастовые они или нет?, для этого необходимо в функционал программы добавить функцию определения закрыты ссылки в доффолоу, роботсе или открыты (по принципу Fast Finder).
Тогда на мой взгляд всем будет интересно добавлять в базу по 50 ежемесячных трастовых ресов, чтобы скачать основную базу.
2. Где-то встречал вы спрашивали стоит развиваться в сторону твиттера, на мой взгляд не стоит т.к. там куча своих заморочек и изменения твиттер вносит очень часто, лучше посмотреть в сторону аддурилок.
Вы скажете есть пингование, с этим пингом я как-то специально добавил новую статью на свой сайт на котором боты очень редко бывают и отправил пинги на яшу и гуглу, после этого отслеживал в логах 3 дня когда боты прийдут на сайт так и не дождался. А когда отправляю в аддурилку то их спец. бот с яши приходит в течении 10 сек., и в сокром времени приходит основной индексирующий бот.
Вообщем как-то так.