XseoN.ru

**vawsan** 15 окт 2012, 07:26

Господа разработчики, нашел крайне важный баг, который существенно ухудшает сбор баз под ксеон.
Настоятельнопрошу обратить внимание!!!

Как известно, поисковая система выдает очень много дублей доменов в выдаче, для этого вы и сделали функции удаления дублей строк и удаление дублей доменов. Однако, ситуация!!

Есть у нас файл со свежеспарсенной базой с яндекса.
В нем примерно такое содержание:

Код: выделить все: http://www.daad.ru/ http://www.daad.ru/forum/ http://www.daad.ru/forum/profile.php?mode=viewprofile&u=3

И если удалить дубли доменов, то останется первый, то есть http://www.daad.ru/, который в последующей проверке на типы ресурсов не определится как phpbb, т.к. урл будет вести на сам сайт, а не на форум.
И таким образом мы теряем(я проверил) очень приличное количество форумов, которые мы уже спарсили, но как оказывается сами выбросили у себя из-под носа.

Вариантов исправить сию ужасную проблему вижу 2:

Сам когда то писал программу, тоже с удалением дублей доменов, в общем после сортировки по алфавиту, вам необходимо анализировать регуляркой доменное имя и если находится такое же, но с более длинным хвостом ссылки - заменять им уже имеющееся уникальное в базе. Но не сказать чтобы это быстро очень работало, может вы оптимизируете. То есть для каждого из уникальных доменов мы находим самое длинное его упоминание в виде ссылки и его оставляем в выходном файле.
Если ссылки в файле будут расположены в порядке уменьшения длины:
Код: выделить все
http://www.daad.ru/forum/profile.php?mode=viewprofile&u=3 http://www.daad.ru/forum/ http://www.daad.ru/

То ксеон оставляет единственной - верхнюю, т.е. самую длинную. Но есть подозрения, что такой принцип не будет работать во всех возможных ситуациях, т.к. придется при пробеге regex'om делать 2 сортировки - по алфавиту(из-за скорости поиска) и далее по длинне, что может привести к конфликту этих 2х методов(порядок длинн нарушит порядок алфавита) и мы опять потеряем так нужные нам лишние форумы.

Хотелось бы видеть уже исправленную ситуацию в новой версии, уж очень не хочется мои свежие 5млн ссылок чекать без удаления дублей.
Спасибо.

**XseoN Founder** 15 окт 2012, 13:03

Господа разработчики, нашел крайне важный баг...
Код: выделить все
http://www.daad.ru/ http://www.daad.ru/forum/ http://www.daad.ru/forum/profile.php?mode=viewprofile&u=3

Во первых, т.к. мы ищем форумы, то маловероятно, что первый (http://www.daad.ru/) и второй (http://www.daad.ru/forum/) урлы одновременно попадут в список после парсинга.
В новой версии, которая сейчас в работе реализовано в "Проверка ссылок" отбрасывание строки с запросом (довесок после домена/поддомена) для всех проверяемых урлов.
Т.е. после парсинга необходимо прогнать полученную базу в "Проверка ссылок", при этом довески будут отброшены, получим

Код: выделить все: http://www.daad.ru - уйдет в неподдерживаемые движки http://www.daad.ru/forum/ http://www.daad.ru/forum/

и далее полученную базу уже можно проверить на наличие дублей строк и доменов.

**vawsan** 15 окт 2012, 17:41

Дело в том, что оказалось, что это далеко не маловероятно.

XseoN Founder писал(а):Т.е. после парсинга необходимо прогнать полученную базу в "Проверка ссылок", при этом довески будут отброшены,
и далее полученную базу уже можно проверить на наличие дублей строк и доменов.

проверка 1.5 млн в 30 потоков занимает 24 часа. За 10 часов я спарсил 5 млн, сколько же мне проверять то всю базу запросов(89к)? Полтора месяца? Это как-то нереально, надо бы сначала удлять дубли, а затем прогонять на распознование...

**XseoN Founder** 15 окт 2012, 17:51

надо бы сначала удлять дубли, а затем прогонять на распознование...

Закончили тестить парсер. Спарсили с Яндекс за 14 часов 10 млн. урлов. Посмотрели на урлы, находящиеся в базе. Нашли очень незначительное кол-во нахождения сразу двух урлов типа

Код: выделить все: http://www.daad.ru/ http://www.daad.ru/forum/

Так что при удалении дублей потери будут незначительные.

**svitok** 16 окт 2012, 16:35

У меня ошибка возникает после того как я настроил расписание на выполнение заданий и когда приходит время запуска расписания вылетает эта ошибка

Программа запущена от администратора. Window7, 32битка

**XseoN Founder** 17 окт 2012, 07:49

вылетает эта ошибка

Установил программу на Win7 Х86, создал 3 задания, 2-а из них подчиненные, т.е. запускаются после выполнения родительского задания, все работает.
Видео.
Ошибка 103 возникает при отсутствии прав на работу с файлом.
В видео используются файлы во всех возможных местах проекта.
Сообщите ID и пароль от TeamViewer, посмотрим предметно в чем дело.

**svitok** 17 окт 2012, 11:46

Разобрался все работает. Причина была в том что если был создан проект с длинным именем (проект с ксеона а не с расписания) то при запуске расписания выдает ошибку. Поэтому нужно бы как то это исправить (чтобы проект можно было бы загрузить с любой длинной описания (100 символов достаточно)

**svitok** 12 ноя 2012, 09:15

Можно ли продливать программу еще на 1 год (лицензию) если еще действие лицензии еще не закончилось и актуально еще 4 месяца?

**XseoN Founder** 12 ноя 2012, 12:05

Можно ли продливать программу еще на 1 год (лицензию) если еще действие лицензии еще не закончилось и актуально еще 4 месяца?

Как Вы, наверное, заметили, мы не отключаем пользователей, у которых закончилась лицензия, т.к. задерживается выход очередной сборки.
Продлевать лицензию необходимо перед самым окончанием ее действия.

**svitok** 21 янв 2013, 00:31

Нашел маленькое упушения в отчете. После регистрации у меня с отчетом программы не сходились данные а ошибка была в том что нет галочки для включения когда при регистрации пишет "Удачно регистрация будет произведена админом сайта" И при отчете просто выходит нестыковка данных

Также заметил что иногда программа дает ошибки присваивает статус при регистрации ресурсу "Регистрация была произведена ранее" в основном такую ошибку наблюдал когда произвел регистрацию потом отменил задачу и через время продолжил с того места с которого была остановлена задача. Но дело в том что ошибка эта появлялась и далее по списку хотя ресурсы регистрировались впервые (нужно профиксить этот баг)

Проверьте еще разок

XseoN.ru

XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Re: XseoN - плюсы, минусы, ошибки.

Кто сейчас на форуме