Програмка для удаления дублей ссылок и вычитания списков

Здесь выкладываются ссылки на полезные источники по тематике нашего ресурса

Модератор: XseoN Founder

Програмка для удаления дублей ссылок и вычитания списков

Сообщение Sliper 19 июн 2013, 10:00

Ну из темы ясно для чего нужна данная тулза, функционал можно посмотреть на скринах.
Написал сам в обеденный перерыв ) весит около 6Mb из-за того что написана на PHP (извините, но я всетаки веб програмист). Писал для себя из-за постоянных зависаний Xseon во время удаления дублей ссылок и ссылок на один домен, вычитание сделал за компанию, в общем может кому нибудь пригодится.

Скрины:
Изображение
Изображение

Очень удобно работать с базами ссылок во время работы ксеона (когда он парсит ссылки или работает с форумами), хотя для этих целей можно запустить еще один Xseon (если он у вас работает без нареканий и зависонов). Работу проверял со списком из 1 100 000 ссылок, отработало без глюков.

>>Скачать<<
Sliper
 
Сообщений: 35
Зарегистрирован: 21 ноя 2011, 14:23

Re: Програмка для удаления дублей ссылок и вычитания списков

Сообщение XseoN Founder 19 июн 2013, 18:30

если он у вас работает без нареканий и зависонов

Возможно Вы сначала производите загрузку большого списка в программу нажатием НА КНОПКУ "ИЗ ФАЙЛА", если список урлов очень длинный - загрузка в программу может продолжаться ооочень долго, в таких случаях необходимо использовать опцию удаления дублей прямо с жесткого диска - НЕОБХОДИМО ОТМЕТИТЬ ГАЛКУ "ИЗ ФАЙЛА", ЗАТЕМ НАЖАТЬ НА КНОПКУ "УДАЛЕНИЕ ДУБЛЕЙ СТРОК", ЗАТЕМ СОХРАНИТЬ РЕЗУЛЬТАТ, ЗАТЕМ ЖМЕМ НА КНОПКУ "УДАЛЕНИЕ ДУБЛЕЙ ДОМЕНОВ", ВЫБИРАЕМ РАНЕЕ СОХРАНЕННЫЙ РЕЗУЛЬТАТ И ПОСЛЕ ОКОНЧАНИЯ РАБОТЫ ФУНКЦИИ СОХРАНЯЕМ РЕЗУЛЬТАТ.
Видео см. с 1мин. 20 сек. по 3мин. 10 сек.
При удалении дублей строк используется стандартная функция движка программирования, это не наше новшество, соответственно данная функция работает без нареканий, при этом используется асм, удаление дублей доменов - наша реализация.
После запуска удаления дублей доменов или строк используется главный поток программы, который отвечает за отображение и прорисовку интерфейса, удаление дублей строк, особенно доменов - длительная процедура, 500к обрабатывается в зависимости от железа до 5-8 мин., в среднем 3-4 мин, ПРИ ЭТОМ ИНТЕРФЕЙС ПРОГРАММЫ ПОДВИСАЕТ - не реагирует на нажатия, перемещение окна и т.п. - ПРОГРАММА НЕ ВИСНЕТ, можете посмотреть по загрузке процессора и посмотреть состояние процесса. После окончания удаления дублей интерфейс программы оживает. При парсинге программа делит спарсенные ссылки по 500к в целях ускорения удаления дублей.
То что Вы реализовали удаление дублей в пхп - это замечательно, СПАСИБО!
XseoN Founder
Администратор
 
Сообщений: 802
Зарегистрирован: 08 июл 2010, 14:26


Вернуться в Полезные источники информации

Кто сейчас на форуме

Сейчас этот форум просматривают: нет зарегистрированных пользователей и гости: 1

cron