Всем привет!
Очень прошу принять во внимание следующие пожелания для увеличения функциональности XCPC:
Итак, есть список сайтов откуда можно спарсить прокси. Но среди этих сайтов есть такие сайты, где выложены НЕ РАБОЧИЕ прокси, и сайты, которые не содержат вообще ниодного прокси.
Идея - отбрасывать эти плохие сайты.Как бы логика скрипта: 1) Указываем источник со списком прокси
2) Делаем нужные настройки
3) Жмем
ПУСК4) Первый этап - парсим прокси.
При парсинге берется URL, смотрим есть ли на этой странице прокси. Если ЕСТЬ там прокси заносим его (URL) в txt файл с названием, например, good_url.txt - файл с ссылками, где найден хоть один прокси. Если НЕТ там прокси - отбрасываем его. А найденные прокси записываем в found_proxy.txt - файл, с указанием ресурса, а внизу найденные прокси.
Вот в таком виде (для примера):
- Код: выделить все
http://www.vip-socks.net/
101.255.32.10:8080
103.10.134.145:3128
103.10.134.149:3128
103.22.248.100:3128
103.22.248.135:3128
103.22.248.98:3128
103.3.79.98:8080
http://www.russianproxy.ru/socks5_proxy_list_fastest
109.104.129.222:8080
109.123.126.253:8080
109.205.114.2:8000
109.224.26.179:8080
109.251.34.19:8080
109.86.198.39:5190
110.137.248.66:8080
110.137.25.155:3128
110.138.146.30:8080
110.77.204.24:3128
110.77.204.54:3128
110.77.205.227:3128
110.77.239.57:3128
http://cool-proxy.ru/spisok-soksov-20-08-11.html#more-29750
110.77.250.170:3128
110.77.250.176:3128
111.1.33.138:80
В итоге первого этапа у нас должен быть создан файл good_url.txt и found_proxy.txt5) Второй этап - проверка прокси. Начинаем проверку прокси из файла
found_proxy.txt.
5.1 Берем строку с указанием ресурса
http://www.vip-socks.net/ и найденные под ним прокси
5.2 Проверяем прокси на анонимность и работоспособность. Если среди найденных прокси найдется более 2-х рабочих прокси, то заносим этот ресурс в файл
good_url_verified.txt - проверенные ссылки с обновляющимися прокси. А рабочие прокси раскидываем по файлам http_proxy, https_proxy socks_proxy.
6) Завершение работы XCPC
Т.О.
мы сможем сэкономить наше время, так как нам не придется каждый раз проверять такие сайты, где выложены НЕ РАБОЧИЕ прокси, и сайты, которые не содержат вообще ниодного прокси.