x7blog (x7blog) wrote,
x7blog
x7blog

Парсинг поисковых систем при помощы Hreferа 3.3 без использования публичных прокси серверов.

Сегодня поговорим о парсинге поисковых систем при помощи Hrefer 3.3 и без использования публичных прокси серверов. Некоторые методы просто опишу для знакомства, а с некоторыми - поработаем на практике.
Так как в основном тяну линки с гугла, буду описывать все методики под эту поисковую систему.
1. Парсинг через анонимайзеры, типа тор.
Данный метод спалили (и убили) достаточно давно.Опишу его только для того, чтобы выложить ссылки на похожие сервисы. Им же пользуются огромное количество веб мастеров, и не только для парсинга. Из-за этого сетку тора начали быстро вычислять Поисковые системы.
Приведу настройки для Tor, но скорее для обзора, нежели для пользы:
1. Устанавливаем Tor;
2. В Хрефере, в фале xpoxy.txt пишем 127.0.0.1:8118;
3. При помощи программы uopilot автоматизируем нажатие на кнопку “Сменить ним”(New Nym)
Piccy.info - Free Image Hosting
Скорость плачевная, но что-то еще собирает.

Аналоги программы:
http://www.i2p2.de/index_ru.html
http://freenetproject.org/
http://www.thanksoft.com/
https://www.ipredator.se/?lang=en
Попробуйте попытать счастья с ними. Главное, что теперь знаете в какую сторону копать...

2. Ввод капчи.
Самый любопытный. Метод сводится к тому, что при парсинге, после определенного количества запросов, Google выдает окно с капчей. При этом Hrefer, после нескольких попыток, останавливается. Открываем IE(очень желательно), и делаем запрос к Google. Но так, как браузер и Hrefer сидят на одном и том же IP, в ответ получаем капчу. Вводим и наблюдаем картину, как Hrefer продолжает парсить. У этого метода, есть огромный минус - фиг поймешь гугла. То 302 страницу выдаст, то капчу, то белое окно, то еще не понятно что. Единственное, что я опытным путем выяснил, так это частоту появления капчи. Приблизительно 1000 запросов-100-20-1-1-1. То есть после некоторого количества(и качества) запросов, он, буквально засыпает капчами. Лично для себя, откинул идею автоматизации такого метода.

3. Парсинг партнеров гугла.
Даная тема работает уже очень давно. Узнал я о ней, еще, наверное, в 2008 году. Подозреваю, что именно этот вариант продают парни из форума. Суть ее заключается в поиске сайтов, которые используют поисковый механизм гугла. Я, в свое время долго парсил websearch.cs.com. Но теперь, этот поисковик отдает только первую страницу выдачи. При 3апросе следующей, получаем от гугла 302. Давайте настроим наш Hrefer 3.3 на этот поисковик:
В файле engines.ini:

[websearch.cs.com]
Hostname=http://websearch.cs.com/
Query=cs/search?query=[QUERY]&x=23&y=11&st=webresults&fromPage=CSIndex
LinksMask=onmouseover="self.[...]='[LINK]'
TotalPages=100
NextPage=<link rel="next" href="[LINK]"></b>
NextPage2=<link rel="next" href="[LINK]"></b>


Может кому-то так будет легче разобраться(картинка кликабельна):

Piccy.info - Free Image Hosting

Если грамотно составить(растянуть) запросы, то и так можно успешно доить гугла.

Как искать такие сайты:
1.в гугле: "web search" и пробным путем пробуем нащупать того заветного.
2. http://en.wikipedia.org/wiki/Web_search_engine
3. http://www.philb.com/webse.htm

4. Принудительная смена IP.
Самый естественный и простой метод. Жаль, что не работает с провайдерами, которые выдают статические IP адреса. Конечно же, не будет он работать и на вебсерверах. Суть предельно проста - рассоединяемся от интернета, и снова соединяемся. Днс сервер, выдает нам новый IP, и мы продолжаем беззаботно парсить любые поисковые системы, в любых обьемах. Отлично работает на самых крупных провайдерах Украины: Укртелекомовском "Ого", и "Домашнем интернете" от Киевстара. И самое классное здесь то, что Hrefer идеально нам для этого подходит.
Софт для работы на delphi(Я с такими настройками парсю гугл в 60 потоков 200-400к ссылок в час).
Piccy.info - Free Image Hosting

Носторойки:
Имя соединения – имя вашего Интернет соединения
Логин и Пароль соответственно
Задержка – врем между Дисконнектами
Между D и C - врем между Дисконнектом и Коннектом(чтобы не получить такой-же айпи)
Все настройки хрянятся в файле settings.ini
СКАЧАТЬ
Хочу лишь добавить, что метод наиболее эффективен на большом количестве запросов дл парсинга (от 300).

И в заключение. Я не вспомнил, разве что методы парсига гугла через аякс API и дыры с юзер агентами. Но не будем ворошить покойников.
Статья подготовлена в рамках третьего конкурса статей BotmasterRu.Com .Может она Вам покажется суховатой, но это все имело (и имеет) место в моей практике, а значит, должна кому-то пригодится еще. Спасибо за внимание.

Прикрепленные программы и матриалы:


Tags: hrefer, xrumer, Парсинг
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 3 comments