x7blog (x7blog) wrote,
x7blog
x7blog

Парсинг Hrefer 3.3 в два прохода.

Ни для кого не секрет, что успешность постинга напрямую зависит от качества баз. Но как часто бывает, мы не обращаем внимание на такие детали, пытаясь взять количеством. Получаем в итоге мизерный процент пробива, а в следствии и низкий профит. Давайте же попробуем увеличить КПД XREFER 3.3 . Только одним ним, можно собрать за 20 минут десятки признаков для одного движка.

Разобьем нашу статью на две части: теоретическую и практическую.

Теория:
1)поиск заветной CMS (Под заветной, я понимаю ту, которая есть в минимальном количестве листов запросов для парсинга).
Как бы это банально не звучало, но есть только два способа найти чистые цмс для составления признаков это поисковики и всевозможные каталоги цмс(3 совет ). Значит, не будем усложнять себе жизнь, и воспользуемся Xrefer 3.3 , соберем для анализа около сотни сайтов, которые отвечают самым простым запросам.
Вот по этим признакам и будем отбирать:
intext:“Добавить комментарий”
intext:“Создать комментарий”
intext:“Зарегистрироваться”
intext:“Создать учетную запись”
intext:“Войти”
intext:“login”
intext: “Register”
intext: “add comment”
intext: “создать запись”
intext: “добавить запись”

Можно добавить к каждому из них слова(название новых фильмов или игр), для углубления в серп:
intext:“Добавить комментарий” “duke nukem”
intext:“Создать комментарий” “duke nukem”
intext:“Зарегистрироваться” “duke nukem”
intext:“Создать учетную запись” “duke nukem”
intext:“Войти” “duke nukem”
intext:“login” “duke nukem”
intext: “Register” “duke nukem”
intext: “add comment” “duke nukem”
intext: “создать запись” “duke nukem”
intext: “добавить запись” “duke nukem”

кого удивишь такими запросами? Но на самом деле все куда интереснее:
Запихаем эти признаки в Xrefer 3.3, отключаем Additive words и парсим первые 20-30 результатов с каждого запроса. Наш список ссылочек и будет основоположником для дальнейшего исследования.
Piccy.info - Free Image Hosting

2)открываем из нашего списка первых 30-50 в браузере и думаем какими такими примечательностями обладает тот или иной сайт, начнем с подвала.
Присутствует “Powered by ”. Копируем себе в блокнот. Что еще может быть: Design by – тоже в блокнот.
Теперь ищем страницы с возможностью комментировать, страницы логина, регистрации. Копируем себе в блокнот их адреса без домена:
inurl:”index.php?page=login”
inurl:”index.php?page=register”
inurl:"index.php?p="
Дальше исследуем, содержать ли адреса постов сайта такие отрывки, как год, месяц, дата - тоже делаем себе отметку в блокноте об этом. Теперь о страницах с комментариями и формами регистрации: копируем себе в блокнот все тексты возле полей, мало кто будет менять в формах такие записи как сайт, имя, ник...
Например, для вордпресса:
"powered by wordpress" “Subscribe by email”
"powered by wordpress" “Subscribe by RSS”
"powered by wordpress" “Email Address: (not published)”
"powered by wordpress" “Website:”
"powered by wordpress" « CAPTCHA Code»
"Design by Premium" inurl:/2011/

Давайте попробуем отпарсить несколько CMS таким методом.


Практика:
Парсим SMF:
Стандартная форма регистрации SMF имеет вид:
Piccy.info - Free Image Hosting
В футере:
“Powered by SMF”
“SMF © 2006–2011”
“Simple Machines LLC”

В хедере:
"Login with username, password and session length"
“Please login or register”

Из адресной строке:
inurl: action=register
inurl: action=login
inurl: index.php?board=
inurl: index.php?topic=

Из копирайта:
“You agree, through your use of this forum, that you will not post any material which is false, defamatory, inaccurate, abusive, vulgar, hateful, harassing, obscene, profane, sexually oriented, threatening, invasive of a person's privacy, adult material, or otherwise in violation of any International or United States Federal law. You also agree not to post any copyrighted material unless you own the copyright or you have written consent from the owner of the copyrighted material. Spam, flooding, advertisements, chain letters, pyramid schemes, and solicitations are also forbidden on this forum.”
"Please note that with each post, your IP address is recorded, in the event that you need to be banned from this forum or your ISP contacted. This will only happen in the event of a major violation of this agreement."



Из форм регистрации и логина(комбинируем с копирайтом для уточнения):
“Powered by SMF” "Allow users to email me:"
“Powered by SMF” "Verify password"
“Powered by SMF” "Username"
“Powered by SMF” "SMF Version"
“Powered by SMF” "Listen to the letters"
“Powered by SMF” “Email”

А если комбинировать такие запросы, сколько получится? Правильно – много)))

Парсим DLE:
Piccy.info - Free Image Hosting
inurl:index.php?action=mobile
inurl: index.php?do=register
inurl: /index.php?do=lostpassword
"Powered by DataLife Engine" “Ваш логин или E-Mail на сайте”
"Powered by DataLife Engine" “Введите код”*
"Powered by DataLife Engine" "Enter the two words shown in the image" “Powered by DataLife Engine”
“Регистрация на нашем сайте позволит Вам быть его полноценным участником. Вы сможете добавлять новости на сайт, оставлять свои комментарии, просматривать скрытый текст и многое другое.”
“Здравствуйте, уважаемый посетитель нашего сайта!”
"Powered by DataLife Engine" "Код безопасности:"
"Powered by DataLife Engine" "Повторите пароль"
"Powered by DataLife Engine" "В случае возникновения проблем с регистрацией, обратитесь к администратору сайта. "
"Powered by DataLife Engine" "Повторите пароль"
"Powered by DataLife Engine" "обновить, если не виден код"
"DataLife Engine Nulled by M.I.D-Team"
“лучший из новостных Неплохой движок Устраивает ... но ... Встречал и получше”
"Оцените работу движка" Powered by DataLife Engine
“- сообщения, не относящиеся к содержанию статьи или к контексту обсуждения
- оскорбление и угрозы в адрес посетителей сайта
- в комментариях запрещаются выражения, содержащие ненормативную лексику, унижающие человеческое достоинство, разжигающие межнациональную рознь”


При правильном подходе за 10-20 миинут можно найти 2, 3 редких движка, и еще за 10 минут собрать до 50-60 шаблонов для каждой системы управлении контентом. Маразм, скажите? Нет - детальный парсинг)))

Советы:
1) старайтесь не использовать в запросах inurl(все таки гугл банит быстрее);
2) используйте подсказки ПС
Piccy.info - Free Image Hosting
3)каталоги для поиска CMS
http://www.cmsmatrix.org/
http://www.cmswire.com/cms/micro-cms/results-most-popular-cms-in-technoratis-top-100-002198.php
http://catalogcms.ru/
http://www.cmslist.ru/catalogue/
http://www.dreamcss.com/2009/07/10-new-php-content-management.html
4)комбинируйте запросы
Удачного парсинга, Уважаемые. Тем более, что в руках такой мощный инструмент как hrefer.

Статья подготовлена в рамках третьего конкурса статей, для сайта Botmaster Labs

Материалы статьи:

Tags: hrefer, hrefer3.3, парсинг
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your reply will be screened

    Your IP address will be recorded 

  • 0 comments