Парсер Google

Поддержка
  • @pro100sata

    inurl:/webforms/index/index intext:2017
    inurl:/webforms/index/index/ intext:beauty intitle:shop dll
    intext:powered by webforms "contact" intext:2016
    intext:powered by webforms "contacto" intext:2016
    intext:powered by webforms "contact" intext:by
    intext:powered by webforms intext:shipping
    intext:"powered by webforms" ladies
    intext:"powered by webforms" man
    inurl:index.php/checkout/cart/ intitle:shopping
    inurl:checkout/cart/ intitle:shopping cart
    "audio" intitle:"Search Terms"
    "shop" intitle:"Search Terms"
    "mobile" intitle:"Search Terms"
    inurl:index.php/customer-service intitle:customer service
    "mall" inurl:index.php/customer-service
    "shirt" inurl:index.php/customer-service
    "beauty" inurl:index.php/customer-service
    "online" inurl:index.php/customer-service
    "games" inurl:index.php/customer-service
    "city" inurl:index.php/customer-service
    "mobile" login inurl:customer/account/login/ site:.com
    intitle:shop inurl:account/login/ site:.com
    intext:2016 inurl:customer/account/ site:.com
    inurl:/checkout/onepage/Login site:.com
    "site magento" inurl:/index.php/admin/index/
    "site magento" inurl:/index.php/admin/index/
    inurl:/?___from_store=id
    inurl://?___from_store=id intext:magento
    inurl:/?___store=
    inurl:/?___store= intext:magento
    inurl:/categories/books/ intext:magento
    "shirt" inurl:customer/account/login/ site:.com
    "Site magento"
    /index.php/admin/sales_order/ site:?
    
    inurl:"shirt" inurl:customer/account/login/ site:.com
    
    inurl:"jeans" inurl:account/login site:.com
    
    inurl:"Login or Create an Account. Registered Customers. If you have an account with us, log in using your email address. *Email Address. *Password. Login"
    
    inurl:"/skin/frontend/"
    
    inurl:"/frontend/enterprise/"
    
    inurl:"/js/mage/"
    
    inurl:"/default/sales/"
    
    inurl:"/customer/account/"
    
    inurl:"/account/create/"
    
    inurl:"/account/login/"
    
    inurl:"/account/forgotpassword"
    
    inurl:"/adminhtml/default/default/"
    
    inurl:"lib/LinLibertineFont/"
    
    inurl:"lib/3Dsecure/"
    
    inurl:"lib/flex/"
    
    inurl:"lib/googlecheckout/"
    
    inurl:"lib/LinLibertineFont/"
    
    inurl:"/catalogsearch/advanced"
    
    inurl:"/sales/guest/form/"
    
    inurl:"/catalogsearch/term/popular/"
    
    inurl:"/catalog/seo_sitemap/category/"
    
    inurl:"/index.php/catalog/seo_sitemap/category/"
    inurl:"/index.php/catalogsearch/term/popular/"
    
    inurl:"/catalogsearch/result/"
    
    inurl:"/catalogsearch/result?q="
    
    inurl:"/customer/account/login/referer/"
    
    inurl:"skin/frontend/base/"
    
    inurl:"skin/frontend/default/"
    
    inurl:"skin/frontend/default/blank/"
    
    inurl:"skin/frontend/default/blue/"
    
    inurl:"skin/frontend/default/default/"
    
    inurl:"skin/frontend/default/french/"
    
    inurl:"skin/frontend/default/german/"
    
    inurl:"skin/frontend/default/iphone/"
    
    inurl:"skin/frontend/default/modern/"
    
    inurl:"/skin/adminhtml/default/"
    
    inurl:"inurl:/adminhtml/default/default/"
    
    inurl:"inurl:/catalogsearch/result/"
    
    inurl:"inurl:/catalogsearch/advanced"
    
    inurl:"inurl:/catalogsearch/result?q="
    
    inurl:"inurl:/sales/guest/form/"
    
    inurl:"inurl:/default/sales/"
    
    inurl:"inurl:/customer/account/login/referer/"
    
    inurl:"inurl:/customer/account/"
    
    inurl:"inurl:/account/create/"
    
    inurl:"inurl:/account/login/"
    
    inurl:"inurl:/account/create/"
    
    inurl:"inurl:/account/forgotpassword"
    
    inurl:"inurl:lib/LinLibertineFont/"
    
    inurl:"inurl:lib/3Dsecure/"
    
    inurl:"inurl:lib/flex/"
    
    inurl:"/firecheckout/"
    
    inurl:"inurl:lib/googlecheckout/"
    
    inurl:"inurl:lib/LinLibertineFont/"
    
    inurl:"inurl:skin/frontend/base/"
    
    inurl:"inurl:skin/frontend/default/blank/"
    
    inurl:"inurl:skin/frontend/default/blue/"
    
    inurl:"inurl:skin/frontend/default/default/"
    
    inurl:"inurl:skin/frontend/default/french/"
    
    inurl:"inurl:skin/frontend/default/german/"
    
    inurl:"inurl:skin/frontend/default/iphone/"
    
    inurl:"inurl:skin/frontend/default/modern/"
    
    inurl:"index.php/sales/guest/"
    
    inurl:"index.php/catalogsearch/result/"
    
    inurl:"index.php/catalogsearch/advanced"
    
    inurl:"index.php/catalogsearch/result?q="
    
    inurl:"index.php/sales/guest/form/"
    
    inurl:"index.php/default/sales/"
    
    inurl:"index.php/customer/account/login/referer/"
    
    inurl:"index.php/customer/account/"
    
    inurl:"index.php/account/create/"
    
    inurl:"index.php/account/login/"
    
    inurl:"index.php/account/create/"
    
    inurl:"index.php/account/forgotpassword"
    
    inurl:"index.php/adminhtml/default/default/"
    

    дорки можно самому наклепать тысячами

    гугл не выдаст тебе все по одному запросу (зашита от парсеров) Обход - запросы должны быть разными и выдачу первую собираешь под разные запросы, ну и прокси запасайся.

    не только гуглом едины есть куча альторнативных поисковиков.

  • @кот Ну капча меня не пугает так как есть CapMonster...
    Я правильно понял, это нужно в запрос в гугл ставлять:
    inurl:"/default/sales/"

    inurl:"/customer/account/"

    inurl:"/account/create/"

    ?

  • @pro100sata ну ты попробуй...
    комбинируй запросы по доменам, по тексту в коде и т.п, можно сотни тысяч уникальных запросов сделать
    документацию скинул, примеры скинул, дерзай

  • @кот спасибо, буду пробовать

  • @кот Вроде как разобрался по чем оно ищет... но все же.... больше 20к сайтов собрать не могу....
    Дорков получилось сделать 150 шт всего... больше не к чему прицепится....

  • @кот Извините за глупый вопрос)) что это вообще такое >>> inurl:"/customer/account/"
    И где эти запросы работают и как?)) можно коротко рассказать или ссылку на инфу буду благодарен!))

  • @pro100sata к своим футпринтам добавляй бази слов(цифр) для парсинга. Также пособирай футпринты на других языках.

  • @assd в гугле найдите - операторы парсинга гугл. Там все написано

  • Что бы собрать нормальную базу нужно искать по клонам гугла и другим поисковикам на пост/гетах, ключи нужно использовать обещетематические ( мин лям другой) и проверять движок уже заходя на сайт, иначе много не собрать.

  • @root В смысле? можно по подробней) пожалуйста)

  • @seedgg Типо так пример:

    • "inurl:customer/account/create/ aaa"
    • "inurl:customer/account/create/ bab"
    • "inurl:customer/account/create/ cry"

    Правильно понял?

  • @pro100sata искать проще на клонах гугла, там меньше защиты, но нормальных осталось мало и просто так не кто не скажет, ну например https://duckduckgo.com, парсить нужно по словарю общетематических запросов, потом уже переходя на каждый сайт в выдаче определять его движок по признакам и тем самым можно собрать большую базу.

  • @pro100sata ну приблизительно. Но с операторами лучше не парсить, так как бан айпи будет очень скоро.
    "customer/account/create/" A 2
    "customer/account/create/" B 2
    "customer/account/create/" C 2

    "customer/account/create/" - константа(футпринты), остальное - разные базы слов, цифр...др. Для вариации выдачи. Собирать большую базу, потом на Басе создать анализатор на определение движка(лучше на гет запросах), и пройтись по всей базе для отсеивания мусора.

  • @pro100sata
    Вот некоторый список где можно парсить, но лучше даже гугл в 1 поток парсить, чем на этих поисковиках или клонах, так как у них очень сильно урезана выдача. Постоянно выдаются одни и теже результаты, глубина парсинка очень маленькая.
    http://www.jayde.com
    http://www.huntsy.com
    http://www.sogou.com
    https://busca.uol.com.br
    https://www.so.com
    http://www.when.com
    http://us.when.com
    http://www.aolsearch.com
    http://nova.rambler.ru
    https://www.hotbot.com/
    http://hotbot.com
    http://www.google.interia.pl
    https://lite.qwant.com
    http://googleusaserp.managames.com
    http://www.teoma.com
    http://uk.ask.com
    http://search.centrum.cz
    https://www.sogou.com
    http://arianna.libero.it
    http://ricerca.virgilio.it
    https://metager.de
    http://search.myway.com
    http://int.search.mywebsearch.com
    http://alothome.com
    http://search.alot.com
    http://www.zapmeta.com
    https://www.ecosia.org
    http://www.exalead.com
    http://search.avg.com
    http://www.startsiden.no
    http://searchatlas.centrum.cz
    https://suche.1und1.de
    https://suche.gmx.net
    https://suche.web.de
    http://search.aol.co.uk
    http://suche.aol.de
    http://o2suche.aol.de
    http://websearch.cs.com
    http://www.plusnetwork.com
    http://search.tut.by
    http://search-europe.net
    http://web1.exactseek.com
    http://nigma.ru
    http://deusu.org
    http://www.sputnik.ru
    http://www.wotbox.com
    http://search.yahoo.co.jp
    http://go.speedbit.com
    http://www.websearch.com
    http://www.gogo.by
    http://www.bing.com
    http://search.yahoo.com

  • @seedgg "остальное - разные базы слов, цифр...др"
    То есть нужно не набор букв а база слов и цифры?

  • @pro100sata то и другое.

  • @seedgg Я правильно понял?

    "/customer/account/create/" general 10
    "/customer/account/create/" ground 54
    "/customer/account/create/" independent 13

  • @pro100sata там где база слов там может быть все что угодно. Это нужно для того что бы обойти всякие ограничения на парсинг. Чтобы выдавало разные результаты. Можно парсить с минусом(-word "константа")...тогда напарсится быстрее. Гугл убирает только результаты с -word но отдаёт больше всех остальных.
    Пример с цифрами
    1 "константа"
    2 "константа"
    Тд.
    Вместо 1 и 2 могут быть любые слова, словосочетание, буквы, цифры - это для варьирования выдачи и выдачи разных результатов.

  • @seedgg Не могу догнать...
    Можете 5 примеров написать как оно выглядит?

  • @pro100sata есть 2-е базы. 1-я база(список) слов, словарей, цифр, да что угодно, лишь бы гугл отдавал результат. 2-й список - это ваш признаки, которые насобирали. Методом перебора подставляется для каждого элемента 1-го списка, каждый элемент 2-го списка.
    Если взять цифры первым списком, запросы:
    1 "index.php/customer-service"
    1 "/index.php/admin/index/"
    1 "/?___from_store=id"
    1 "/?___store="
    ...

    2 "index.php/customer-service"
    2 "/index.php/admin/index/"
    2 "/?___from_store=id"
    2 "/?___store="

    гугл ищет совпадения на странице, что было 2(в тексте, в тайтле, в юрл, где угодно) + дополнительный пареметр (index.php/customer-service). Выдаст что-то похожее к тому что нужно + куча шлака, который прийдется убирать.
    Для того чтобы собрать как можно больше, используются всякие разные базы. А ваша база с признаками остается одна и таже.
    Используйте вместо первой базы, базу слов, дат или кучу другого, для того что именно, нужно проанализировать движок и узнать, что у них всех есть общего, например дата, но у всех она разная. Можно список дат самому в екселе сделать определенного формата и использовать базу с ними.

  • Google.com капча

    Поддержка
    0 Votes
    4 Posts
    437 Views
  • 0 Votes
    9 Posts
    1520 Views
  • 0 Votes
    7 Posts
    5251 Views
  • Поиск в Google

    Поддержка
    0 Votes
    11 Posts
    1874 Views