Парсер Google



  • Помогите сделать парсер сайтов с гугла на CMS Magento
    Нужно собрать много сайтов на CMS Magento.... Но не получается... за 10 дней собрал только 70 тис. сайтов... без дублей.
    Подскажите что можно сделать чтобы больше собрать сайтов....



  • @pro100sata использовать различные операторы



  • @кот а подробней? я новичок в этом просто)





  • @кот Я делал так
    Allinurl: /customer/account/create/

    Но гугл выдает не все результаты.



  • @pro100sata

    inurl:/webforms/index/index intext:2017
    inurl:/webforms/index/index/ intext:beauty intitle:shop dll
    intext:powered by webforms "contact" intext:2016
    intext:powered by webforms "contacto" intext:2016
    intext:powered by webforms "contact" intext:by
    intext:powered by webforms intext:shipping
    intext:"powered by webforms" ladies
    intext:"powered by webforms" man
    inurl:index.php/checkout/cart/ intitle:shopping
    inurl:checkout/cart/ intitle:shopping cart
    "audio" intitle:"Search Terms"
    "shop" intitle:"Search Terms"
    "mobile" intitle:"Search Terms"
    inurl:index.php/customer-service intitle:customer service
    "mall" inurl:index.php/customer-service
    "shirt" inurl:index.php/customer-service
    "beauty" inurl:index.php/customer-service
    "online" inurl:index.php/customer-service
    "games" inurl:index.php/customer-service
    "city" inurl:index.php/customer-service
    "mobile" login inurl:customer/account/login/ site:.com
    intitle:shop inurl:account/login/ site:.com
    intext:2016 inurl:customer/account/ site:.com
    inurl:/checkout/onepage/Login site:.com
    "site magento" inurl:/index.php/admin/index/
    "site magento" inurl:/index.php/admin/index/
    inurl:/?___from_store=id
    inurl://?___from_store=id intext:magento
    inurl:/?___store=
    inurl:/?___store= intext:magento
    inurl:/categories/books/ intext:magento
    "shirt" inurl:customer/account/login/ site:.com
    "Site magento"
    /index.php/admin/sales_order/ site:?
    
    inurl:"shirt" inurl:customer/account/login/ site:.com
    
    inurl:"jeans" inurl:account/login site:.com
    
    inurl:"Login or Create an Account. Registered Customers. If you have an account with us, log in using your email address. *Email Address. *Password. Login"
    
    inurl:"/skin/frontend/"
    
    inurl:"/frontend/enterprise/"
    
    inurl:"/js/mage/"
    
    inurl:"/default/sales/"
    
    inurl:"/customer/account/"
    
    inurl:"/account/create/"
    
    inurl:"/account/login/"
    
    inurl:"/account/forgotpassword"
    
    inurl:"/adminhtml/default/default/"
    
    inurl:"lib/LinLibertineFont/"
    
    inurl:"lib/3Dsecure/"
    
    inurl:"lib/flex/"
    
    inurl:"lib/googlecheckout/"
    
    inurl:"lib/LinLibertineFont/"
    
    inurl:"/catalogsearch/advanced"
    
    inurl:"/sales/guest/form/"
    
    inurl:"/catalogsearch/term/popular/"
    
    inurl:"/catalog/seo_sitemap/category/"
    
    inurl:"/index.php/catalog/seo_sitemap/category/"
    inurl:"/index.php/catalogsearch/term/popular/"
    
    inurl:"/catalogsearch/result/"
    
    inurl:"/catalogsearch/result?q="
    
    inurl:"/customer/account/login/referer/"
    
    inurl:"skin/frontend/base/"
    
    inurl:"skin/frontend/default/"
    
    inurl:"skin/frontend/default/blank/"
    
    inurl:"skin/frontend/default/blue/"
    
    inurl:"skin/frontend/default/default/"
    
    inurl:"skin/frontend/default/french/"
    
    inurl:"skin/frontend/default/german/"
    
    inurl:"skin/frontend/default/iphone/"
    
    inurl:"skin/frontend/default/modern/"
    
    inurl:"/skin/adminhtml/default/"
    
    inurl:"inurl:/adminhtml/default/default/"
    
    inurl:"inurl:/catalogsearch/result/"
    
    inurl:"inurl:/catalogsearch/advanced"
    
    inurl:"inurl:/catalogsearch/result?q="
    
    inurl:"inurl:/sales/guest/form/"
    
    inurl:"inurl:/default/sales/"
    
    inurl:"inurl:/customer/account/login/referer/"
    
    inurl:"inurl:/customer/account/"
    
    inurl:"inurl:/account/create/"
    
    inurl:"inurl:/account/login/"
    
    inurl:"inurl:/account/create/"
    
    inurl:"inurl:/account/forgotpassword"
    
    inurl:"inurl:lib/LinLibertineFont/"
    
    inurl:"inurl:lib/3Dsecure/"
    
    inurl:"inurl:lib/flex/"
    
    inurl:"/firecheckout/"
    
    inurl:"inurl:lib/googlecheckout/"
    
    inurl:"inurl:lib/LinLibertineFont/"
    
    inurl:"inurl:skin/frontend/base/"
    
    inurl:"inurl:skin/frontend/default/blank/"
    
    inurl:"inurl:skin/frontend/default/blue/"
    
    inurl:"inurl:skin/frontend/default/default/"
    
    inurl:"inurl:skin/frontend/default/french/"
    
    inurl:"inurl:skin/frontend/default/german/"
    
    inurl:"inurl:skin/frontend/default/iphone/"
    
    inurl:"inurl:skin/frontend/default/modern/"
    
    inurl:"index.php/sales/guest/"
    
    inurl:"index.php/catalogsearch/result/"
    
    inurl:"index.php/catalogsearch/advanced"
    
    inurl:"index.php/catalogsearch/result?q="
    
    inurl:"index.php/sales/guest/form/"
    
    inurl:"index.php/default/sales/"
    
    inurl:"index.php/customer/account/login/referer/"
    
    inurl:"index.php/customer/account/"
    
    inurl:"index.php/account/create/"
    
    inurl:"index.php/account/login/"
    
    inurl:"index.php/account/create/"
    
    inurl:"index.php/account/forgotpassword"
    
    inurl:"index.php/adminhtml/default/default/"
    

    дорки можно самому наклепать тысячами

    гугл не выдаст тебе все по одному запросу (зашита от парсеров) Обход - запросы должны быть разными и выдачу первую собираешь под разные запросы, ну и прокси запасайся.

    не только гуглом едины есть куча альторнативных поисковиков.



  • @кот Ну капча меня не пугает так как есть CapMonster...
    Я правильно понял, это нужно в запрос в гугл ставлять:
    inurl:"/default/sales/"

    inurl:"/customer/account/"

    inurl:"/account/create/"

    ?



  • @pro100sata ну ты попробуй...
    комбинируй запросы по доменам, по тексту в коде и т.п, можно сотни тысяч уникальных запросов сделать
    документацию скинул, примеры скинул, дерзай



  • @кот спасибо, буду пробовать



  • @кот Вроде как разобрался по чем оно ищет... но все же.... больше 20к сайтов собрать не могу....
    Дорков получилось сделать 150 шт всего... больше не к чему прицепится....



  • @кот Извините за глупый вопрос)) что это вообще такое >>> inurl:"/customer/account/"
    И где эти запросы работают и как?)) можно коротко рассказать или ссылку на инфу буду благодарен!))



  • @pro100sata к своим футпринтам добавляй бази слов(цифр) для парсинга. Также пособирай футпринты на других языках.



  • @assd в гугле найдите - операторы парсинга гугл. Там все написано



  • Что бы собрать нормальную базу нужно искать по клонам гугла и другим поисковикам на пост/гетах, ключи нужно использовать обещетематические ( мин лям другой) и проверять движок уже заходя на сайт, иначе много не собрать.



  • @root В смысле? можно по подробней) пожалуйста)



  • @seedgg Типо так пример:

    • "inurl:customer/account/create/ aaa"
    • "inurl:customer/account/create/ bab"
    • "inurl:customer/account/create/ cry"

    Правильно понял?



  • @pro100sata искать проще на клонах гугла, там меньше защиты, но нормальных осталось мало и просто так не кто не скажет, ну например https://duckduckgo.com, парсить нужно по словарю общетематических запросов, потом уже переходя на каждый сайт в выдаче определять его движок по признакам и тем самым можно собрать большую базу.



  • @pro100sata ну приблизительно. Но с операторами лучше не парсить, так как бан айпи будет очень скоро.
    "customer/account/create/" A 2
    "customer/account/create/" B 2
    "customer/account/create/" C 2

    "customer/account/create/" - константа(футпринты), остальное - разные базы слов, цифр...др. Для вариации выдачи. Собирать большую базу, потом на Басе создать анализатор на определение движка(лучше на гет запросах), и пройтись по всей базе для отсеивания мусора.



  • @pro100sata
    Вот некоторый список где можно парсить, но лучше даже гугл в 1 поток парсить, чем на этих поисковиках или клонах, так как у них очень сильно урезана выдача. Постоянно выдаются одни и теже результаты, глубина парсинка очень маленькая.
    http://www.jayde.com
    http://www.huntsy.com
    http://www.sogou.com
    https://busca.uol.com.br
    https://www.so.com
    http://www.when.com
    http://us.when.com
    http://www.aolsearch.com
    http://nova.rambler.ru
    https://www.hotbot.com/
    http://hotbot.com
    http://www.google.interia.pl
    https://lite.qwant.com
    http://googleusaserp.managames.com
    http://www.teoma.com
    http://uk.ask.com
    http://search.centrum.cz
    https://www.sogou.com
    http://arianna.libero.it
    http://ricerca.virgilio.it
    https://metager.de
    http://search.myway.com
    http://int.search.mywebsearch.com
    http://alothome.com
    http://search.alot.com
    http://www.zapmeta.com
    https://www.ecosia.org
    http://www.exalead.com
    http://search.avg.com
    http://www.startsiden.no
    http://searchatlas.centrum.cz
    https://suche.1und1.de
    https://suche.gmx.net
    https://suche.web.de
    http://search.aol.co.uk
    http://suche.aol.de
    http://o2suche.aol.de
    http://websearch.cs.com
    http://www.plusnetwork.com
    http://search.tut.by
    http://search-europe.net
    http://web1.exactseek.com
    http://nigma.ru
    http://deusu.org
    http://www.sputnik.ru
    http://www.wotbox.com
    http://search.yahoo.co.jp
    http://go.speedbit.com
    http://www.websearch.com
    http://www.gogo.by
    http://www.bing.com
    http://search.yahoo.com



  • @seedgg "остальное - разные базы слов, цифр...др"
    То есть нужно не набор букв а база слов и цифры?