@GameBot благодарю,
изучу этот модуль
Помогите сделать парсер сайтов с гугла на CMS Magento
Нужно собрать много сайтов на CMS Magento.... Но не получается... за 10 дней собрал только 70 тис. сайтов... без дублей.
Подскажите что можно сделать чтобы больше собрать сайтов....
@pro100sata использовать различные операторы
inurl:/webforms/index/index intext:2017
inurl:/webforms/index/index/ intext:beauty intitle:shop dll
intext:powered by webforms "contact" intext:2016
intext:powered by webforms "contacto" intext:2016
intext:powered by webforms "contact" intext:by
intext:powered by webforms intext:shipping
intext:"powered by webforms" ladies
intext:"powered by webforms" man
inurl:index.php/checkout/cart/ intitle:shopping
inurl:checkout/cart/ intitle:shopping cart
"audio" intitle:"Search Terms"
"shop" intitle:"Search Terms"
"mobile" intitle:"Search Terms"
inurl:index.php/customer-service intitle:customer service
"mall" inurl:index.php/customer-service
"shirt" inurl:index.php/customer-service
"beauty" inurl:index.php/customer-service
"online" inurl:index.php/customer-service
"games" inurl:index.php/customer-service
"city" inurl:index.php/customer-service
"mobile" login inurl:customer/account/login/ site:.com
intitle:shop inurl:account/login/ site:.com
intext:2016 inurl:customer/account/ site:.com
inurl:/checkout/onepage/Login site:.com
"site magento" inurl:/index.php/admin/index/
"site magento" inurl:/index.php/admin/index/
inurl:/?___from_store=id
inurl://?___from_store=id intext:magento
inurl:/?___store=
inurl:/?___store= intext:magento
inurl:/categories/books/ intext:magento
"shirt" inurl:customer/account/login/ site:.com
"Site magento"
/index.php/admin/sales_order/ site:?
inurl:"shirt" inurl:customer/account/login/ site:.com
inurl:"jeans" inurl:account/login site:.com
inurl:"Login or Create an Account. Registered Customers. If you have an account with us, log in using your email address. *Email Address. *Password. Login"
inurl:"/skin/frontend/"
inurl:"/frontend/enterprise/"
inurl:"/js/mage/"
inurl:"/default/sales/"
inurl:"/customer/account/"
inurl:"/account/create/"
inurl:"/account/login/"
inurl:"/account/forgotpassword"
inurl:"/adminhtml/default/default/"
inurl:"lib/LinLibertineFont/"
inurl:"lib/3Dsecure/"
inurl:"lib/flex/"
inurl:"lib/googlecheckout/"
inurl:"lib/LinLibertineFont/"
inurl:"/catalogsearch/advanced"
inurl:"/sales/guest/form/"
inurl:"/catalogsearch/term/popular/"
inurl:"/catalog/seo_sitemap/category/"
inurl:"/index.php/catalog/seo_sitemap/category/"
inurl:"/index.php/catalogsearch/term/popular/"
inurl:"/catalogsearch/result/"
inurl:"/catalogsearch/result?q="
inurl:"/customer/account/login/referer/"
inurl:"skin/frontend/base/"
inurl:"skin/frontend/default/"
inurl:"skin/frontend/default/blank/"
inurl:"skin/frontend/default/blue/"
inurl:"skin/frontend/default/default/"
inurl:"skin/frontend/default/french/"
inurl:"skin/frontend/default/german/"
inurl:"skin/frontend/default/iphone/"
inurl:"skin/frontend/default/modern/"
inurl:"/skin/adminhtml/default/"
inurl:"inurl:/adminhtml/default/default/"
inurl:"inurl:/catalogsearch/result/"
inurl:"inurl:/catalogsearch/advanced"
inurl:"inurl:/catalogsearch/result?q="
inurl:"inurl:/sales/guest/form/"
inurl:"inurl:/default/sales/"
inurl:"inurl:/customer/account/login/referer/"
inurl:"inurl:/customer/account/"
inurl:"inurl:/account/create/"
inurl:"inurl:/account/login/"
inurl:"inurl:/account/create/"
inurl:"inurl:/account/forgotpassword"
inurl:"inurl:lib/LinLibertineFont/"
inurl:"inurl:lib/3Dsecure/"
inurl:"inurl:lib/flex/"
inurl:"/firecheckout/"
inurl:"inurl:lib/googlecheckout/"
inurl:"inurl:lib/LinLibertineFont/"
inurl:"inurl:skin/frontend/base/"
inurl:"inurl:skin/frontend/default/blank/"
inurl:"inurl:skin/frontend/default/blue/"
inurl:"inurl:skin/frontend/default/default/"
inurl:"inurl:skin/frontend/default/french/"
inurl:"inurl:skin/frontend/default/german/"
inurl:"inurl:skin/frontend/default/iphone/"
inurl:"inurl:skin/frontend/default/modern/"
inurl:"index.php/sales/guest/"
inurl:"index.php/catalogsearch/result/"
inurl:"index.php/catalogsearch/advanced"
inurl:"index.php/catalogsearch/result?q="
inurl:"index.php/sales/guest/form/"
inurl:"index.php/default/sales/"
inurl:"index.php/customer/account/login/referer/"
inurl:"index.php/customer/account/"
inurl:"index.php/account/create/"
inurl:"index.php/account/login/"
inurl:"index.php/account/create/"
inurl:"index.php/account/forgotpassword"
inurl:"index.php/adminhtml/default/default/"
дорки можно самому наклепать тысячами
гугл не выдаст тебе все по одному запросу (зашита от парсеров) Обход - запросы должны быть разными и выдачу первую собираешь под разные запросы, ну и прокси запасайся.
не только гуглом едины есть куча альторнативных поисковиков.
@pro100sata ну ты попробуй...
комбинируй запросы по доменам, по тексту в коде и т.п, можно сотни тысяч уникальных запросов сделать
документацию скинул, примеры скинул, дерзай
@pro100sata к своим футпринтам добавляй бази слов(цифр) для парсинга. Также пособирай футпринты на других языках.
@pro100sata искать проще на клонах гугла, там меньше защиты, но нормальных осталось мало и просто так не кто не скажет, ну например https://duckduckgo.com, парсить нужно по словарю общетематических запросов, потом уже переходя на каждый сайт в выдаче определять его движок по признакам и тем самым можно собрать большую базу.
@pro100sata ну приблизительно. Но с операторами лучше не парсить, так как бан айпи будет очень скоро.
"customer/account/create/" A 2
"customer/account/create/" B 2
"customer/account/create/" C 2
"customer/account/create/" - константа(футпринты), остальное - разные базы слов, цифр...др. Для вариации выдачи. Собирать большую базу, потом на Басе создать анализатор на определение движка(лучше на гет запросах), и пройтись по всей базе для отсеивания мусора.
@pro100sata
Вот некоторый список где можно парсить, но лучше даже гугл в 1 поток парсить, чем на этих поисковиках или клонах, так как у них очень сильно урезана выдача. Постоянно выдаются одни и теже результаты, глубина парсинка очень маленькая.
http://www.jayde.com
http://www.huntsy.com
http://www.sogou.com
https://busca.uol.com.br
https://www.so.com
http://www.when.com
http://us.when.com
http://www.aolsearch.com
http://nova.rambler.ru
https://www.hotbot.com/
http://hotbot.com
http://www.google.interia.pl
https://lite.qwant.com
http://googleusaserp.managames.com
http://www.teoma.com
http://uk.ask.com
http://search.centrum.cz
https://www.sogou.com
http://arianna.libero.it
http://ricerca.virgilio.it
https://metager.de
http://search.myway.com
http://int.search.mywebsearch.com
http://alothome.com
http://search.alot.com
http://www.zapmeta.com
https://www.ecosia.org
http://www.exalead.com
http://search.avg.com
http://www.startsiden.no
http://searchatlas.centrum.cz
https://suche.1und1.de
https://suche.gmx.net
https://suche.web.de
http://search.aol.co.uk
http://suche.aol.de
http://o2suche.aol.de
http://websearch.cs.com
http://www.plusnetwork.com
http://search.tut.by
http://search-europe.net
http://web1.exactseek.com
http://nigma.ru
http://deusu.org
http://www.sputnik.ru
http://www.wotbox.com
http://search.yahoo.co.jp
http://go.speedbit.com
http://www.websearch.com
http://www.gogo.by
http://www.bing.com
http://search.yahoo.com