Парсер Google

Кот

@pro100sata ну ты попробуй...
комбинируй запросы по доменам, по тексту в коде и т.п, можно сотни тысяч уникальных запросов сделать
документацию скинул, примеры скинул, дерзай

Pro100Sata

@кот спасибо, буду пробовать

Pro100Sata

@кот Вроде как разобрался по чем оно ищет... но все же.... больше 20к сайтов собрать не могу....
Дорков получилось сделать 150 шт всего... больше не к чему прицепится....

assd

@кот Извините за глупый вопрос)) что это вообще такое >>> inurl:"/customer/account/"
И где эти запросы работают и как?)) можно коротко рассказать или ссылку на инфу буду благодарен!))

seedgg

@pro100sata к своим футпринтам добавляй бази слов(цифр) для парсинга. Также пособирай футпринты на других языках.

seedgg

@assd в гугле найдите - операторы парсинга гугл. Там все написано

root

Что бы собрать нормальную базу нужно искать по клонам гугла и другим поисковикам на пост/гетах, ключи нужно использовать обещетематические ( мин лям другой) и проверять движок уже заходя на сайт, иначе много не собрать.

Pro100Sata

@root В смысле? можно по подробней) пожалуйста)

Pro100Sata

@seedgg Типо так пример:

"inurl:customer/account/create/ aaa"
"inurl:customer/account/create/ bab"
"inurl:customer/account/create/ cry"

Правильно понял?

root

@pro100sata искать проще на клонах гугла, там меньше защиты, но нормальных осталось мало и просто так не кто не скажет, ну например https://duckduckgo.com, парсить нужно по словарю общетематических запросов, потом уже переходя на каждый сайт в выдаче определять его движок по признакам и тем самым можно собрать большую базу.

seedgg

@pro100sata ну приблизительно. Но с операторами лучше не парсить, так как бан айпи будет очень скоро.
"customer/account/create/" A 2
"customer/account/create/" B 2
"customer/account/create/" C 2

"customer/account/create/" - константа(футпринты), остальное - разные базы слов, цифр...др. Для вариации выдачи. Собирать большую базу, потом на Басе создать анализатор на определение движка(лучше на гет запросах), и пройтись по всей базе для отсеивания мусора.

seedgg

@pro100sata
Вот некоторый список где можно парсить, но лучше даже гугл в 1 поток парсить, чем на этих поисковиках или клонах, так как у них очень сильно урезана выдача. Постоянно выдаются одни и теже результаты, глубина парсинка очень маленькая.
http://www.jayde.com
http://www.huntsy.com
http://www.sogou.com
https://busca.uol.com.br
https://www.so.com
http://www.when.com
http://us.when.com
http://www.aolsearch.com
http://nova.rambler.ru
https://www.hotbot.com/
http://hotbot.com
http://www.google.interia.pl
https://lite.qwant.com
http://googleusaserp.managames.com
http://www.teoma.com
http://uk.ask.com
http://search.centrum.cz
https://www.sogou.com
http://arianna.libero.it
http://ricerca.virgilio.it
https://metager.de
http://search.myway.com
http://int.search.mywebsearch.com
http://alothome.com
http://search.alot.com
http://www.zapmeta.com
https://www.ecosia.org
http://www.exalead.com
http://search.avg.com
http://www.startsiden.no
http://searchatlas.centrum.cz
https://suche.1und1.de
https://suche.gmx.net
https://suche.web.de
http://search.aol.co.uk
http://suche.aol.de
http://o2suche.aol.de
http://websearch.cs.com
http://www.plusnetwork.com
http://search.tut.by
http://search-europe.net
http://web1.exactseek.com
http://nigma.ru
http://deusu.org
http://www.sputnik.ru
http://www.wotbox.com
http://search.yahoo.co.jp
http://go.speedbit.com
http://www.websearch.com
http://www.gogo.by
http://www.bing.com
http://search.yahoo.com

Pro100Sata

@seedgg "остальное - разные базы слов, цифр...др"
То есть нужно не набор букв а база слов и цифры?

seedgg

@pro100sata то и другое.

Pro100Sata

@seedgg Я правильно понял?

"/customer/account/create/" general 10
"/customer/account/create/" ground 54
"/customer/account/create/" independent 13

seedgg

@pro100sata там где база слов там может быть все что угодно. Это нужно для того что бы обойти всякие ограничения на парсинг. Чтобы выдавало разные результаты. Можно парсить с минусом(-word "константа")...тогда напарсится быстрее. Гугл убирает только результаты с -word но отдаёт больше всех остальных.
Пример с цифрами
1 "константа"
2 "константа"
Тд.
Вместо 1 и 2 могут быть любые слова, словосочетание, буквы, цифры - это для варьирования выдачи и выдачи разных результатов.

Pro100Sata

@seedgg Не могу догнать...
Можете 5 примеров написать как оно выглядит?

seedgg

@pro100sata есть 2-е базы. 1-я база(список) слов, словарей, цифр, да что угодно, лишь бы гугл отдавал результат. 2-й список - это ваш признаки, которые насобирали. Методом перебора подставляется для каждого элемента 1-го списка, каждый элемент 2-го списка.
Если взять цифры первым списком, запросы:
1 "index.php/customer-service"
1 "/index.php/admin/index/"
1 "/?___from_store=id"
1 "/?___store="
...

2 "index.php/customer-service"
2 "/index.php/admin/index/"
2 "/?___from_store=id"
2 "/?___store="

гугл ищет совпадения на странице, что было 2(в тексте, в тайтле, в юрл, где угодно) + дополнительный пареметр (index.php/customer-service). Выдаст что-то похожее к тому что нужно + куча шлака, который прийдется убирать.
Для того чтобы собрать как можно больше, используются всякие разные базы. А ваша база с признаками остается одна и таже.
Используйте вместо первой базы, базу слов, дат или кучу другого, для того что именно, нужно проанализировать движок и узнать, что у них всех есть общего, например дата, но у всех она разная. Можно список дат самому в екселе сделать определенного формата и использовать базу с ними.

Bablosoft

Парсер Google

Блокировки при автоматизации работы с сервисами Google

Тест [Google reCAPTCHA v3] Как повысить Score?

Google Chrome - Возможно, этот браузер или приложение небезопасны.

google spreadsheets

Не работает селекторный цикл в google