XEvil 5 пишет уже где то около месяца что научиться скоро (как скоро ни кому не понятно)
решать эту ReCaptcha V3
Не знаю пока на сколько score там будет
но там не не просто нужно ее решить там же еще учитывается история браузера, срок с какого момента вся эта история, и бог весь еще что
я пробывал решать ее через Rucaptcha.com там score давал 0,3 и все
Парсер Google
-
@pro100sata ну ты попробуй...
комбинируй запросы по доменам, по тексту в коде и т.п, можно сотни тысяч уникальных запросов сделать
документацию скинул, примеры скинул, дерзай -
@pro100sata к своим футпринтам добавляй бази слов(цифр) для парсинга. Также пособирай футпринты на других языках.
-
@pro100sata искать проще на клонах гугла, там меньше защиты, но нормальных осталось мало и просто так не кто не скажет, ну например https://duckduckgo.com, парсить нужно по словарю общетематических запросов, потом уже переходя на каждый сайт в выдаче определять его движок по признакам и тем самым можно собрать большую базу.
-
@pro100sata ну приблизительно. Но с операторами лучше не парсить, так как бан айпи будет очень скоро.
"customer/account/create/" A 2
"customer/account/create/" B 2
"customer/account/create/" C 2"customer/account/create/" - константа(футпринты), остальное - разные базы слов, цифр...др. Для вариации выдачи. Собирать большую базу, потом на Басе создать анализатор на определение движка(лучше на гет запросах), и пройтись по всей базе для отсеивания мусора.
-
@pro100sata
Вот некоторый список где можно парсить, но лучше даже гугл в 1 поток парсить, чем на этих поисковиках или клонах, так как у них очень сильно урезана выдача. Постоянно выдаются одни и теже результаты, глубина парсинка очень маленькая.
http://www.jayde.com
http://www.huntsy.com
http://www.sogou.com
https://busca.uol.com.br
https://www.so.com
http://www.when.com
http://us.when.com
http://www.aolsearch.com
http://nova.rambler.ru
https://www.hotbot.com/
http://hotbot.com
http://www.google.interia.pl
https://lite.qwant.com
http://googleusaserp.managames.com
http://www.teoma.com
http://uk.ask.com
http://search.centrum.cz
https://www.sogou.com
http://arianna.libero.it
http://ricerca.virgilio.it
https://metager.de
http://search.myway.com
http://int.search.mywebsearch.com
http://alothome.com
http://search.alot.com
http://www.zapmeta.com
https://www.ecosia.org
http://www.exalead.com
http://search.avg.com
http://www.startsiden.no
http://searchatlas.centrum.cz
https://suche.1und1.de
https://suche.gmx.net
https://suche.web.de
http://search.aol.co.uk
http://suche.aol.de
http://o2suche.aol.de
http://websearch.cs.com
http://www.plusnetwork.com
http://search.tut.by
http://search-europe.net
http://web1.exactseek.com
http://nigma.ru
http://deusu.org
http://www.sputnik.ru
http://www.wotbox.com
http://search.yahoo.co.jp
http://go.speedbit.com
http://www.websearch.com
http://www.gogo.by
http://www.bing.com
http://search.yahoo.com -
@pro100sata то и другое.
-
@pro100sata там где база слов там может быть все что угодно. Это нужно для того что бы обойти всякие ограничения на парсинг. Чтобы выдавало разные результаты. Можно парсить с минусом(-word "константа")...тогда напарсится быстрее. Гугл убирает только результаты с -word но отдаёт больше всех остальных.
Пример с цифрами
1 "константа"
2 "константа"
Тд.
Вместо 1 и 2 могут быть любые слова, словосочетание, буквы, цифры - это для варьирования выдачи и выдачи разных результатов. -
@pro100sata есть 2-е базы. 1-я база(список) слов, словарей, цифр, да что угодно, лишь бы гугл отдавал результат. 2-й список - это ваш признаки, которые насобирали. Методом перебора подставляется для каждого элемента 1-го списка, каждый элемент 2-го списка.
Если взять цифры первым списком, запросы:
1 "index.php/customer-service"
1 "/index.php/admin/index/"
1 "/?___from_store=id"
1 "/?___store="
...2 "index.php/customer-service"
2 "/index.php/admin/index/"
2 "/?___from_store=id"
2 "/?___store="гугл ищет совпадения на странице, что было 2(в тексте, в тайтле, в юрл, где угодно) + дополнительный пареметр (index.php/customer-service). Выдаст что-то похожее к тому что нужно + куча шлака, который прийдется убирать.
Для того чтобы собрать как можно больше, используются всякие разные базы. А ваша база с признаками остается одна и таже.
Используйте вместо первой базы, базу слов, дат или кучу другого, для того что именно, нужно проанализировать движок и узнать, что у них всех есть общего, например дата, но у всех она разная. Можно список дат самому в екселе сделать определенного формата и использовать базу с ними.