@asdxvc3242
Попробуйте отключить модуль и решить recaptcha.
Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов
-
Принцип понятен, каким то образом найти сайты не в индексе, соответственно их контент имеет такой же статус. Вот его то и нужно вытянуть. Но как справиться с задачей силами BAS? Вот в чем вопрос...
-
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
-
@usertrue said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
сайты не в индексе. Это сайты из архива (причин много. К примеру банкротство компании - качество контента соответствующее. Но если long read лепить 10 к символов + картинки, то получается сносно).
_expireddomains.net здесь узнаётся когда сайты прекратили своё существование
Дело техники вытащить контент и проверить на уникальность.
Вот к примеру таким промышляют,_textnet.ru (не реклама)@masterklas BAS с таким справится
-
@masterklas said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...
Ну как проверишь, расскажи нам :)