Здравствуйте, если сообщите на каком сайте и в какое поле нужно вставить текст, то помогут намного быстрее.
Чтение файла со списком в переменную и ввод текста без эмуляции, например в поле ввода текста на форуме, вставляет текст с переносами.
b2f17161-faaa-408b-88e4-1fddf70672bc-image.png
Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов
-
Принцип понятен, каким то образом найти сайты не в индексе, соответственно их контент имеет такой же статус. Вот его то и нужно вытянуть. Но как справиться с задачей силами BAS? Вот в чем вопрос...
-
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
-
@usertrue said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
сайты не в индексе. Это сайты из архива (причин много. К примеру банкротство компании - качество контента соответствующее. Но если long read лепить 10 к символов + картинки, то получается сносно).
_expireddomains.net здесь узнаётся когда сайты прекратили своё существование
Дело техники вытащить контент и проверить на уникальность.
Вот к примеру таким промышляют,_textnet.ru (не реклама)@masterklas BAS с таким справится
-
@masterklas said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...
Ну как проверишь, расскажи нам :)