@Lunnayan said in Помогите с текстом:
Проблема была именно в BAS
Решил проблему через буфер обмена
https://skillbox.ru/media/code/yazyk-razmetki-markdown-shpargalka-po-sintaksisu-s-primerami/#stk-12
Принцип понятен, каким то образом найти сайты не в индексе, соответственно их контент имеет такой же статус. Вот его то и нужно вытянуть. Но как справиться с задачей силами BAS? Вот в чем вопрос...
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
@usertrue said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
сайты не в индексе. Это сайты из архива (причин много. К примеру банкротство компании - качество контента соответствующее. Но если long read лепить 10 к символов + картинки, то получается сносно).
_expireddomains.net здесь узнаётся когда сайты прекратили своё существование
Дело техники вытащить контент и проверить на уникальность.
Вот к примеру таким промышляют,_textnet.ru (не реклама)
@masterklas BAS с таким справится
@masterklas said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...
Ну как проверишь, расскажи нам :)