@trsxcc, выполнить код:
[[GROUPS]] = RInfo("db", "Groups").split(",");db - Имя ресурса, для которого нужно получить выбранные группы
[[GROUPS]] - Переменная, в которую будет сохранён список выбранных групп
Принцип понятен, каким то образом найти сайты не в индексе, соответственно их контент имеет такой же статус. Вот его то и нужно вытянуть. Но как справиться с задачей силами BAS? Вот в чем вопрос...
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
@usertrue said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
сайты не в индексе. Это сайты из архива (причин много. К примеру банкротство компании - качество контента соответствующее. Но если long read лепить 10 к символов + картинки, то получается сносно).
_expireddomains.net здесь узнаётся когда сайты прекратили своё существование
Дело техники вытащить контент и проверить на уникальность.
Вот к примеру таким промышляют,_textnet.ru (не реклама)
@masterklas BAS с таким справится
@masterklas said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...
Ну как проверишь, расскажи нам :)