Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов

masterklas_s

Принцип понятен, каким то образом найти сайты не в индексе, соответственно их контент имеет такой же статус. Вот его то и нужно вытянуть. Но как справиться с задачей силами BAS? Вот в чем вопрос...

? Offline

@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.

vvtex

@usertrue said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:

@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.

сайты не в индексе. Это сайты из архива (причин много. К примеру банкротство компании - качество контента соответствующее. Но если long read лепить 10 к символов + картинки, то получается сносно).
_expireddomains.net здесь узнаётся когда сайты прекратили своё существование
Дело техники вытащить контент и проверить на уникальность.
Вот к примеру таким промышляют,_textnet.ru (не реклама)

@masterklas BAS с таким справится

masterklas_s

@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...

vvtex

@masterklas said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:

@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...

Ну как проверишь, расскажи нам :)

Bablosoft

Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов

Сравнение с файлом

Баг/Палево с прокруткой

Ошибки с прокси

Можно ли при подключенном прокси для определенных сайтов игнорировать его. Чтоб к этим "Определенным сайтам" обращение с моего ip шло

Люди помогите с капчей