@999tac ничего не понятно но очень интересно!)) А если серьёзно я уже накидал парсер правда через браузер,но мне и такой сойдет.И по времени ушло часов 6 с перерывами.По поводу прокси-смотря какие,я 6000 за 800р брал к примеру .По поводу т.з вообще непонятно,тут не заказ просто интересовался ценами,думал заказать если что т.к времени не было.Тема давно не актуальна,просто обиженный человек ее зачем то поднял
Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов
-
Принцип понятен, каким то образом найти сайты не в индексе, соответственно их контент имеет такой же статус. Вот его то и нужно вытянуть. Но как справиться с задачей силами BAS? Вот в чем вопрос...
-
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
-
@usertrue said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@masterklas БАС тут не причем. Правильней подумать как в принципе вы сможете найти эти сайты.
сайты не в индексе. Это сайты из архива (причин много. К примеру банкротство компании - качество контента соответствующее. Но если long read лепить 10 к символов + картинки, то получается сносно).
_expireddomains.net здесь узнаётся когда сайты прекратили своё существование
Дело техники вытащить контент и проверить на уникальность.
Вот к примеру таким промышляют,_textnet.ru (не реклама)@masterklas BAS с таким справится
-
@masterklas said in Кто сможет подсказать логику парсинга контента (статей) с еще непроиндексированных ПС сайтов:
@vvtex Интересно. Но есть мнение что текст когда то побывавший в индексе остаётся там навсегда и не будет уже уникальным, даже если его вытащить из лохматых годов. Но, надо проверить самому, убедиться так сказать...
Ну как проверишь, расскажи нам :)