@NickBAS В окне выбора ресурсов в самом низу есть переключатель повторного использования
Стоп-слова. Парсинг и строки
-
Возникла пара вопросов, нужны советы может быть кто-то сталкивался :)
Вопрос первый.
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?Вопрос второй. Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
-
@venom777 Вариант как я это делал, не знаю на сколько это вам подойдет.
Мы копируем текст вставляем его в csv потом читаем и вставляем, куда нужно
0_1478893303631_сохранить текст с форматировнием.xml
Правда не знаю на сколько большой текст можно сохранить, так как небыло нужды огромные тексты сохранять.
Плюс удобно когда можно разбить на столбцы и т.д. -
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?
Да, я пробовал. Это делается в 2 действия "Ресурс В Список" и "Получить Индекс". Работает на 10 к списке мгновенно
0_1479039057258_stopwords.xmlДля того, чтобы проверить наличие слов на странице нужно сначала получить все слова на странице в список, потом сделать проверку в цикле. Если запускать в режиме "Запись", то проверка стоп слов выполняется мгновенно.
0_1479039804112_stopwords.xmlИз последнего проекта вы можете сделать функцию и использовать при каждой загрузке страницы.
Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
Перед записью новости в файл вы можете кодировать ее в base64, а после чтение раскодировать(все это действием base64)