Стоп-слова. Парсинг и строки



  • Возникла пара вопросов, нужны советы может быть кто-то сталкивался :)
    Вопрос первый.
    Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?

    Вопрос второй. Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.



  • @venom777 Если допустим использовать парсинг этого слова со станицы и потом проверить содержится ли он в файле.(т.е. сделать действие читать файл и проверить весь файл на наличие этого слова, есть ли оно или нет)



  • @venom777 Вариант как я это делал, не знаю на сколько это вам подойдет.
    Мы копируем текст вставляем его в csv потом читаем и вставляем, куда нужно
    0_1478893303631_сохранить текст с форматировнием.xml
    Правда не знаю на сколько большой текст можно сохранить, так как небыло нужды огромные тексты сохранять.
    Плюс удобно когда можно разбить на столбцы и т.д.



  • @venom777

    Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?

    Да, я пробовал. Это делается в 2 действия "Ресурс В Список" и "Получить Индекс". Работает на 10 к списке мгновенно
    0_1479039057258_stopwords.xml

    Для того, чтобы проверить наличие слов на странице нужно сначала получить все слова на странице в список, потом сделать проверку в цикле. Если запускать в режиме "Запись", то проверка стоп слов выполняется мгновенно.
    0_1479039804112_stopwords.xml

    Из последнего проекта вы можете сделать функцию и использовать при каждой загрузке страницы.

    Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.

    Перед записью новости в файл вы можете кодировать ее в base64, а после чтение раскодировать(все это действием base64)


Log in to reply