@LIJaByXa Ну так там в Проверить существование элемента и есть Селекторы элемента.
На выбор три варианта CSS - MATCH - IXPAT
Вот Мэйтч он может так то и по Словам искать.
Хотя Икспат тоже :)))
Это уже надо вам изучать сами Селекторы и их разновидности.
Пример >XPATH> //*[text()="слово"]
Где слово там нужное и надо вписать.
Оно везде по разному.
Но вот Икспат лучше изучать и более конкретный Селектор можно создать.
Давненько тут Fox подсказал это:
https://docs.google.com/document/d/1PdfKMDfoqFIlF4tN1jKrOf1iZ1rqESy2xVMIj3uuV3g/pub
Стоп-слова. Парсинг и строки
-
Возникла пара вопросов, нужны советы может быть кто-то сталкивался :)
Вопрос первый.
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?Вопрос второй. Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
-
@venom777 Вариант как я это делал, не знаю на сколько это вам подойдет.
Мы копируем текст вставляем его в csv потом читаем и вставляем, куда нужно
0_1478893303631_сохранить текст с форматировнием.xml
Правда не знаю на сколько большой текст можно сохранить, так как небыло нужды огромные тексты сохранять.
Плюс удобно когда можно разбить на столбцы и т.д. -
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?
Да, я пробовал. Это делается в 2 действия "Ресурс В Список" и "Получить Индекс". Работает на 10 к списке мгновенно
0_1479039057258_stopwords.xmlДля того, чтобы проверить наличие слов на странице нужно сначала получить все слова на странице в список, потом сделать проверку в цикле. Если запускать в режиме "Запись", то проверка стоп слов выполняется мгновенно.
0_1479039804112_stopwords.xmlИз последнего проекта вы можете сделать функцию и использовать при каждой загрузке страницы.
Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
Перед записью новости в файл вы можете кодировать ее в base64, а после чтение раскодировать(все это действием base64)