Отключите все лишнее на целевой странице если она одна, это реально сделать - например скрипты всяких фейсбуков, сторонней аналитики и так далее. Обычно сервесы используют много сторонних скриптов, которые не влияют на работу сайта, но сильно нагружают проц.
Смотрите как идет распределение нагрузки - возможно оно не сплашное, а пиками - тогда можно попробовать запускать потоки более равномерно. Чтоб избегать этих пиков.
Чаще всего можно отрисовку снизить вплоть до 10 (ну 20) .... На загрузку проца, это как раз сильно влияет.
Если сервер свой и без видюхи, то стоит поставить в него видюху.
50 в нынешних условиях для баса с браузером, достаточно много. Можно попробовать разбить на несколько копий баса по 25 например.
Можно использовать рам диск для работы с профилями - но это уже продвинутый уровень.
Стоп-слова. Парсинг и строки
-
Возникла пара вопросов, нужны советы может быть кто-то сталкивался :)
Вопрос первый.
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?Вопрос второй. Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
-
@venom777 Вариант как я это делал, не знаю на сколько это вам подойдет.
Мы копируем текст вставляем его в csv потом читаем и вставляем, куда нужно
0_1478893303631_сохранить текст с форматировнием.xml
Правда не знаю на сколько большой текст можно сохранить, так как небыло нужды огромные тексты сохранять.
Плюс удобно когда можно разбить на столбцы и т.д. -
Как можно сделать проверку на наличие стоп слов на: странице, в определенном участке на странице? Если стоп-слова заданы в файле и их количество >1000шт. Ну, или сравнить переменную в которой получен никнейм со списком стоп-слов (4к строк), кто-то пробовал?
Да, я пробовал. Это делается в 2 действия "Ресурс В Список" и "Получить Индекс". Работает на 10 к списке мгновенно
0_1479039057258_stopwords.xmlДля того, чтобы проверить наличие слов на странице нужно сначала получить все слова на странице в список, потом сделать проверку в цикле. Если запускать в режиме "Запись", то проверка стоп слов выполняется мгновенно.
0_1479039804112_stopwords.xmlИз последнего проекта вы можете сделать функцию и использовать при каждой загрузке страницы.
Как брать из файла строки мы все знаем, но как можно брать из файла предложения с сохранением форматирования? К примеру, сделать граббер новостей с сайта источника на свой сайт.
Перед записью новости в файл вы можете кодировать ее в base64, а после чтение раскодировать(все это действием base64)