@Fox Привет.Я описывал задачу в этой теме https://community.bablosoft.com/topic/27417/вызов-многопоточной-функции
Дело в том,что я не могу вообще никак перевести свой скрипт на многопоток,у меня тупо,что в вызове функции в многопоток,что просто обычный многопоток,выполняет свою работу с данными по очереди,а не одновременно.И это очень сильно бьет по времени,а нужна именно скорость обработки.Все уже готово и скрипт рабочий полностью,но скорость обработки заставила воспользоваться многопотоком.Ранее,подобных проблем не замечал,а сейчас элементарную задачу не могу уже несколько дней решить.
Скрипт очень простой и работает без браузера вообще,в скрипте используется только одно взаимодействие с гет запросом.Пример скрипта я приложил в этой теме(но без запросов),он точно почти такой же,как и основа.
Логика такова:
1)Запускается скрипт (без всяких ресурсов изначально и данных) и создаются два ресурса.
2)Делается запрос на сайт,который обрабатывается в отдельной функции,т.е. обрабатывает полученные строки и записывает в ресурс.
3)Вызывается функция в несколько потоков,которая работает (должна работать) с каждой строкой из созданного ранее ресурса(уникальной)в отдельном потоке.Данные обрабатываются и записываются во второй ранее созданный ресурс.
4)Как только данные обработаны,ресурс переводится в список и список записывается в файл.Более ничего не делается.
-Сперва я думал,что проблема в создаваемых в ходе работы ресурсах,но нет.Создавал изначально ресурсы и то же самое было.
-Потом пробовал брать из файлов значения\потом создавать файлы по ходу и из них брать данные\сохранять напрямую пытался и.т.д
-Возможно думал стоят какие то ограничения из за слабого пк с 4 гб оперативы и взял сервер с 64 гб,но как обрабатывалась строка за 5 минут на моем пк,так же по скорости и на серваке.Ладно, с этим я уже ничего не поделаю из за регулярок в проекте,согласен.Но вот перевести на поток и хотя бы по 10 строк одновременно обрабатывать,очень бы помогло.А сейчас в любом случае,у меня,сколько бы потоков не выставил - работает все равно как один,просто по очереди разный поток берет свои данные(
Многопоток в парсинге.
-
Здравствуйте, подскажите пожалуйста, как можно установить многопоток в парсинге ссылок сайта? При многопоточном парсинге, потоки парсят ссылки повторно, одинаковые. Как каждый поток заставить парсить новые страницы без повтора? Спасибо.
-
@Bonifazzziy попробуйте при создании ресурса поставить галочку Использовать строку любое число раз, а при использовании ресурса в скрипте notreuse
-
@Bonifazzziy понял, я думал у Вас список ссылок ресурс. Можно попробовать класть список ссылок в ресурс и потом использовать.
-
@romanbiz дело в том, что у меня таков алгоритм скрипта : БАС заходит на страницу / категорию?page=... После, по этомй категории проходит по страницам, в зависимости от их количества и парсит ссылку с каждого объявления на этой странице и записывает в файл. Потому и каждый поток, отработав свою ссылку, опять начинает повторять, может можно как то связать списки, что бы поток при сравнении понимал, что ссылка уже есть и брал другую? Я вообще не понимаю, как это можно реализовать. Возможно у Вас есть идеи?
-
@Bonifazzziy Использовать ресурсы. В настройках ресурса - 1 успешное использование, 1 - одновременно использивать. В многопотоке не будет никаких проблем. Многопоток - это использование ресурсов и правильная их настройка. Есть на форуме куча примеров, и розжовано от а до я.
-
@Bonifazzziy можешь так. Тебе нужно Создать ресурс -> Page к примеру. Дальше с помощью цикла FOR заполняешь его. Вот показываю примерный алгоритм. !
!Код для заполнения твоего ресурса пихаешь в функцию OnApplicationStart, чтобы он выполнялся только 1 раз при запуске программы. Цикл для парсинга, там последнюю цифру выставляй вроде 99999, всё равно когда ресурс закончится софт остановится.
-
@seedgg said in Многопоток в парсинге.:
правильная их настройка. Есть на форуме куча примеров, и розжовано от а до я.
Подскажите пожалуйста где именно. Что-то именно этой темы, я не могу найти. Разжевано от а до я именно работа с ресурсами файлов или строк которые можно подставить, а вот именно многопоточный парсер, который будет парсить и записывать в своем потоке свою ссылку - отсутствует. Только на ввод, через ресурсы, как и в обучающих видео. Заранее большое спасибо.
-
@Bonifazzziy Можешь в функции onapplicationstart в 1 поток парсить ссылки с нужного количество страниц, добавляя их в ресурс, а уже в функции main обходить их в многопоточном режиме. Вот пример: 0_1515881176233_example.xml
-
Как в примере выше описано, так впринципе можно и сделать, но для лучшего понятия работы многопотока, можно сделать и без while - просто указать {{link}} и все последующие действия. Какая будет существенная разница между этим - с while и {{link|notreuse}} поток запускается и начинается обработка данных и поток не перегружаеться, с случаем без while поток возьмет с ресурса 1 единицу данных, обработает, и перезапустится, потом возьмет новую и т.д.
Можно так же все организовать без onapplicationstart - это в мейне организовать сбор ссылок, а потом запустить многопоточную функцию - далее все по схеме.
Главное помнить, что информация в многопотоке передается либо через глобальные переменные либо через ресурсы. -
@santilo огромное Вам спасибо!!!!!!!!!!!!!!! Огромнейшее!!! Спасибо, что не остались безучастным и потратили на меня своё время. Скрипт работает на отлично. Теперь на этом примере я постараюсь разобраться более детально, что и как взаимодействует. Ещё раз огромное Вам спасибо!))))
-
@Bonifazzziy смотрите, идея того алгоритма, который я предложил:
- В функции OnApplicationStart происходит заполнение ресурса Page нужными номерами страницы. К примеру нужны нам с 1 по 10 страницу. С помощью цикла FOR с 1 до 10 мы добавляем в ресурс такие элементы: 1, 2 , 3 ,4 , 5 и т.д.
- Потом мы уже в цикле, где парсятся данные (где у вас идёт блок Загрузить, и т.д.) в адресе страницы указываем http://site.ru/users?page={{Page|notreuse}} ну или по другому, смотря какая у вас именно ссылка. Ресурс выдаёт вам номер страницы, и эти страницы не будут повторяться между потоками.
- Вы получаете нужные данные в многопотоковом режиме.
Вообще для всех данных я рекомендую использовать ресурсы, потому что с ними не будет проблем при многопотоковой работе.
Думаю позже сделать свой блог, там буду подробно об этом рассказывать.

