@Fox Привет.Я описывал задачу в этой теме https://community.bablosoft.com/topic/27417/вызов-многопоточной-функции
Дело в том,что я не могу вообще никак перевести свой скрипт на многопоток,у меня тупо,что в вызове функции в многопоток,что просто обычный многопоток,выполняет свою работу с данными по очереди,а не одновременно.И это очень сильно бьет по времени,а нужна именно скорость обработки.Все уже готово и скрипт рабочий полностью,но скорость обработки заставила воспользоваться многопотоком.Ранее,подобных проблем не замечал,а сейчас элементарную задачу не могу уже несколько дней решить.
Скрипт очень простой и работает без браузера вообще,в скрипте используется только одно взаимодействие с гет запросом.Пример скрипта я приложил в этой теме(но без запросов),он точно почти такой же,как и основа.
Логика такова:
1)Запускается скрипт (без всяких ресурсов изначально и данных) и создаются два ресурса.
2)Делается запрос на сайт,который обрабатывается в отдельной функции,т.е. обрабатывает полученные строки и записывает в ресурс.
3)Вызывается функция в несколько потоков,которая работает (должна работать) с каждой строкой из созданного ранее ресурса(уникальной)в отдельном потоке.Данные обрабатываются и записываются во второй ранее созданный ресурс.
4)Как только данные обработаны,ресурс переводится в список и список записывается в файл.Более ничего не делается.
-Сперва я думал,что проблема в создаваемых в ходе работы ресурсах,но нет.Создавал изначально ресурсы и то же самое было.
-Потом пробовал брать из файлов значения\потом создавать файлы по ходу и из них брать данные\сохранять напрямую пытался и.т.д
-Возможно думал стоят какие то ограничения из за слабого пк с 4 гб оперативы и взял сервер с 64 гб,но как обрабатывалась строка за 5 минут на моем пк,так же по скорости и на серваке.Ладно, с этим я уже ничего не поделаю из за регулярок в проекте,согласен.Но вот перевести на поток и хотя бы по 10 строк одновременно обрабатывать,очень бы помогло.А сейчас в любом случае,у меня,сколько бы потоков не выставил - работает все равно как один,просто по очереди разный поток берет свои данные(
Есть идеи как в базе оставить только уникальные строки?
-
В базе локальной таблица с 5ю столбцами. Около 1млн записей.
Нужно оставить строки только с уникальной первой строкой. Т.е.
Ваня 37 345 980 222
Петя 22 232 890 333
Ваня 12 215 940 122При том что Ваня две строки, нужно оставить одну любую.
Что то у меня идей вообще нет, кроме как такой алгоритм
0. создаем новую таблицу new- в цикле берем строку из старой
- распарсиваем
- смотрим есть ли в new в первом столбце значение из 1го столбца старой
3.1. если нет - добавляем всю строку в новую таблицу
3.2. если есть, пропускаем, переходим к след строке.
ps слабо представляю сколько уйдет времени на 1 млн строк.
-
@kuzkuz said in Есть идеи как в базе оставить только уникальные строки?:
240 тыс строк обработал за 3часа.
Вот поэтому для больших баз используется Mysql. Там в три счета можно это все отсортировать. Возьми полноценные языки программирования: php или js, который прямо в коробке БАС вшит. Js должен быстро отработать.
-
@olegtut php в БАС? ого.
Я на php норм шарю, но как оно в бас работает я хз.На Mysql с базой у сайта тоже работаю, да, там бы можно было одним запросом выбрать все строки с уникальным 1м столбцом...насколько я помню.
ps как я понимаю тягомотина из -за того что надо каждую строку распарсивать.
ps2 а реально импортировать эту таблицу в Mysql и там уже отработать и вернуть в эту базу, вот интересно....
-
@kuzkuz said in Есть идеи как в базе оставить только уникальные строки?:
Я на php норм шарю, но как оно в бас работает я хз.
Я имел ввиду js, не php. Php годится для распарса отдельно от БАС, если есть такая возможность. Если поиграться с БАС, то можно импортировать и в Mysql. Во-первых, из монго можно получить целиком список всех строк в массив. Разбить массив по 100k. Далее либо вставить массив через модуль Mysql, либо нативно через импорт txt через phpmyadmin. Можно еще экспортировать в формат csv прямо из менеджера базы. Ну а чтобы так не морочиться, нужно изначально выбирать архитектуру на Mysql для серьезных проектов на БАС, потому что база из коробы в БАС кастрированная и медленная, она эффективно годится лишь под разовые задачи. Да, тягомотина как раз из-за того, что нужно что-то распарсивать. Хотя в действии "выполнить код" это не должно быть медленно, потому что там используется js