Как в конце каждого потока проверять "Результаты" на дубли, чтобы во время парсинга гугла в окне "Результаты" строки всегда были без повторов?

Revers

@Fox То есть если выводить в результат alt text , то будут дубли?

А если сохранять сразу в файл alt text , то проверка, при сохранении на дубли , будет проходить на автомате при многопоточном парсинге?

Fox

@Revers Какие именно данные ты хочешь видеть и для чего они тебе нужны? Количество спарсенных ссылок или сами ссылки, чтобы с ними работать?

То есть нажимаешь в любой момент "остановить скрипт мгновенно"

Если ты останавливаешь скрипт своими руками, то данные могут не записаться.

Я вообще сохранял данные в [[THREAD_INDEX]].txt, где THREAD_INDEX это номер потока. Каждый поток работал со своим файлом, а в админке я выводил уже все файлы вместе. Дублей при таком подходе не будет.

Revers

@Fox К примеру за день в "Результаты" набралось 6 лямов ссылок, иду в KeyWordKeeper и остаётся только 300к. А если я раз в неделю буду проверть на дубли то KeyWordKeeper не потянет такой файл. Вот мне и нужно как-то решить проблему, чтобы не нажимая "Остановить", в окне "Результаты" или в файле links.txt были только уник строки.

Fox

@Revers Во сколько потоков работает скрипт? Можно по разному сделать, в зависимости от условий работы скрипта. Например отдельной функцией читать файл links.txt и удалить дубликаты. Либо перед добавлением в файл проверить, есть ли такая ссылка в файле, если нет, то добавить. С большими объёмами данных лучше работать в базе.
Если эти ссылки будет потом использовать другой скрипт, можно его настроить использовать эту же базу и работать сразу, одновременно.

DrPrime

@Revers замените результат на ресурс, с галочкой только запись. Добавьте раз в определенное время очистку дублей, например, в скрипте можно получить количество успехов на данный момент, сделать в скрипте условие if, если количество успехов кратно 100 (переменная с количеством успехов % 100 == 0), то получать расположение ресурса, куда пишем результаты, читать файл в список, удалить дубли, записать список в файл с перезаписью (в экшене записи в файл не ставить галочку дописывать файл). Так же что бы не нагружать оперативку при добавлении результата в ресурс ставим галочки только добавить в файл/базу, а для того что бы результаты добавлялись в лайве, ставим галочку добавить в файл/базу мгновенно

Revers

@Fox Каким образом проверять наличие в файле сохраняемой ссылки ?

DrPrime

@Revers с вашим объемом данных это будет ресурсоемко - нужно будет прочитать файл в список и проверить существование строки в списке.
П.с. небольшое примечание к моему способу выше - после того, как перезапишите файл, очистите переменную, в которую вы читали файл, это можно сделать действием установить переменную, например в значение 0, или выполнить код delete VAR_имя_переменной

Fox

@Revers Экшен Читать файл links.txt, содержит (список), If ![[LIST_CONTAINS]] то сохранить результат в файл, с галочками добавить символ окончания строки и дописывать файл.

Revers

Ok. Буду тестить.

Revers

@DrPrime Как обстоят дела с ютубом? Там при входе нет хэша(да, я смотрел то 5 часовое видео)?

Fox

@Revers Я согласен с @DrPrime каждую найденную ссылку сравнивать со всем списком очень ресурсоёмкий процесс. А вот периодическая очистка от дублей конечного результата будет оптимальным вариантом.

DrPrime

@Revers еще не смотрел

Revers

Как правильно записывать в файл?, чтобы не возникало [02:55:55] Поток №1 : Все данные были обработаны для links

DrPrime

@Revers получать расположение ресурса, куда пишем результаты, и с этим адресом работать в с файловой системой

xclsv

@Revers
Как вариант, можно писать все значения, выводимые в результат, в базу. Перед каждым выводом проверять наличие значения в базе довольно легко.

Bablosoft

Как в конце каждого потока проверять "Результаты" на дубли, чтобы во время парсинга гугла в окне "Результаты" строки всегда были без повторов?

Как в BAS создать несколько новых переменных в кубике "выполнить код"

Запись в файл, строки

Как выполнить действие в конце скрипта

Самопроизвольно закрывается редактор скрипта в режиме "Запись".

Замена "слово" на "другое слово" в Файле