@FastSpace said in Повтор отпечатков:
@wwhite said in Повтор отпечатков:
Как вы проверяете отпечатки на повтор?
Гугли алгоритм шинглов
Есть необходимость проверить 10000 строк на дубли. В строках отпечатки.
Читаю то что ты посоветовал форумчанину "Поясню: для каждого шингла рассчитывается 84 значения контрольной суммы через разные функции (например SHA1, MD5, CRC32 и т.д., всего 84 функции). Итак каждый из текстов будет представлен, можно сказать, в виде двумерного массива из 84х строк, где каждая строка характеризует соответствующую из 84х функций контрольных сумм.
...
И последний этап — сравнение. Сравниваем между собой 84 элемента первого массива с соответствующими 84ю элементами второго массива, считаем отношение одинаковых значений, из этого получаем результат.
"
И это только 2 строки сравнить. А если их 10000.
Вопрос. Реально стоит начинать пробовать писать скрипт или такого плана скрипт тупо повесит комп? Это же получается каждую новую строку нужно будет сравнить со всеми строками имеющимися в файле.