Повтор отпечатков

kuzkuz

@wwhite said in Повтор отпечатков:

Как вы проверяете отпечатки на повтор?

Гугли алгоритм шинглов

Есть необходимость проверить 10000 строк на дубли. В строках отпечатки.
Читаю то что ты посоветовал форумчанину "Поясню: для каждого шингла рассчитывается 84 значения контрольной суммы через разные функции (например SHA1, MD5, CRC32 и т.д., всего 84 функции). Итак каждый из текстов будет представлен, можно сказать, в виде двумерного массива из 84х строк, где каждая строка характеризует соответствующую из 84х функций контрольных сумм.
...
И последний этап — сравнение. Сравниваем между собой 84 элемента первого массива с соответствующими 84ю элементами второго массива, считаем отношение одинаковых значений, из этого получаем результат.
"
И это только 2 строки сравнить. А если их 10000.

Вопрос. Реально стоит начинать пробовать писать скрипт или такого плана скрипт тупо повесит комп? Это же получается каждую новую строку нужно будет сравнить со всеми строками имеющимися в файле.

FastSpace

@kuzkuz Шас отпечаток подрос, можно пробовать дергать разные уник значения и сравнивать, для мобилы ещё проще, там в бранде модель телефона. 1 телефон - 1 отпечаток.

morpheus93

А простого сравнения хэша, например, CRC32 полученной fingerprint-строки (или текстового файла, в котором сохранен отпечаток) недостаточно?

basuser123

я решил этот вопрос таким способом:

ибо оказалось что фингеры все отличаются буквально на пару байтов даже те, что полностью одинаковые, т.е. нельзя просто сравнить 2 файла и удалить полный дубль. эта прога решила эту проблему

сначала удалил все перфект канвасы, фингеры уменьшились на 99% потом прогнал этой штукой, удалив дубликаты которые повторялись на 97% мне этого показалось достаточным. из 33к отпечатков осталось 14к

nazar21015

@FastSpace заблуждение, хотя не серьезное. У меня два айфона одинаковой модели, но разные версии IOS. Отпечаток сильно отличается. И канвас, и webgl и другие параметры. Не знаю что будет если обновить телефон до новой версии IOS. Если вдруг отпечаток старый, то и "сафари" тоже должен быть старый. Вообще, надобность отпечаток очень сильно переоценена. Более того, никто из юзеров fingerprintmaganer не подменяет webgl hash, то есть он рандомный, что по сути анулирует все усилия, если кто-то действительно это проверяет.

FastSpace

@nazar21015 said in Повтор отпечатков:

@FastSpace заблуждение, хотя не серьезное. У меня два айфона одинаковой модели, но разные версии IOS. Отпечаток сильно отличается. И канвас, и webgl и другие параметры. Не знаю что будет если обновить телефон до новой версии IOS. Если вдруг отпечаток старый, то и "сафари" тоже должен быть старый. Вообще, надобность отпечаток очень сильно переоценена. Более того, никто из юзеров fingerprintmaganer не подменяет webgl hash, то есть он рандомный, что по сути анулирует все усилия, если кто-то действительно это проверяет.

Вся APPLE техника это отдельный набор фингерпринтов, под нее антифрод пишеться тоже отдельно. Там даже хром ограничен в сборе кучи фич, а их собственный сафари это вообще минимум инфы о посетителе.

FastSpace

@basuser123 said in Повтор отпечатков:

я решил этот вопрос таким способом:

Я тоже раньше так делал, чекал на 99% дубли, но это неправильно.
Способ с собирает частей фингерпринта куда точнее.

morpheus93

@basuser123 Можно ли проверить сохраненные отпечатки пальцев на наличие дубликатов БЕЗ удаления предварительно вычисленных PerfectCanvases? Может быть, с помощью программы Duplicate Cleaner или каким-то другим способом? Спасибо.

basuser123

@morpheus93 да думаю также с помощью этой же проги, просто так они будут в 100 раз больше и может займет больше времени, не знаю не пробовал. я понял что канвасы с публичных фингеров мне не нужны поэтому я отрезал их
кстати я там скрипт выложил в соседней теме если захочешь фингеры без канвасов качать там пару строк кода добавлено. точнее он качает полный а сохраняет обрезаный)

sergerdn

@morpheus93 said in Повтор отпечатков:

@basuser123 Можно ли проверить сохраненные отпечатки пальцев на наличие дубликатов БЕЗ удаления предварительно вычисленных PerfectCanvases? Может быть, с помощью программы Duplicate Cleaner или каким-то другим способом? Спасибо.

Я при сравнении всегда использую алгоритм Levenshtein. Он вычисляет как близко находятся сравниваемые строки.

Не уверен, что это подходящий алгоритм для сравнения отпечатков, надо тестировать.

Vituskosoy

Для точного сравнения пользуюсь доработанным вариантом - https://www.jsondiff.com/. Там есть исходники.

morpheus93

Спасибо, ребята, что поделились своими предложениями по сравнению отпечатков пальцев. Вчера я попробовал "Duplicate cleaner Pro" с настройками 97% на папке с несколькими тысячами отпечатков пальцев, и он полностью замедлил работу рабочей станции высокого класса, на которой он был запущен. Пришлось остановить его через пару часов.

Любые другие рекомендации для готового программного решения, которое было бы немного более производительным.

basuser123

пришла идея, соответственно вопрос в паблик

интересно стало по какому полю можно отсеять дубликаты компа по файлам json, если даже отпечаток немного меняется со временем. если никто не знает, или не скажет, то сам сделаю исследование на скачаной базе и отпишу тут)

morpheus93

@basuser123 Я несколько раз задавал себе тот же вопрос, но, к сожалению, до сих пор не разобрался в нем детально. Если я окажусь быстрее, а я не думаю, что это произойдет, я опубликую решение здесь ;)

basuser123

@morpheus93
я думаю просто со всех отпечатков жавой выдрать 10-20 полей которые должны быть уникальными и сравнить их в базе данных посмотреть какие отличаются почти всегда, но иногда повторяются. надеюсь этим методом можно узнать по какому полю проверять. к концу недели наверное сделаю и отпишу, пока другим вопросом занят) проблема что я уже отсортировал 110к отпечатков и удалил дубликаты там где было повторение 90% вот той программой выше) так что хз что оно сейчас мне покажет.. может придется заново перегонять все 100к сначала обрезать от канвасов а потом прочекивать таким методом.. ну будет видно надеюсь к выходным

FastSpace

@basuser123 мобильные отпечатки легко сравнить на дубли, в brand модель телефона прям пишет. Собираешь в рамках одной версии браузера по 1 модели.

ПК отпечатки по видяхе, цп, оперативки, и ещё там парочку значений дергаю. По ним отсекаю дубли в течении 3 часов. Потом обновляю на сервере все что накопил и заново.

Дублей в моей базе минимум.

basuser123

@DuckDuck said in Повтор отпечатков:

@wwhite там не так все однозначно - уникальных хешей в целом не так много. Их там чето около +- 700 или еще меньше, не помню уже, и они коррелируют с видюхой. Поэтому таким путем вы не получите желаемый результат.

можно вопрос-уточнение? т.е. всего получается разных вариантов наборов канвасов около 700 штук, включая все браузеры и системы, или я не так понял?
и второй вопрос - если все так однозначно, то можно ли сказать тогда что "вот этот канвас" с, например, оперы и винды?

Bablosoft

Повтор отпечатков

Не могу создать профиль\ применить отпечаток с собранной своей базы отпечатков

CustomServers, скачивание отпечатков не работает

Версия отпечатков

Выбор новых отпечатков

Сколько отпечатков в сервисе на данный момент времени?