В общем ситуация с Perfect Сanvas еще хуже, чем я предполагал. Проблема с дублями жестко настигла и когда скопилась большая база начались проблемы с регой. Метод сравнения на дубли по какой-либо строке из отпечатка плохой способ, любая строка в любой момент времени момент смениться. Причем делал сравнение сразу по 4 строкам (хэш аудио, device id и т.д). Цепляться там просто не за что.
Пришлось делать глубокий анализ отпечатка и применять метод сравнения шинглами.
Какие проблемы дублей:
- Если человек зайдет на два разных сайта где есть clientsafe.js, хеши и много другое будет разным. Хотя это был один юзер.
- Если юзер сменит браузер или часть железа. Переставит винду, обновить браузер, то тоже самое.
- После обновления BAS когда добавиться новые факторы отпечатка, старые отпечатки будут без них.
Сделал офигенную фичу, что если путем глубокого анализа выявил дубль, то отпечаток в базе получит обновление. Тоесть идем в ногу со временем вместе с юзерами ))) Когда новая версия BAS выйдет, человек повторно зайдет на сайт и отпечаток уже получит недостающие из обновы элементы.