При использовании экшена Ввод текста из раздела браузер (которые пишет там где фокус установлен) нет возможности поставить галочку "Отключить эмуляцию мыши и клавиатуры" . Из за этого при вставке ссылки в поле в соц сетях не подгружаются метаданные.
Если изображения идентичные прям пиксель в пиксель, я бы снимал скриншоты, получая их base64-значения, и далее сравнивал бы их.
Ну, либо, если они имеют один и тот же УРЛ, откуда грузятся - сравнивать href-ы.