ZD Tech : Les outils pour identifier les contenus en ligne se suivent et ne se ressemblent pas

ZD Tech : La chasse aux encombrants spatiaux est ouverte !


Bonjour à tous et bienvenue dans le ZD Tech, le podcast quotidien de la rédaction de ZDNet. Je m’appelle Clarisse Treilles, et aujourd’hui je passe en revue les différentes techniques d’identification des fichiers audios, vidéos et images.

Au musée, une œuvre originale est généralement signée de la main de
l’artiste. Sur internet, le principe est le même, mais les outils
employés divergent. On trouve sur certaines plateformes des systèmes de
reconnaissance dit de « fingerprinting », par empreintes numériques, ou
sur d’autres encore des « tatouages » numériques.

A l’instar de
YouTube, et son système nommé « Content ID », ou encore Facebook qui a
développé l’outil Rights Manager, les techniques par empreintes (dites
de « fingerprinting » en anglais) sont les plus répandues sur internet.

Amasser beaucoup de données pour comparer des empreintes

Ce qu’il faut d’abord comprendre, c’est qu’une empreinte est distincte de l’œuvre elle-même. La technique se base sur une représentation numérique unique d’un contenu. Pour générer une telle empreinte, les méthodes consistent à réduire ou simplifier un contenu entier pour n’en conserver que des éléments caractéristiques. A noter que ce procédé n’est pas réversible : il est donc impossible de recréer le contenu d’origine en entier à partir de son empreinte.

Pour vérifier l’authenticité d’un document par ce biais, il faut disposer d’un système de reconnaissance de contenu. Il se compose généralement d’une base de données où sont stockées les empreintes de tous les documents à identifier. Une fois cette base créée, le système est utilisé comme moteur de recherche.

Reste que la technique de l’empreinte a bien un défaut : elle doit être alimentée par une grosse base de référence. Cela demande des capacités importantes de stockage, ce qui peut représenter un coût élevé, en particulier pour les petits producteurs.

Obtenir la signature unique d’un fichier avec le hash

A côté de cela, il existe aussi la technique dite du « hachage ». Par ce biais, n’importe quel fichier ou donnée peut être représenté par une chaîne de caractères alphanumérique unique, que l’on nomme le hash. C’est un petit peu la signature unique d’une œuvre numérique. Ainsi, deux fichiers strictement identiques auront toujours le même hash.

Ce hash est certes pratique, mais pas très flexible : cette technique ne fonctionne que lorsque deux fichiers sont parfaitement identiques. Ainsi, le moindre changement dans un fichier de départ – comme le simple fait de changer le format d’une image par exemple – créera un hash distinct. Comparer les hashs ne permet donc pas d’identifier toutes les copies d’une image, uniquement les copies exactes.

Tatouer un contenu numérique avec la technique du watermarking

 

Enfin, la dernière méthode dont nous allons parler est celle du « watermarking », ou tatouage numérique. Contrairement aux deux autres méthodes, le watermarking implique une modification du contenu. Cela consiste à intégrer dans un fichier une marque, qu’il sera ensuite possible de retrouver.

Pour réaliser cela, il faut deux choses : d’abord un marqueur pour « tatouer le contenu », puis un détecteur pour retrouver un tatouage numérique. Ce marqueur peut être visible, comme par exemple un logo sur une image ou une vidéo, et il peut aussi  invisible à l’œil nu.





Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.