Il fut un temps où des fontaines, judicieusement placées dans des palais ou des jardins, permettaient aux conversations d’être tenues à l’abri des oreilles indiscrètes. Notre monde connecté demande encore plus de précautions. Avez-vous déjà reçu sur un de vos objets connectés une publicité sur le sujet précis dont vous veniez de parler ? Si c’est le cas, vous êtes-vous alors demandé si votre téléphone, assistant personnel, montre intelligente ou ordinateur, situé à proximité, aurait pu vous « espionner » à votre insu ?
C’est peut-être encore un scénario fiction, mais nous sommes désormais entourés d’une multitude de microphones dont les enregistrements peuvent être analysés par des algorithmes de machine learning. Puisque ces programmes d’intelligence artificielle (IA) apprennent à « comprendre » les voix, technologiquement, cet espionnage est possible. « Un nombre très important de données personnelles sont déjà utilisées par l’apprentissage machine. Il faut, d’une certaine façon, rendre le pouvoir à l’utilisateur », explique la chercheuse franco-américaine de 24 ans Mia Chiquier. Avec deux autres spécialistes en IA de l’université de Columbia (Etats-Unis), Chengzhi Mao et Carl Vondrick, la scientifique annonce avoir trouvé une parade : un camouflage de la voix, quasi inaudible et en temps réel, qui empêche, dans « 80 % des cas », l’efficacité d’un espionnage, « même si rien n’est connu de la position de l’éventuel micro dans l’espace », explique-t-elle. Les résultats de ces travaux intitulés « Real-Time Neural Voice Camouflage » ont été publiés sur ArXiv, le 16 février, et présentés à la prestigieuse International Conference on Learning Representations (ICLR), le 25 avril.
Depuis 2018, plusieurs travaux se sont déjà intéressés au camouflage de la voix. « Il s’agit, à chaque fois, d’un algorithme qui va essayer d’en tromper un autre en rajoutant un bruit intelligent, que la profession appelle adversarial attack », explique Mia Chiquier. Mais, jusqu’à présent, « les algorithmes qui attaquent ceux dit “d’ASR” [automative speach recognition, qui traduisent la voix en texte] avaient besoin d’écouter toute la phrase d’un interlocuteur pour l’analyser et ensuite la brouiller ». Logiquement, ces logiciels ne pouvaient pas être efficaces dans le cas d’un usage en temps réel, puisque leur réponse, le bruit intelligent, arrivait trop tard.
Attaques prédictives
Pour un camouflage en direct, il fallait que les chercheurs imaginent une conversation avant qu’elle n’ait eu lieu… Un défi qu’ils ont relevé en développant une approche inédite : la création d’« attaques prédictives ». Leur logiciel de machine learning (aussi baptisé NVC), qui utilise des réseaux de neurones profonds, n’a besoin que de deux secondes de la voix humaine pour « comprendre » celle-ci puis prédire les possibles sons qui vont suivre. De façon quasi instantanée, NVC prévoit alors une attaque qui brouillera ces possibles sons et perturbera les modèles de reconnaissance automatique de la parole qui sont entraînés à transcrire nos paroles. Et à, peut-être, les espionner.
Il vous reste 34.01% de cet article à lire. La suite est réservée aux abonnés.