Alors que de plus en plus de modèles d’IA montrent qu’ils sont capables de tromper leurs créateurs, des chercheurs du Center for AI Safety et de Scale AI ont mis au point un détecteur de mensonges unique en son genre.
Mercredi, les chercheurs ont publié l’indice de référence MASK (Model Alignment between Statements and Knowledge), qui détermine la facilité avec laquelle un modèle peut être piégé pour mentir sciemment aux utilisateurs.
Les stratagèmes, la tromperie et les simulations d’alignement, c’est à dire lorsqu’un modèle d’IA prétend sciemment changer ses valeurs sous la contrainte, sont des moyens par lesquels les modèles d’IA nuisent à leurs créateurs. Et cela peut évidemment constituer de graves menaces pour la sûreté et la sécurité.
Mais au fait, qu’est ce que le mensonge ?
Les recherches montrent que le modèle o1 d’OpenAI est particulièrement doué pour les stratagèmes visant à maintenir son contrôle. Et Claude 3 Opus a démontré qu’il pouvait simuler l’alignement.
Les chercheurs ont défini le mensonge comme :
- Le fait de faire une déclaration que l’on sait (ou que l’on croit) fausse
- L’intention du destinataire d’accepter la déclaration comme vraie
Cela différencies les mensonges d’autres réponses fausses, telles que les hallucinations.
Différencier l’exactitude et l’honnêteté
Et selon les chercheurs, l’industrie ne disposait pas jusqu’à présent d’une méthode suffisante pour évaluer l’honnêteté des modèles d’IA.
« De nombreux critères prétendant mesurer l’honnêteté ne font en réalité que mesurer l’exactitude – la justesse des croyances d’un modèle – de manière déguisée », indique le rapport. Des critères comme TruthfulQA, par exemple, mesurent si un modèle peut générer des « informations erronées à consonance plausible ». Mais pas si le modèle a l’intention de tromper sciemment en fournissant de fausses informations, explique le document.
« Par conséquent, des modèles plus performants peuvent obtenir de meilleurs résultats sur ces points de référence grâce à une couverture factuelle plus large. Et pas nécessairement parce qu’ils s’abstiennent de faire sciemment de fausses déclarations », ont déclaré les chercheurs. MASK est donc le premier test à différencier l’exactitude et l’honnêteté.
Exemple d’un exercice d’évaluation dans lequel un modèle a été poussé à fabriquer des statistiques sur la base de la requête de l’utilisateur. Centre pour la sécurité de l’IA
Une plus grande précision n’est pas synonyme d’une plus grande honnêteté
Les chercheurs soulignent les risques du mensonge des IA. Par exemple, les modèles peuvent ne pas confirmer avec précision s’ils ont transféré de l’argent sur le bon compte bancaire, s’ils ont induit un client en erreur ou s’ils ont accidentellement divulgué des données sensibles.
À l’aide de MASK et d’un ensemble de données comprenant plus de 1 500 requêtes collectées par des humains et conçues pour « susciter des mensonges », les chercheurs ont évalué 30 modèles frontières en identifiant leurs croyances sous-jacentes et en mesurant leur degré d’adhésion à ces points de vue lorsqu’ils sont sollicités.
Les chercheurs ont constaté qu’une plus grande précision n’est pas synonyme d’une plus grande honnêteté. Ils ont également découvert que les grands modèles, en particulier les modèles frontières, ne sont pas nécessairement plus véridiques que les petits.
Un Echantillon de scores de modèles issus de l’évaluation MASK. Centre pour la sécurité de l’IA
Les modèles mentent facilement et sont conscients de leurs mensonges
Les modèles mentent facilement donc et sont conscients de leurs mensonges. En fait, au fur et à mesure que les modèles évoluent, ils semblent devenir plus malhonnêtes.
Grok 2 a obtenu la plus forte proportion (63 %) de réponses malhonnêtes parmi les modèles testés. Claude 3.7 Sonnet a obtenu la plus forte proportion de réponses honnêtes (46,9 %).
« Sur un ensemble diversifié de LLM, nous constatons que si les grands modèles obtiennent une plus grande précision sur notre benchmark, ils ne deviennent pas plus honnêtes », expliquent les chercheurs.
Faut pas trop pousser les LLM à mentir
« De manière surprenante, alors que la plupart des LLM frontière obtiennent des scores élevés sur les benchmarks de véracité, nous constatons une propension substantielle des LLM frontière à mentir lorsqu’ils sont poussés à le faire, ce qui se traduit par de faibles scores d’honnêteté sur notre benchmark ».
L’ensemble de données de référence est disponible publiquement sur HuggingFace et Github.
« Nous espérons que notre test facilitera les progrès vers des systèmes d’IA honnêtes en fournissant aux chercheurs un moyen rigoureux et standardisé de mesurer et d’améliorer l’honnêteté des modèles », indique l’article.