Les outils d’IA et les actualités ne semblent vraiment pas faire bon ménage. Une nouvelle étude du Tow Center for Digital Journalism de Columbia montre que plusieurs chatbots d’IA identifient souvent mal les articles d’actualité, présentent des informations incorrectes sans aucune réserve et créent des liens vers des articles d’actualité qui n’existent pas.
La tendance n’est pas nouvelle. Le mois dernier, la BBC a constaté que les chatbots ChatGPT, Gemini, Copilot et Perplexity avaient du mal à résumer les nouvelles avec précision, et qu’ils fournissaient plutôt des « inexactitudes significatives » et des « distorsions ».
Et le rapport de Tow apporte de nouvelles preuves que de nombreux chatbots d’IA peuvent accéder au contenu de sites qui bloquent ses robots d’indexation. Voici ce qu’il faut savoir et quels sont les modèles les moins fiables.
L’IA n’identifie pas les articles d’actualité
Les chercheurs de Tow ont choisi au hasard 10 articles de 20 éditeurs. Ils ont interrogé huit chatbots avec des extraits d’articles, en demandant à l’IA de renvoyer le titre, l’éditeur, la date et l’URL de l’article correspondant.
« Nous avons délibérément choisi des extraits qui, s’ils étaient collés dans une recherche Google traditionnelle, renverraient la source originale dans les trois premiers résultats », notent les chercheurs.
Columbia Journalism Review
Après avoir lancé les 1 600 requêtes, les chercheurs ont classé les réponses des chatbots en fonction de la précision avec laquelle ils avaient retrouvé l’article, l’éditeur et l’URL. Les chatbots ont renvoyé des réponses erronées pour plus de 60 % des requêtes. Les résultats varient en fonction du chatbot. Perplexity s’est trompé dans 37 % des requêtes, tandis que Grok 3 a renvoyé 94 % d’erreurs.
Columbia Journalism Review
En quoi cela est-il important ? Si les chatbots sont moins bons que Google pour récupérer correctement des informations, on ne peut pas nécessairement compter sur eux pour interpréter et citer ces informations. Et cela rend le contenu de leurs réponses, même lorsqu’elles sont liées, beaucoup plus douteux.
Donner de mauvaises réponses en toute confiance
Les chercheurs notent que les chatbots ont renvoyé des réponses erronées avec une « confiance alarmante », sans nuancer leurs résultats ni admettre leurs lacunes en matière de connaissances.
ChatGPT « n’a jamais refusé de fournir une réponse », bien que 134 de ses 200 réponses aient été incorrectes.
« Tous les outils étaient systématiquement plus enclins à fournir une réponse incorrecte qu’à reconnaître leurs limites », précise le rapport.
Les services payants ne sont pas plus fiables
Si les modèles premium tels que Grok-3 Search et Perplexity Pro ont répondu plus correctement que les versions gratuites, ils ont néanmoins donné des réponses erronées avec plus de confiance. Ce qui remet en question la valeur de leurs coûts d’abonnement souvent astronomiques.
« Cette contradiction découle principalement de la tendance des robots à fournir des réponses définitives, mais erronées, plutôt que de refuser de répondre directement à la question », explique le rapport. « La préoccupation fondamentale va au-delà des erreurs factuelles des chatbots et concerne leur ton conversationnel autoritaire, qui peut rendre difficile pour les utilisateurs de faire la distinction entre des informations exactes et inexactes. »
« Cette confiance non méritée donne aux utilisateurs une illusion dangereuse de fiabilité et d’exactitude », ajoute le rapport.
Fabriquer des liens
Les modèles d’IA sont connus pour avoir régulièrement des hallucinations. Mais si tous les chatbots hallucinent de faux articles dans leurs réponses, Tow a constaté que Gemini et Grok 3 le font le plus souvent. « Même lorsque Grok identifiait correctement un article, il renvoyait souvent à une URL fabriquée », note le rapport, ce qui signifie que Grok pouvait trouver le bon titre et le bon éditeur, mais qu’il fabriquait ensuite le lien vers l’article en question.
Une analyse des données de trafic de Comscore réalisée par Generative AI in the Newsroom, une initiative de l’université de Northwestern, confirme cette tendance. Leur étude des données de juillet à novembre 2024 montre que ChatGPT a généré 205 URL cassés dans ses réponses. Bien que les publications suppriment parfois des articles, ce qui peut entraîner des erreurs 404, les chercheurs ont noté qu’en raison du manque de données d’archives, il était « probable que le modèle ait halluciné des liens d’apparence plausible vers des sites d’information faisant autorité lorsqu’il répondait aux requêtes des utilisateurs ».
Ces résultats sont inquiétants compte tenu de l’adoption croissante des moteurs de recherche IA. Bien qu’ils n’aient pas encore remplacé les moteurs de recherche traditionnels, Google a lancé la semaine dernière AI Mode, qui remplace sa recherche normale par un chatbot (malgré l’impopularité de ses AI Overviews). Si l’on considère que quelque 400 millions d’utilisateurs affluent chaque semaine sur ChatGPT, le manque de fiabilité et la distorsion de ses citations font de ChatGPT et d’autres outils d’IA populaires des moteurs de désinformation.
Le rapport Tow conclut que les outils d’intelligence artificielle qui citent mal les sources ou représentent incorrectement leur travail pourraient nuire à la réputation des éditeurs.
Ignorer les robots bloqués
La situation s’aggrave pour les éditeurs. Le rapport Tow constate que plusieurs chatbots peuvent récupérer des articles auprès d’éditeurs qui ont pourtant bloqué leurs robots d’exploration à l’aide du protocole d’exclusion des robots (REP), ou robots.txt.
« Perplexity Pro a été le plus mauvais élève à cet égard, identifiant correctement près d’un tiers des 90 extraits d’articles auxquels il n’aurait pas dû avoir accès », indique le rapport.
Cela suggère que non seulement les sociétés d’IA continuent d’ignorer le REP. Perplexity et d’autres ont été pris en flagrant délit l’année dernière. Mais aussi que les éditeurs ayant conclu un accord de licence avec les acteurs de l’IA ne sont pas assurés d’être correctement cités.
Le rapport de Columbia souligne un symptôme d’un problème plus vaste. Le rapport Generative AI in the Newsroom a également découvert que les chatbots dirigent rarement le trafic vers les sites d’information dont ils extraient des informations. Ce que d’autres rapports confirment également. De juillet à novembre 2024, Perplexity a transmis 7 % des renvois vers des sites d’information. ChatGPT n’en a transmis que 3 %. En comparaison, les outils d’IA ont eu tendance à favoriser les ressources éducatives telles que Scribd.com, Coursera et celles liées aux universités, leur envoyant jusqu’à 30 % du trafic.