Un aperçu du processus d’évaluation comparative proposé par Amazon pour les implémentations RAG de l’IA générative. AWS
Cependant, la RAG est une technologie émergente qui comporte des pièges.
C’est pourquoi les chercheurs d’Amazon AWS proposent, dans un nouveau document, d’établir une série de critères qui permettront de tester les capacités de la RAG à répondre aux questions portant sur des contenus spécifiques.
Établir des critères d’évaluation
« Notre méthode est une stratégie automatisée, rentable, interprétable et robuste pour sélectionner les composants optimaux d’un système RAG« , écrivent l’auteur principal Gauthier Guinet et son équipe dans l’article intitulé « Automated Evaluation of Retrieval-Augmented Language Models with Task-Specific Exam Generation » publié sur arXiv.
L’article sera présenté lors de la 41e conférence internationale sur l’apprentissage automatique, une conférence sur l’intelligence artificielle qui se tiendra du 21 au 27 juillet à Vienne.
Le problème principal, selon Guinet et son équipe, est qu’il existe de nombreux critères pour évaluer la performance des différents grands modèles de langage (LLM). Cependant, dans le domaine de la RAG, il n’y a pas d’approche « canonique » de la mesure offrant une « évaluation complète spécifique des nombreuses qualités importantes« , telles que la « véracité » et la « factualité« .
Les auteurs estiment que leur méthode automatisée crée une certaine uniformité : « En générant automatiquement des examens à choix multiples adaptés au corpus de documents associé à chaque tâche, notre approche permet une notation normalisée, évolutive et interprétable de différents systèmes de RAG.«
Trois scénarios pour déterminer l’efficacité
Pour mener à bien cette tâche, les auteurs génèrent des paires de questions-réponses en s’appuyant sur des éléments provenant de quatre domaines :
- Les documents de dépannage d’AWS sur le thème DevOps
- Les résumés d’articles scientifiques du serveur de préimpression arXiv
- Les questions sur StackExchange
- Les documents déposés auprès de la Securities & Exchange Commission des États-Unis, le principal régulateur des sociétés cotées en bourse.
Ils conçoivent ensuite des tests à choix multiples pour les LLM afin d’évaluer dans quelle mesure chaque modèle de langage s’approche de la bonne réponse. Puis Ils soumettent deux familles de LLM à source ouverte à ces examens :
- Mistral, de la société française du même nom
- Llama de Meta
Ils testent les modèles dans trois scénarios.
- Le premier est un scénario « fermé », dans lequel le LLM n’a aucun accès aux données du RAG et doit se fier à ses « paramètres » neuronaux pré entraînés pour trouver la réponse.
- Le deuxième scénario est ce que l’on appelle les formes « Oracle » de RAG, où le LLM a accès au document exact utilisé pour générer une question.
- La troisième forme est la « recherche classique », où le modèle doit rechercher dans l’ensemble des données le contexte d’une question, à l’aide d’une variété d’algorithmes.
Plusieurs formules RAG populaires sont utilisées, dont une introduite en 2019 par des chercheurs de l’université de Tel-Aviv et de l’Allen Institute for Artificial Intelligence, MultiQA, et une approche plus ancienne mais très populaire pour la recherche d’informations appelée BM25.
Analyse des résultats
Ils font ensuite passer les examens et comptabilisent les résultats, qui sont suffisamment complexes pour remplir des tonnes de graphiques et de tableaux sur les forces et les faiblesses relatives des LLM et des différentes approches RAG. Les auteurs effectuent même une méta-analyse des questions d’examen – pour évaluer leur utilité – en se basant sur la « taxonomie de Bloom« .
Ce qui importe encore plus que les données transmises, ce sont les conclusions générales qui peuvent s’appliquer à la méthode RAG, quels que soient les détails de sa mise en œuvre.
L’une des principales conclusions est que de meilleurs algorithmes RAG peuvent améliorer un LLM plus que, par exemple, en le rendant plus grand.
Faire plus avec moins de données ?
Si l’on peut faire plus avec moins, c’est une piste intéressante à explorer. Cela suggère également que l’idée reçue en IA, selon laquelle la mise à l’échelle est toujours la meilleure solution, n’est pas entièrement vraie lorsqu’il s’agit de résoudre des problèmes concrets.
Tout aussi important, les auteurs ont constaté que si l’algorithme RAG ne fonctionne pas correctement, il peut dégrader les performances du LLM par rapport à la version classique sans RAG.
« Un composant de récupération mal aligné peut conduire à une précision plus mauvaise que l’absence totale de récupération« , expliquent Guinet et son équipe.
Source : « ZDNet.com »