L’intelligence artificielle (IA) peut-elle résoudre des énigmes cognitives issues des tests de QI humains ? Les conclusions d’une étude sont partagées.
Une équipe de chercheurs de l’Institut des sciences de l’information de l’École d’ingénierie de Viterbi en Californie du Sud a mené une étude pour examiner si les modèles de langage multimodaux à grande échelle (MLLM) sont capables de réussir des tests visuels abstraits habituellement réservés aux humaines. Les résultats montrent que, malgré des avancées technologiques importantes, l’IA peine encore à égaler les performances humaines dans ce domaine.
Des résultats décevants pour l’IA
Présentée lors de la Conférence sur la modélisation du langage (COLM 2024) à Philadelphie la semaine dernière, cette recherche a évalué les capacités des modèles de langage multimodaux (MLLM) à résoudre des énigmes visuelles complexes. Les chercheurs ont examiné si ces modèles, open source et propriétaire, pouvaient démontrer un raisonnement abstrait non verbal, en particulier face à des puzzles inspirés des matrices progressives de Raven, un test classique de raisonnement humain.
L’objectif était de voir si, confrontés à des transformations visuelles simples, comme un cercle jaune devenant un triangle bleu, les MLLM pouvaient reconnaître et appliquer des schémas similaires dans d’autres contextes. « Cela exige que les modèles combinent perception visuelle et raisonnement logique, comme le font les humains », a expliqué Kian Ahrabian, assistant de recherche sur le projet, dans Neuroscience News. Mais les résultats ont montré que les modèles d’IA testés avaient du mal à comprendre les images et à interpréter les motifs.
« Ils étaient vraiment mauvais. Ils n’arrivaient pas à en tirer quoi que ce soit », a souligné Ahrabian. Au final, malgré les avancées technologiques, ces modèles n’ont pas réussi à résoudre ces énigmes, révélant ainsi leurs limites en matière de raisonnement abstrait.
Toutes les intelligences artificielles ne se valent pas
Les résultats obtenus sont toutefois nuancés. L’étude a révélé que, globalement, les modèles open source éprouvaient plus de difficultés à résoudre des énigmes de raisonnement visuel que leurs homologues en code source fermé, tels que GPT-4V. Même si ces derniers ont montré de meilleures performances, ils sont loin de rivaliser avec les capacités cognitives humaines.
Les chercheurs ont également expérimenté une technique appelée « Chain of Thought prompting », qui consiste à guider le modèle étape par étape à travers le processus de raisonnement. Cette approche a permis d’améliorer les performances de certains modèles, mais sans leur permettre de surmonter totalement les défis posés par les puzzles visuels abstraits.
Les modèles closed source sont censés être plus performants dans ce type de tests, car ils ont été spécialement développés, entraînés avec des ensembles de données plus volumineux et bénéficient de la puissance de calcul des entreprises privées. « GPT-4V était relativement bon en raisonnement, mais il est loin d’être parfait », a noté Ahrabian.
Comprendre l’IA pour la faire progresser
« Nous avons encore une compréhension limitée des capacités des nouveaux modèles d’IA, et tant que nous n’aurons pas compris ces limites, nous ne pourrons pas améliorer l’IA, la rendre plus sûre et plus utile », a déclaré Jay Pujara, professeur associé de recherche et auteur.
En identifiant les faiblesses des modèles d’IA en matière de raisonnement, des recherches comme celle-ci contribuent à faire progresser leurs compétences sur le long terme, l’objectif étant d’atteindre une logique proche du niveau humain.