Les modèles d’IA générative ont rapidement prouvé qu’ils étaient capables d’exécuter correctement des tâches techniques. L’ajout de capacités de raisonnement aux modèles a débloqué des capacités imprévues, permettant aux modèles de réfléchir à des questions plus complexes et de produire des réponses plus précises et de meilleure qualité. C’est du moins ce que nous pensions.
Car la semaine dernière, Apple a publié un rapport de recherche intitulé « The Illusion of Thinking : Comprendre les forces et les limites des modèles de raisonnement à travers la lentille de la complexité des problèmes ». Comme le titre l’indique, ce document de 30 pages examine si les grands modèles de raisonnement (LRM), tels que les modèles o1 d’OpenAI, Claude 3.7 Sonnet Thinking d’Anthropic (qui est la version de raisonnement du modèle de base, Claude 3.7 Sonnet), et DeepSeek R1, sont capables de fournir la « pensée » avancée qu’ils annoncent.
Apple a mené l’enquête en créant des expériences sous la forme de puzzles qui ont testé des modèles dépassant le champ d’application des repères mathématiques et de codage traditionnels. Les résultats ont montré que même les modèles les plus intelligents atteignent un point de rendement décroissant.
Que sont les grands modèles de raisonnement (LRM – Large Reasoning Models) ?
Dans le document de recherche, Apple utilise l’expression « grands modèles de raisonnement » pour désigner les modèles de raisonnement. Ce type de grand modèle de langage (LLM) a d’abord été popularisé par la publication du modèle o1 d’OpenAI, qui a ensuite été suivi par la publication du modèle o3.
Le concept qui sous-tend les LRM est simple. Vous tournez 7 fois votre langue dans votre bouche avant de parler. De même, lorsqu’un modèle est encouragé à passer plus de temps à traiter un prompt, la qualité de sa réponse devrait être plus élevée. Et ce processus devrait permettre au modèle de bien répondre à des prompts plus complexes.
Des méthodes telles que la « chaîne de pensée » (CoT) permettent également cette réflexion supplémentaire. La CoT encourage un LLM à décomposer un problème complexe en étapes logiques, plus petites et solubles. Le modèle partage parfois ces étapes de raisonnement avec les utilisateurs. Et cela le rend plus interprétable et permet aux utilisateurs de mieux orienter ses réponses et d’identifier les erreurs de raisonnement. Le CoT brut est souvent gardé secret pour éviter que des pirates n’y voient des faiblesses, qui pourraient leur indiquer exactement comment pirater un modèle.
Les LRM nécessitent plus de puissance de calcul
Ce traitement supplémentaire signifie que ces modèles nécessitent plus de puissance de calcul. Et sont donc plus coûteux ou plus lourds en jetons (token). Et qu’ils mettent plus de temps à renvoyer une réponse. C’est pourquoi ils ne sont pas destinés à des tâches générales et quotidiennes, mais plutôt à des tâches plus complexes ou liées aux STEM.
Cela signifie également que les critères de référence utilisés pour tester ces LRM sont liés aux mathématiques ou au codage, ce qui constitue l’un des premiers griefs d’Apple dans le document.
L’entreprise a déclaré que ces critères mettent l’accent sur la réponse finale et moins sur le processus de raisonnement. Et qu’ils sont donc susceptibles de contaminer les données. Apple a donc mis en place un nouveau paradigme d’expérimentation.
Les expériences d’Apple
Apple a mis en place quatre puzzles contrôlables :
- Tower of Hanoi, qui consiste à transférer des disques sur des piquets
- Checkers Jumping, qui consiste à positionner et à échanger des pièces de jeu de dames
- River Crossing, qui consiste à faire traverser une rivière à des formes
- Blocks World, qui demande aux utilisateurs d’échanger des objets colorés
Apple
Pour comprendre les résultats de l’article, il est essentiel de comprendre pourquoi les expériences ont été choisies. Apple a choisi les puzzles pour mieux comprendre les facteurs qui influencent les performances identifiées par les tests de référence existants. Plus précisément, les puzzles permettent de créer un environnement plus « contrôlé » où, même lorsque l’intensité du niveau est ajustée, le raisonnement reste le même.
« Ces environnements permettent une manipulation précise de la complexité des problèmes tout en maintenant des processus logiques cohérents, ce qui permet une analyse plus rigoureuse des schémas de raisonnement et de leurs limites », expliquent les auteurs dans l’article.
Les puzzles ont comparé les versions « pensante » et « non pensante » de modèles de raisonnement populaires, notamment Claude 3.7 Sonnet et DeepSeek R1 et V3. Les auteurs ont manipulé la difficulté en augmentant la taille du problème.
Le dernier élément important de la configuration est que tous les modèles ont reçu le même budget maximum de jetons (64k). Ensuite, 25 échantillons ont été générés avec chaque modèle, et la performance moyenne de chaque modèle a été enregistrée.
Les résultats d’Apple
Les résultats ont montré qu’il y a différents avantages à utiliser des modèles de réflexion par rapport à des modèles de non-réflexion à différents niveaux. Dans le premier régime, ou lorsque la complexité du problème est faible, les modèles non réflexifs peuvent être aussi performants, voire plus, que les modèles réflexifs, tout en étant plus efficaces en termes de temps.
Apple
Le plus grand avantage des modèles de réflexion réside dans le deuxième régime, de complexité moyenne, car l’écart de performance entre les modèles de réflexion et les modèles de non-réflexion se creuse considérablement (illustré dans la figure ci-dessus). Ensuite, dans le troisième régime, où la complexité du problème est la plus élevée, les performances des deux types de modèles tombent à zéro.
« Les résultats montrent que si les modèles de réflexion retardent cet effondrement, ils se heurtent en fin de compte aux mêmes limites fondamentales que leurs homologues non réfléchis », expliquent les auteurs.
Un effondrement similaire avec cinq modèles de réflexion
Ils ont observé un effondrement similaire en testant cinq modèles de réflexion de pointe :
- o3 mini (configuration moyenne)
- o3 mini (configuration élevée)
- DeepSeek R1
- DeepSeek R1 Qwen 32B
- Claude 3.7 Sonnet Thinking
Ces modèles ont été testés sur les mêmes puzzles que ceux utilisés lors de la première expérience. Le même schéma a été observé : au fur et à mesure que la complexité augmentait, la précision diminuait, pour finalement plafonner à zéro.
Figure 6 : Précision et jetons de réflexion en fonction de la complexité du problème pour les modèles de raisonnement dans les environnements de puzzle. Au fur et à mesure que la complexité augmente, les modèles de raisonnement dépensent initialement plus de jetons tandis que la précision diminue progressivement, jusqu’à un point critique où le raisonnement s’effondre – les performances chutent brusquement et l’effort de raisonnement diminue. Apple
L’évolution du nombre de jetons de raisonnement utilisés est encore plus intéressante. Au départ, lorsque les énigmes deviennent plus complexes, les modèles allouent avec précision les jetons nécessaires pour résoudre le problème. Cependant, à mesure que les modèles se rapprochent de leur point de chute en termes de précision, ils commencent également à réduire leur effort de raisonnement, même si le problème est plus difficile et qu’on s’attendrait à ce qu’ils en utilisent davantage.
L’article identifie d’autres lacunes : par exemple, même lorsqu’on leur indique les étapes nécessaires pour résoudre le problème, les modèles de réflexion ne parviennent pas à le faire avec précision, bien qu’il soit moins difficile sur le plan technique.
Qu’est-ce que cela signifie pour l’IA ?
Alors que certains utilisateurs ont trouvé un réconfort dans les résultats de l’article, affirmant qu’il montre que nous sommes plus éloignés de l’AGI que ce que les PDG de la technologie voudraient nous faire croire, de nombreux experts ont identifié des problèmes de méthodologie.
Les divergences majeures identifiées comprennent le fait que les problèmes les plus complexes nécessiteraient un nombre de jetons plus élevé que celui alloué par Apple au modèle, qui était plafonné à 64 000.
D’autres ont noté que certains modèles qui auraient pu être performants, tels que o3-mini et o4-mini, n’ont pas été inclus dans l’expérience. Un utilisateur a même transmis le document à o3 en lui demandant d’identifier les problèmes de méthodologie. ChatGPT a émis quelques critiques, telles que le plafond de jetons et la solidité statistique, comme on peut le voir ci-dessous.
Mon interprétation : Si l’on prend les résultats de l’article au pied de la lettre, les auteurs ne disent pas explicitement que les LRM ne sont pas capables de raisonner ou qu’il ne vaut pas la peine de les utiliser. L’article souligne plutôt que ces modèles présentent certaines limites qui pourraient encore faire l’objet de recherches et d’itérations à l’avenir. Une conclusion qui s’applique à la plupart des avancées dans le domaine de l’IA.
L’article rappelle une fois de plus qu’aucun de ces modèles n’est infaillible, quel que soit le degré d’avancement qu’ils revendiquent ou même leurs performances sur les bancs d’essai. L’évaluation d’un LLM sur la base d’un benchmark pose en soi une série de problèmes, car les benchmarks ne testent souvent que des tâches spécifiques de haut niveau qui ne se traduisent pas avec précision dans les applications quotidiennes de ces modèles.