Vous pensez que l’IA peut résoudre tous vos problèmes professionn …

Vous pensez que l'IA peut résoudre tous vos problèmes professionn ...


À l’école d’ingénieurs, j’avais un professeur qui se glorifiait des devoirs trompeurs. Il posait des questions contenant des éléments d’une pertinence douteuse par rapport au sujet traité. Son espoir ? Nous déconcentrer pour nous faire plonger dans des recherches inutiles.

Voici un exemple du type de question qu’il posait :

Oliver choisit 44 kiwis le vendredi. Puis il choisit 58 kiwis le samedi. Le dimanche, il cueille deux fois plus de kiwis que le vendredi, mais cinq d’entre eux sont un peu plus petits que la moyenne. Combien de kiwis Oliver a-t-il ?

L’objectif de mon professeur était de nous aider à identifier ce qui était pertinent. Et à apprendre à ignorer toutes les distractions qui accompagnent la recherche. C’était au départ très douloureux. Mais en fin de compte très utiles pour les ingénieurs de première année.

Des kiwis et des LLM

Ce défi me revient à l’esprit à cause d’un document de recherche publié ce mois-ci par une équipe de chercheurs d’Apple spécialisés dans l’IA.

Leur article, intitulé « GSM-Symbolic : Understanding the Limitations of Mathematical Reasoning in Large Language Models, inclut le problème mathématique illustré ci-dessus. Si vous examinez la question, la phrase « mais cinq d’entre eux étaient un peu plus petits que la moyenne » ne devrait pas avoir d’impact sur le nombre total de kiwis.

Les chercheurs ont constaté que les grands modèles de langage (LLM) tels que GPT-40 mini, GPT-40, o1 mini d’OpenAI échouent à la résolution du problème.

Raisonnement ou pas ?

Pour être honnête, j’ai lancé cette requête avec ChatGPT GPT-4o. Qui a répondu correctement. Cela ne signifie pas que les conclusions d’Apple sont incorrectes. Mais seulement que ChatGPT a correctement traité cette question.

Capture d’écran par David Gewirtz/ZDNET

D’un autre côté, nous savons tous que l’IA aurait tout aussi bien pu répondre en parlant du nombre d’oiseaux kiwis qui se dandinent dans les forêts nocturnes d’Otorohanga, en Nouvelle-Zélande.

Il est donc logique que la conclusion ultime de la recherche d’Apple soit que les LLM sont incapables d’un véritable raisonnement.

GSM8K vs. GSM-Symbolic

Les chercheurs ont développé des frameworks de test d’IA conçus pour mesurer la manière dont les modèles de langage évaluent les problèmes mathématiques.

En 2021, OpenAI a lancé GSM8K, un ensemble de données de référence utilisé pour évaluer le raisonnement des LLM. L’acronyme indique le contenu de l’ensemble de données : 8 000 problèmes de mathématiques d’école primaire.

GSM8K est considéré comme l’étalon-or pour l’évaluation des capacités de raisonnement mathématique des LLM. En particulier pour les problèmes d’arithmétique et de mots.

Parce qu’il est open source, GSM8K a également été utilisé dans le domaine de l’IA (tant à l’intérieur qu’à l’extérieur d’OpenAI) pour tester des tâches nécessitant un raisonnement par étapes. Sa structure de problème est claire, ce qui en a fait un outil de confiance pour les chercheurs en IA qui effectuent des tests préliminaires sur leurs LLM.

Les chercheurs d’Apple, quant à eux, considèrent que cet ensemble de données est défectueux. Ils affirment que les résultats des tests du GSM8K peuvent donner une image trop positive des capacités d’un LLM. En effet, l’ensemble de tests est basé sur des questions fixes et familières qui peuvent avoir été utilisées dans l’ensemble de formation du LLM.

L’article présente un nouvel ensemble de données, GSM-Symbolic, qui, selon les chercheurs, surmonte les limites de GSM8K. GSM-Symbolic propose des problèmes plus variés et plus complexes, qui empêchent les LLM de travailler à partir de données de formation stockées.

Un problème de contamination par les données

L’article mentionne que certains modèles, comme Gemma2-9B de Google, ont montré des résultats nettement différents en utilisant les deux ensembles de données de référence. Gemma2-9B a pu résoudre correctement les problèmes de l’ensemble de données GSM8K d’OpenAI. Mais sa précision a chuté de 15 % lorsqu’il a été soumis à l’ensemble de tests GSM-Symbolic d’Apple.

Les chercheurs d’Apple ont constaté que la précision diminuait à mesure que la complexité des questions augmentait. Selon Apple, les modèles dont la précision était de l’ordre de 80 à 90 % pouvaient tomber à 40 %.

Apple affirme qu’il existe un risque de contamination des données dans le GSM8K. Ce qui signifie que les modèles pourraient avoir été formés sur des parties de l’ensemble de données. GitHub, qui héberge l’ensemble de données GSM8K, a été utilisé pour aider à former des LLM.

L’utilisation de GitHub pour les données de formation ne m’a jamais semblé être une bonne idée. J’ai du vieux code dans mon dépôt GitHub et je sais très bien à quel point il est bogué. Je ne voudrais pas utiliser ce code pour former une IA.

Quoi qu’il en soit, le GSM-Symbolic d’Apple ne semble pas être open source. Ainsi, bien que les chercheurs d’Apple affirment qu’il s’agit de la meilleure solution pour tester les LLM, vous ne pouvez y avoir accès que si vous travaillez chez Apple.

Que signifie tout cela pour les professionnels ?

Une partie de moi se méfie de la motivation d’Apple pour rédiger cet article. Il ressemble à une sorte de comparaison compétitive avec Open Al. D’autant plus qu’Apple sort ses propres offres Al.

D’un autre côté, Apple prévoit d’inclure ChatGPT dans ses offres Apple Intelligence. Par conséquent, je pense que les motivations étaient un simple intérêt académique.

La recherche prouve que :

  • Les LLM sont plus performants en matière d’association de modèles qu’en matière de raisonnement logique.
  • Ils utilisent la reconnaissance des formes dans leur formation et leur traitement, plutôt que la déduction proprement dite.

Le fait qu’une grande partie de l’information mondiale puisse être représentée de manière convaincante simplement à partir de la reconnaissance des formes est surprenant. Mais cela ne nous permet toujours pas d’obtenir des ordinateurs capables de raisonner réellement.

Le raisonnement mathématique n’est pas parfait. L’exemple que les chercheurs d’Apple ont utilisé comme test raté a été accepté lors de mes tests. Cela ne veut pas dire que l’équipe d’Apple a tort. Mais cela revient à dire que les IA sont incohérentes et en constante évolution.

Par conséquent, s’appuyer sur les LLM pour obtenir des résultats mathématiques n’est pas une approche pratique. Si vous voulez de bonnes mathématiques, utilisez des algorithmes de la vieille école et des méthodes traditionnelles de test et de validation de l’ingénierie logicielle.

Une autre préoccupation pour ceux qui envisagent de s’appuyer sur les données LLM dans des scénarios de production est la baisse de la précision au fur et à mesure que la complexité augmente.

Bien que cette tendance reflète fidèlement la façon dont les humains traitent les données (plus elles sont complexes, plus nous avons de maux de tête), la différence entre les LLM et nous est que nous pratiquons un véritable raisonnement.

Quelles sont donc les implications commerciales des résultats de recherche présentés dans l’article d’Apple ?

Implications commerciales et atténuation des risques

L’IA est un outil utile. Mais ne comptez pas sur elle pour prendre des décisions complexes. Il n’est tout simplement pas judicieux d’abandonner toute responsabilité à une IA ou à un LLM sous prétexte qu’il s’agit d’une nouvelle technologie prometteuse.

Ne vous attendez donc pas à ce que l’IA remplace vos experts. L’IA peut soutenir les efforts des experts humains. Mais lorsqu’il s’agit de raisonnement profond ou de pensée critique, les IA sont faillibles.

Voyez les choses sous cet angle : Si vous ne feriez pas confiance à un étudiant de première année ou à l’enfant de votre voisin pour prendre des décisions concernant votre entreprise, ne faites pas confiance à l’IA.

Cela nous amène à l’atténuation des risques : Investissez dans l’IA avec prudence. Recherchez les domaines stratégiques dans lesquels elle excelle.

Par exemple, dans mon travail quotidien, je trouve que l’IA est très rentable dans les capacités de retouche photo de Photoshop pour supprimer les arrière-plans. Je l’utilise également pour la génération de textes et d’images. Mais jamais pour des projets critiques.

Assurez-vous absolument que vous avez mis en place des systèmes pour garantir que la supervision humaine a bien lieu et qu’elle n’échappe pas à la règle.

Cette prudence s’applique également à votre équipe. Tout le monde a lu et entendu parler des merveilles de l’IA générative. Mais n’est peut-être pas conscient de ses limites.

Conclusions de la recherche d’Apple

Il est intéressant de constater qu’Apple, qui a mis tant d’emphase sur Apple Intelligence, montre également les limites de la technologie. D’une certaine manière, cette transparence est encourageante.

Apple utilise l’apprentissage automatique pour améliorer ses capacités de traitement des photos. Mais si ces technologies font largement appel aux mathématiques, elles ne nécessitent pas de raisonnement humain indépendant.

Il faut s’attendre à ce qu’Apple continue d’investir dans les technologies d’IA. Mais je ne m’attends pas à ce que l’équipe dirigeante d’Apple cède la prise de décision à un LLM.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.