Comment Cerebras a permis à Llama de Meta d’exploser ses performa …

La chaîne de pensée (nrdlr. chain of thought) au moment de l’inférence fait en sorte qu’un modèle d’IA plus petit soit égal ou supérieur en performance à un modèle plus grand. Cerebras Systems

Cerebras Systems a annoncé mardi avoir amélioré les performances du LLM Llama de Meta Platforms. Comment ? En rendant aussi performante une plus petite version qu’une version plus importante du LLM. La technique utilisée pour ce faire est une approche de plus en plus populaire dans l’intelligence artificielle générative (IA) connue sous le nom de « chaîne de pensée (chain of thought)« . Le fabricant d’ordinateurs d’IA a annoncé cette avancée au début de la conférence annuelle NeurIPS sur l’IA.

« Il s’agit d’une fonctionnalité propriétaire, mais nous voulions l’apporter à l’écosystème le plus populaire, à savoir Llama », a déclaré James Wang, responsable du marketing produit de Cerebras, à ZDNET.

Ce projet est le dernier d’une série de projets open-source que Cerebras a mis en œuvre pour démontrer les capacités de son ordinateur conçu spécialement sur l’IA, le « CS-3 », qu’il vend en concurrence avec les fournisseurs de puces GPU des fournisseurs habituels, Nvidia et AMD.

« Nous battons Llama 3.1 405B »

L’entreprise a pu entraîner le modèle d’IA open-source Llama 3.1, qui n’utilise que 70 milliards de paramètres, à atteindre la même précision, voire une meilleure précision, dans divers tests de référence que la version beaucoup plus grande de Llama, qui compte 405 milliards de paramètres.

Ces tests comprennent le test CRUX de « tâches de raisonnement complexes » développé au MIT et à Meta, et le LiveCodeBench pour les défis de génération de code développé à U.C. Berkeley, au MIT et à l’université de Cornell, entre autres.

La chaîne de pensée permet à des modèles utilisant moins de temps de formation, de données et de puissance de calcul d’égaler ou de surpasser les performances d’un grand modèle. « Nous battons Llama 3.1 405B, un modèle sept fois plus grand, simplement en pensant davantage au moment de l’inférence », a déclaré M. Wang.

Parvenir à une IA « explicable »

L’idée derrière le traitement de la chaîne de pensée est que le modèle d’IA détaille la séquence des calculs effectués pour obtenir la réponse finale, afin de parvenir à une IA « explicable ». Une telle IA explicable pourrait aussi donner une plus grande confiance dans les prédictions de l’IA en révélant la base des réponses.

OpenAI a popularisé l’approche de la chaîne de pensée avec son modèle « o1 » récemment publié.

La réponse de Cerebras à o1, baptisée « Cerebras Planning and Optimization » (CePO), fonctionne en demandant à Llama – au moment où le prompt est soumis – de « produire un plan pour résoudre le problème donné étape par étape », d’exécuter le plan à plusieurs reprises, d’analyser les réponses à chaque exécution, puis de sélectionner une réponse « best of ».

Cerebras a également soumis Llama au « Strawberry Test »

« À la différence d’un LLM traditionnel, où le code est littéralement jeté, jeton par jeton, ce programme examine le code qu’il a généré et se demande s’il a un sens » explique Wang. « Y a-t-il des erreurs de syntaxe ? Est-ce qu’il accomplit réellement ce que la personne demande ? Et il exécutera ce type de boucle logique d’exécution de plan et de vérification croisée plusieurs fois ».

En plus d’égaler ou de dépasser le modèle 405B de Llama 3.1, Cerebras a pu prendre la dernière version de Llama, 3.3, et la rendre aussi performante que les modèles de grands langages « frontières » tels que Claude 3.5 Sonnet d’Anthropic et GPT-4 Turbo d’OpenAI.

« C’est la première fois, je pense, que quelqu’un prend un modèle 70B, qui est de taille moyenne, et atteint une performance de niveau frontière », a déclaré M. Wang.

Avec humour, Cerebras a également soumis Llama au « Strawberry Test », un prompt qui fait référence au nom de code « strawberry » de o1 d’OpenAI. Lorsque les nombres de « r » sont multipliés, comme « strrrawberrry », et que les modèles de langage sont invités à dire le nombre de « r », ils échouent le plus souvent. Llama 3.1 a été capable d’associer avec précision différents nombres de « r » en utilisant la chaîne de pensée.

Pour Cerebras, cela démontre les avantages matériels et logiciels de son ordinateur d’IA, le CS-3.

Les machines CS2 sont 16 fois plus rapides que les puces GPU

Le travail sur Llama a été effectué sur des CS-3 utilisant la puce WSE3 de Cerebras, le plus grand semi-conducteur au monde. L’entreprise a pu faire fonctionner le modèle Llama 3.1 70B, ainsi que Llama 3.3, sur une chaîne de pensée sans le décalage typique induit par o1 et d’autres modèles fonctionnant avec des puces Nvidia et AMD, a déclaré M. Wang.

La version 3.1 70B de la chaîne de pensée est « le seul modèle de raisonnement qui fonctionne en temps réel » lorsqu’il est exécuté sur les Cerebras CS2, affirme l’entreprise. « Le modèle de raisonnement OpenAI o1 s’exécute en quelques minutes, et ici en quelques secondes ».

Cerebras, qui a récemment lancé ce qu’elle appelle « le service d’inférence le plus rapide au monde », affirme que les machines CS2 sont 16 fois plus rapides que le service le plus rapide sur les puces GPU, avec 2 100 tokens traités par seconde.

Il n’y a pas de plateau

L’expérience de Cerebras confirme que non seulement l’entraînement des modèles d’IA, mais aussi l’élaboration de prédictions en production, requièrent des besoins informatiques de plus en plus importants à mesure que les messages deviennent plus complexes.

M. Wang dit que la précision des grands modèles de langage s’améliorera proportionnellement à la quantité de calcul utilisée, tant pour la formation que pour l’inférence. Toutefois, le facteur d’amélioration des performances varie en fonction de l’approche utilisée dans chaque cas.

« Les différentes techniques s’adapteront plus ou moins bien à la puissance de calcul », a déclaré M. Wang.

« Le point de vue classique était que les améliorations atteindraient un plateau et qu’il faudrait des percées algorithmiques », a-t-il ajouté. Les lois de mise à l’échelle disent au contraire : « Non, vous pouvez simplement augmenter le nombre de calculs sans limite pratique ». Le type de réseau neuronal, la méthode de raisonnement, etc. affectent le taux d’amélioration, mais pas sa nature évolutive.

« Les gens aiment voir les résultats intermédiaires »

Dans différentes implémentations, la chaîne de pensée peut produire soit une série de résultats intermédiaires, soit une sorte de message d’état disant quelque chose comme « penser ». Interrogé sur le choix de Cerebras, Wang a déclaré qu’il n’avait pas vu le résultat réel, mais que « c’est probablement verbeux ». Lorsque nous publions des produits conçus pour servir Llama et des modèles open-source, les gens aiment voir les résultats intermédiaires ».

Démonstration de l’entraînement initial d’un modèle de langage de mille milliards de paramètres sur une seule machine, en utilisant 55 téraoctets de DRAM. Cerebras Systems

Mardi, Cerebras a annoncé avoir démontré l’apprentissage « initial » d’un grand modèle de langage comportant un trillion de paramètres, dans le cadre d’un projet de recherche mené avec Sandia National Laboratories, un laboratoire géré par le Département de l’énergie des États-Unis.

Le travail a été effectué sur un seul CS-3, associé à son ordinateur à mémoire conçu à cet effet, le MemX. Une version spéciale du MemX a été portée à 55 téraoctets de mémoire pour contenir les poids des paramètres du modèle. Ils ont ensuite été transmis au CS-3 par l’intermédiaire de l’ordinateur réseau spécialisé de Cerebras, le SwarmX.

Moins de 1% de l’espace et de la puissance de l’installation GPU équivalente

Selon Cerebras, le système CS-3 remplacerait 287 des puces combinées de Nvidia « Grace Blackwell 200« , qui sont nécessaires pour accéder à une mémoire équivalente.

La combinaison d’un CS-3 et du MemX occupe deux racks d’équipement de télécommunications standard, a déclaré M. Wang. L’entreprise affirme que cela prend moins de 1% de l’espace et de la puissance de l’installation GPU équivalente.

Le dispositif MemX utilise de la DRAM de base, connue sous le nom de DDR-5, contrairement aux cartes GPU qui disposent d’une « mémoire à grande largeur de bande », ou HBM, plus coûteuse. « Il est donc extrêmement facile de se le procurer et il est peu coûteux », a déclaré M. Wang à propos de la mémoire.

Cerebras affirme que son système en grappe réduit considérablement la quantité de code nécessaire à la programmation d’un modèle à un trillion de paramètres. Cerebras Sytems

Le gain véritable se situe au niveau de la programmation

La société mise sur le fait que le véritable gain se situe au niveau du modèle de programmation. Selon M. Wang, pour programmer les centaines de GPU de concert, un total de 20 507 lignes de code est nécessaire pour coordonner les codes Python, C, C++ et shell d’un modèle d’IA. Ainsi que d’autres ressources. La même tâche peut être réalisée sur la machine CS-3 avec… 565 lignes de code.

« Il ne s’agit pas seulement d’un besoin du point de vue du matériel, c’est beaucoup plus simple du point de vue de la programmation », a-t-il déclaré, « parce que vous pouvez déposer ce modèle de mille milliards de paramètres directement dans ce bloc de mémoire », alors que les GPU impliquent de « gérer » des « milliers de blocs de 80 gigaoctets » de mémoire HBM pour coordonner les paramètres.

Pour aller plus loin sur ce sujet

Source link