La startup Cerebras lance le service d’inférence le plus rapide a …

La startup Cerebras lance le service d'inférence le plus rapide a ...


Cerebras a démontré que son service d’inférence peut être 10 à 20 fois plus rapide que les services conventionnels d’inférence d’IA dans le nuage. Cerebras Systems

Le marché des prédictions issues de l’intelligence artificielle générative, ce que l’on appelle l’inférence, est important. OpenAI serait en passe d’engranger 3,4 milliards de dollars de chiffre d’affaires cette année grâce aux prédictions de ChatGPT.

Et avec un gâteau aussi gros pour l’inférence, il y a beaucoup de place pour les challengers.

Mardi dernier, le fabricant de puces d’IA Cerebras Systems basé à Sunnyvale, en Californie, a présenté son service d’inférence d’IA. Il affirme être le plus rapide au monde et, dans de nombreux cas, dix à vingt fois plus rapide que les systèmes construits à l’aide de la technologie dominante, l’unité de traitement graphique H100 « Hopper » de Nvidia, soit un GPU.

Le nouveau service de Cerebras place ces machines dans les coulisses

« Nous n’avons jamais vu un marché technologique croître aussi rapidement », a déclaré Andrew Feldman, cofondateur et PDG de Cebrebras. « Nous avons l’intention de prendre une part de marché significative ».

Nvidia domine actuellement le marché de l’entraînement des réseaux neuronaux, y compris l’IA générative, et des ventes de puces accélératrices pour l’inférence.

Le nouveau plan d’attaque de Cerebras est un pivot pour cette entreprise âgée de huit ans. Depuis l’introduction de son premier ordinateur d’IA en 2019, la société s’est concentrée sur la vente de machines pour défier Nvidia dans l’entraînement des réseaux neuronaux. Le nouveau service de Cerebras place ces machines dans les coulisses. Il utilise un modèle de revenus basé non pas sur les ventes de machines, mais sur le volume de transactions.

Un service 20 fois plus rapide que les services d’inférence managés par Azure et AWS

Cerebras a mis en place ses propres centres de données d’inférence sur plusieurs sites. Et louera la capacité d’inférence moyennant une redevance par requête. Elle vendra également ses ordinateurs CS-3 aux entreprises qui souhaitent effectuer de l’inférence sur site, soit gérée par le client, as-a-service géré par Cerebras.

« Nous sommes à l’ère de l’inférence de l’IA Gen », a plaisanté M. Feldman, qui a fait entendre le son d’un vieux modem, tandis que le service AWS s’efforçait d’achever la tâche, sous les rires de la presse. Tiernan Ray pour ZDNET

L’ordinateur Cerebras CS-3, un système complet contenant la plus grande puce informatique du monde, la WSE-3, produit des résultats d’inférence qui sont « les plus rapides de l’industrie, sans exception, pas de peu, mais de beaucoup », a déclaré M. Feldman.

M. Feldman affirme que le service est vingt fois plus rapide que les services d’inférence managés par Microsoft Azure, Amazon AWS et d’autres. Et ce si l’on se réfère au nombre de jetons (token) par seconde qui peuvent être générés dans la réponse pour chaque utilisateur.

« Tout le monde se situe au-dessous de 300 jetons par seconde et par utilisateur »

Lors d’une démo pour la presse, M. Feldman a comparé le service d’inférence de Cerebras et celui d’AWS et d’autres. Le travail de Cerebras s’est terminé instantanément, avec un taux de traitement de 1 832 jetons par seconde. Le service AWS a traîné en longueur, prenant plusieurs secondes pour fournir le résultat final du chat. Une sensation familière pour tous ceux qui utilisent ChatGPT et ses semblables.

« Tout le monde se situe au-dessous de 300 jetons par seconde et par utilisateur », note M. Feldman.

« Nous sommes à l’ère de l’inférence de l’intelligence artificielle par modem », a plaisanté M. Feldman devant les journalistes. Et il a fait entendre le son d’un vieux modem, tandis que le service AWS s’efforçait de terminer la tâche, sous les rires de l’assistance.

cerebras-2024-fastest-inference.png

Cerebras Systems

Le service est disponible gratuitement, en mode « pay-as-you-go » et « provisioned throughput »

M. Feldman a noté que son service est dix fois plus rapide qu’un système informatique Nvidia DGX à 8 voies.

Le service est disponible gratuitement, en mode « pay-as-you-go » et en version « provisioned throughput » pour les clients qui ont besoin d’une garantie de performance en matière d’inférence. (Vous pouvez essayer le service gratuitement sur le site web de Cerebras en fournissant votre login Gmail ou Microsoft cloud).

Selon M. Feldman, l’efficacité du service se traduit par d’énormes avantages en termes de coûts. L’offre de Cerebras est « 100 fois plus performante en termes de prix pour les charges de travail d’IA » qu’AWS et les autres. Le prix du service est de 60 cents par jeton et par utilisateur pour exécuter le modèle de grand langage open-source Llama 3.1 70B de Meta, par exemple. Le même service coûte 2,90 dollars par jeton auprès d’un fournisseur de cloud classique.

cerebras-inference-price-comparison-2024.png

Cerebras Systems

La rapidité d’obtention de la réponse n’est pas le seul critère

Mais la rapidité d’obtention de la réponse n’est pas le seul critère.

M. Feldman et le DT Sean Lie ont démontré de manière convaincante que le fait de gagner du temps sur les tâches entraîne également un saut qualitatif dans les types d’inférence possibles. Et ce depuis les tâches à requêtes multiples jusqu’à la réponse vocale interactive en temps réel. Ce qui serait impossible avec les vitesses d’inférence habituelles.

M. Feldman a indiqué qu’il fallait penser à la précision d’un modèle linguistique. Comme ces modèles peuvent souffrir d’hallucinations, la première réponse peut très souvent être inexacte. Plusieurs prompts peuvent être nécessaires pour forcer le modèle à vérifier ses résultats. L’ajout de la « génération augmentée par extraction », dit aussi RAG, où le modèle puise dans une base de données externe, ajoute encore au travail de calcul.

Convertir la vitesse en précision

Si toutes ces étapes peuvent être réalisées plus rapidement que normalement, une requête Cerebras peut aboutir à un résultat multi-tour plus précis dans le même laps de temps que les autres services d’inférence.

« Si, au lieu de cela, vous utilisez ce que l’on appelle une chaîne de pensée, et que vous lui demandez [au chatbot] de montrer son travail, puis de répondre en un seul mot, vous obtiendrez une réponse plus longue », a déclaré M. Feldman. « Il s’avère que la réponse plus longue est la bonne. Et le résultat est que « vous avez converti la vitesse en précision ». En lui demandant d’utiliser un processus plus approfondi et plus rigoureux, vous obtenez une meilleure réponse ».

« La vitesse se transforme en qualité : Une réponse plus puissante, une réponse plus pertinente, donc, et pas seulement des temps de réponse plus rapides ».

cerebras-2024-cs-3-versus-dgx

Cerebras Systems

« Vous pouvez créer des modèles agentiques qui font dix fois plus de travail »

Selon M. Feldman, une inférence plus rentable pourrait avoir de nombreuses répercussions sur la qualité des requêtes et des réponses. Par exemple l’élargissement de la « fenêtre contextuelle », c’est-à-dire le nombre d’éléments d’entrée que le modèle peut prendre en charge. L’élargissement de la fenêtre contextuelle peut permettre des discussions interactives sur de longs documents ou des comparaisons entre plusieurs documents.

Cela pourrait aussi alimenter des formes « agentiques » d’IA générative. Il s’agit d’une approche de plus en plus populaire dans laquelle le modèle d’IA doit faire appel à de multiples sources externes de vérité. Voire à des applications entières qui travaillent pour assembler la bonne réponse.

« Vous pouvez créer des modèles agentiques qui font dix fois plus de travail », a déclaré M. Feldman, “et ils sont susceptibles de produire des réponses bien meilleures et plus utiles”.

Russ d’Sa, cofondateur et PDG de la startup LiveKit, a présenté un agent à commande vocale capable de répondre instantanément à des messages vocaux. « Je dois faire un discours à San Francisco. Quelles sont les choses que je peux faire après mon discours ? » a demandé d’Sa au chatbot.

« San Francisco est une ville formidable. Vous venez de faire un discours. Vous avez beaucoup d’options… », a rapidement répondu le chatbot.

d’Sa a ensuite interrompu l’agent IA à plusieurs reprises, changeant parfois de sujet ou posant de nouvelles questions, comme dans une conversation où l’un des interlocuteurs domine. À chaque fois, l’agent IA a pu répondre en douceur.

La puissance de la puce WSE-3

« La vitesse à laquelle ces jetons sortent est très importante pour la latence dans ce type de cas d’utilisation », explique d’Sa. « Une vitesse incroyable, incroyable. Les performances sont inférieures à 400 millisecondes pour le temps de réponse total en termes de tours de parole de l’IA ».

Les avantages du service d’inférence en termes de vitesse et de coût découlent principalement de la conception de la puce WSE-3. En raison de l’énorme taille de la puce, elle a presque 900 fois plus de mémoire qu’un GPU Nvidia standard. Elle dispose d’une bande passante de mémoire 7 000 fois plus importante.

cerebras-2024-wafer-scale-advantage.png

Cerebras Systems

« La largeur de bande de la mémoire est importante parce qu’elle est le principal facteur limitant les performances d’inférence des modèles de langage », explique M. Feldman.

44 gigaoctets de mémoire sur puce

Un modèle d’IA comportant 70 milliards de paramètres, tel que le Llama 3.1 70b de Meta, doit faire passer chaque mot d’entrée par ces 70 milliards de poids. À raison de seize bits de données, ou deux octets, pour chaque poids, cela représente 140 gigaoctets de mémoire pour représenter tous les poids. Pour faire passer un millier de jetons par chaque poids, la mémoire nécessaire grimpe à 140 téraoctets.

La puce Cerebras, avec ses 44 gigaoctets de mémoire sur puce, peut stocker une plus grande partie de ces données sur la puce, à côté des circuits qui doivent fonctionner. Et avec 21 pétaoctets de bande passante mémoire, la puce peut faire entrer et sortir des données de la mémoire beaucoup plus rapidement que le GPU pour assurer la coordination entre plusieurs machines CS-3. Et ce alors que les machines basées sur le GPU passent plus de temps à rechercher des données dans la mémoire.

« C’est là que réside l’essentiel de l’avantage », a déclaré M. Feldman. Les puces GPU n’utilisent souvent qu’un quart de leur bande passante théorique, affirme l’entreprise, en laissant les circuits en attente de données.

cerebras-cto-sean-lie-addresses-hot-chips-2024-conference-large

Sean Lie, directeur technique de Cerebras, s’adresse à la conférence Hot Chips 2024. Tiernan Ray pour ZDNET

Revenir à la logique de prédiction

L’utilisation de la même puce WSE-3 pour l’inférence alors qu’elle a été conçue à l’origine pour l’entraînement des réseaux neuronaux est un fait important, ont souligné Feldman et Lie. La conception originale de leur puce était suffisamment puissante pour gérer les deux tâches avec des performances supérieures dans les deux cas.

En réaffectant la puce de formation WSE-3 à des fins d’inférence, Cerebras a en quelque sorte bouclé la boucle, a déclaré Andy Hock, vice-président senior des produits et de la stratégie de l’entreprise, à ZDNET.

Avec la tâche d’inférence, Cerebras est revenu à la perspective du flux de données, où les poids restent sur la puce et les données d’entrée pour l’inférence sont diffusées à travers les circuits des puces, modifiées par les poids du modèle pour produire la sortie finale. C’est à dire la prédiction.

« Puis-je faire la même chose avec un modèle plus petit ? »

Les comparaisons fournies par Cerebras sont toutes basées sur la puce grand public actuelle de Nvidia, la H100. Et sur les systèmes basés sur cette dernière. L’entreprise n’a pas encore comparé ses performances en matière d’inférence avec la nouvelle puce Blackwell de Nvidia, a déclaré le directeur technique Lie.

La puce Blackwell sera deux fois plus rapide que la H100, a déclaré M. Lie, mais elle restera inférieure au système Cerebras, selon lui.

Toutes les démonstrations ont été faites avec deux modèles open-source, Llama 3.1 3b et 70b de Meta. Selon M. Lie, l’entreprise a testé l’inférence pour le modèle 405b de Meta, qui est plus grand. Cependant, le coût de ces très grands modèles est actuellement prohibitif dans l’industrie pour l’inférence, a-t-il dit.

« La question naturelle que l’ensemble de la communauté se pose actuellement est la suivante : « Puis-je faire la même chose avec un modèle plus petit ? » a déclaré M. Lie.

cerebras-feldman-2024-large

« Dans la mesure où l’industrie s’oriente vers ces types de travaux plus rapides et plus complexes, c’est là que nous gagnons », affirme M. Feldman. Tiernan Ray pour ZDNET

À première vue, le service d’inférence est une activité de commodité, ce que concède M. Feldman. La concurrence sur les prix et la rapidité n’est pas toujours une stratégie gagnante pour une entreprise rentable. Cependant, il s’attend à ce qu’avec le temps, de plus en plus de travaux soient réalisés dans le domaine de l’IA complexe, multi-facettes et agentique, où Cerebras excelle.

Source : « ZDNet.com »



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.