Andrew Feldman (PDG Cerebras) sur Mistral AI et DeepSeek : « chaqu …

Andrew Feldman (PDG Cerebras) sur Mistral AI et DeepSeek : "chaqu ...


« Lorsque vous êtes 50 à 70 fois plus rapide que vos concurrents, vous pouvez faire des choses qu’ils ne peuvent pas faire du tout », explique Andrew Feldman, PDG de Cerebras. Tiernan Ray/ZDNET

Andrew Feldman, cofondateur et PDG de l’entreprise Cerebras Systems, pionnier des ordinateurs d’IA, est « écrasé » par les demandes sur le LLM R1 de DeepSeek. « Nous réfléchissons à la manière de répondre à la demande, qui est très importante », a déclaré M. Feldman lors d’un entretien via Zoom la semaine dernière.

Et il en est de même pour LeChat de Mistral AI. Cerebras a en effet annoncé jeudi dernier la prise en charge de l’exécution de Le Chat, l’outil d’inférence de la startup française d’IA Mistral. Lors de l’exécution de la fonction « Flash Answers » de Le Chat, à 1 100 tokens par seconde, le modèle est « 10 fois plus rapide que les modèles populaires tels que ChatGPT 4o, Sonnet 3.5, et DeepSeek R1 », a déclaré Cerebras. De quoi en faire « l’assistant d’IA le plus rapide au monde ».

DeepSeek R1 est considéré par certains comme un tournant pour l’intelligence artificielle. Pourquoi ? Parce que le coût du pré-entraînement du modèle peut être inférieur d’un dixième à celui des modèles dominants tels que GPTo1 d’OpenAI, tout en produisant des résultats aussi bons, voire meilleurs.

L’avantage de Cerebras réside dans sa rapidité

L’impact de DeepSeek sur l’économie de l’IA est significatif, dit M. Feldman. Mais le résultat à long terme est qu’il encourage la croissance des d’IA. « À mesure que nous réduisons le coût du calcul, le marché devient de plus en plus grand », a déclaré M. Feldman.

De nombreux services d’IA en mode cloud se sont empressés d’offrir l’inférence DeepSeek dès la semaine dernière, y compris Cerebras, ou AWS d’Amazon. (Vous pouvez essayer le service d’inférence de Cerebras ici.)

L’avantage de Cerebras réside dans sa rapidité. Selon M. Feldman, l’exécution de l’inférence sur les ordinateurs CS-3 de l’entreprise permet d’obtenir des résultats 57 fois plus rapides que les autres fournisseurs de services.

Gérer la puissance de calcul de l’inférence

Cerebras met également en avant sa vitesse par rapport à d’autres grands modèles de langage. Dans une démonstration d’un problème de raisonnement effectué par DeepSeek sur Cerebras par rapport à o1 mini d’OpenAI, la machine de Cerebras a terminé en une seconde et demie. o1 prend 22 secondes pour accomplir la tâche.

Cerebras Systems

« Cette vitesse ne peut pas être atteinte avec n’importe quel nombre de GPU », a déclaré M. Feldman, en référence aux puces vendues pour l’IA par Nvidia, Advanced Micro Devices et Intel.

Le défi pour quiconque héberge un LLM est qu’il utilise beaucoup plus de puissance de calcul lorsqu’il produit des résultats au moment de l’inférence. Ce qui rend plus difficile de fournir des résultats à l’utilisateur en temps voulu.

Distiller R1 avec Llama 70B

« Un modèle GPT de base effectue un passage d’inférence à travers tous les paramètres pour chaque mot » saisi dans le prompt, a explique M. Feldman.

« Ces modèles de raisonnement, ou modèles de chaîne de pensée, font cela plusieurs fois pour chaque mot. Ils utilisent donc beaucoup plus de calculs au moment de l’inférence ».

cerebras-r1-deepseek-2025-slide-15

Cerebras System

Cerebras suit une procédure standard pour les entreprises souhaitant exécuter l’inférence DeepSeek. Il s’agit de télécharger les paramètres neuronaux R1 – ou les poids – sur Hugging Face. Puis d’utiliser les paramètres pour former un modèle open-source plus petit, dans ce cas Llama 70B de Meta Platforms, pour créer une « distillation » de R1.

« Nous avons pu faire cela extrêmement rapidement. Et nous avons pu produire des résultats bien plus rapides que tous les autres », dit M. Feldman. Cerebras ne divulgue pas le prix de DeepSeek R1 distillé par Llama 70B pour l’inférence. Mais il dit que son prix est « compétitif ».

La percée de DeepSeek a plusieurs implications

Tout d’abord, il s’agit d’une grande victoire pour l’IA open-source, dit M. Feldman. Il entend par IA open source les modèles d’IA qui publient leurs paramètres neuronaux en vue de leur téléchargement. De nombreuses avancées d’un nouveau modèle d’IA peuvent être reproduites par les chercheurs lorsqu’ils ont accès aux poids, même s’ils n’ont pas accès au code source. Les modèles propriétaires tels que GPT-4 ne divulguent pas leurs poids.

« L’open source connaît son heure de gloire », dit M. Feldman. « Il s’agit du premier modèle de raisonnement open-source de haut niveau ».

« La bourse se trompe à chaque fois ces 50 dernières années », dit M. Feldman, faisant allusion à la baisse du cours de Nvidia suite à la percée de DeepSeek. « Chaque fois que le calcul devient moins cher, les investisseurs en bourse supposent à chaque fois que cela réduit la taille du marché. Or, à chaque fois, sur plus de 50 ans, le marché grandit. »

L’IA générative, c’est comme le marché du PC x86

M. Feldman donne l’exemple de la baisse du prix des PC x86. Cela a entraîné une augmentation des ventes et de l’utilisation des PC. Aujourd’hui, dit-il, « vous avez 25 ordinateurs chez vous. Vous en avez un dans votre poche, vous en avez un sur lequel vous travaillez, votre lave-vaisselle en a un, votre machine à laver en a un, vos téléviseurs en ont tous un ».

« Lorsque vous êtes 50 ou 70 fois plus rapide que vos concurrents, vous pouvez faire des choses qu’ils ne peuvent pas faire », dit-il, en faisant allusion au CS-3 de Cerebras et à sa puce, le plus grand semi-conducteur du monde, la WSE-3. « À un moment donné, les différences de degré deviennent des différences en nature ».

Cerebras a lancé son service d’inférence en août dernier. Avec des vitesses beaucoup plus rapides que la plupart des autres fournisseurs pour l’exécution de l’IA générative. Il se présente comme « le fournisseur d’inférence d’IA le plus rapide au monde ».

« Un modèle de 671 milliards de paramètres est cher à exécuter »

Hormis le modèle R1 distillé PAR Llama, Cerebras ne propose pas actuellement l’intégralité de la R1 en inférence. Pourquoi ? Parce que le coût de cette opération est prohibitif pour la plupart des clients.

« Un modèle de 671 milliards de paramètres est cher à exécuter », déclare M. Feldman, en faisant référence au modèle R1 complet. « Ce que nous avons vu avec le Llama 405B, c’est un intérêt énorme pour le nœud 70B et beaucoup moins pour le nœud 405B parce qu’il est beaucoup plus cher. C’est là que se trouve le marché en ce moment ».

Certains clients de Cerebras paient pour le Llama 405B complet car « ils estiment que la précision vaut le coût supplémentaire ».

Aller en Chine ou aller chez Cerebras ?

Cerebras fait également le pari de la confidentialité et la sécurité. Car l’enthousiasme initial pour DeepSeek a été suivi par des préoccupations concernant le traitement des données par le modèle.

« Si vous utilisez leur application, vos données vont en Chine », dit M. Feldman à propos des applications natives Android et iOS de DeepSeek AI. « Si vous nous utilisez, les données sont hébergées aux États-Unis. Nous ne stockons pas vos poids ni aucune de vos informations. »

Interrogé sur les nombreuses failles de sécurité que les chercheurs ont rendues publiques à propos de DeepSeek R1, M. Feldman se montre philosophe. Certains problèmes seront résolus au fur et à mesure de la maturation de la technologie dit-il. « Ce secteur évolue très rapidement. Personne n’a jamais rien vu de tel. Il s’améliore de semaine en semaine, de mois en mois. Mais est-ce parfait ? Non. Faut-il utiliser un LLM pour remplacer son bon sens ? Non. »



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.