Nvidia domine les tests de GenAI, et écrase au passage deux puces …

Nvidia domine les tests de GenAI, et écrase au passage deux puces ...


Les puces GPU à usage général de Nvidia s’imposent une nouvelle fois dans l’un des benchmarks les plus populaires pour mesurer les performances des puces dans le domaine de l’intelligence artificielle. Et plus précisément sur l’exécution d’applications d’IA générative utilisant des modèles de langage de grande taille (LLM).

Il n’y a pas eu beaucoup de concurrence dans ce test.

Les systèmes mis au point par SuperMicro, Hewlett Packard Enterprise, Lenovo et d’autres, équipés de pas moins de huit puces Nvidia, ont remporté mercredi la plupart des premières places du test de référence MLPerf organisé par le MLCommons, un consortium industriel.

Ce test mesure la vitesse à laquelle les machines peuvent produire des jetons

Ce test, qui mesure la vitesse à laquelle les machines peuvent produire des jetons, traiter des requêtes ou produire des échantillons de données – ce que l’on appelle l’inférence de l’IA – en est à sa cinquième édition.

Cette fois, MLCommons a mis à jour les tests de vitesse en y ajoutant deux cas d’usage représentant des utilisations courantes de l’IA générative.

  • Le premier test porte sur la vitesse à laquelle les puces fonctionnent avec le programme open-source LLM Llama 3.1 405b de Meta, qui est l’un des plus grands programmes d’IA générative couramment utilisés.
  • MLCommons a également ajouté une version interactive du petit Llama 2 70b de Meta. Ce test est destiné à simuler ce qui se passe avec un chatbot, où le temps de réponse est un facteur important.

Les machines sont testées en fonction de la vitesse à laquelle elles génèrent le premier jeton de sortie du modèle de langage. Cela permet de simuler le cas d’usage où la nécessité d’une réponse rapide suit l’entrée d’un prompt.

Un test de performance sur les bases Graph

  • Un troisième nouveau test mesure la vitesse de traitement des réseaux neuronaux graphiques. Ce sont des problèmes composés d’un ensemble d’entités et de leurs relations, comme dans un réseau social avec les bases Graph.

Les réseaux neuronaux graphiques ont pris de l’importance récemment comme composants des programmes de Gen AI. Par exemple, DeepMind de Google a largement utilisé les réseaux de graphes pour réaliser des percées étonnantes dans les prédictions de pliage de protéines avec son modèle AlphaFold 2.

  • Un quatrième nouveau test mesure la vitesse à laquelle les données de détection LiDAR peuvent être assemblées dans une carte routière. MLCommons a construit sa propre version d’un réseau neuronal pour le test, en combinant des approches open-source.

MLCommons

Le benchmark MLPerf se compose d’ordinateurs assemblés par Lenovo, HPE et d’autres. Chaque système informatique transmet au MLCommons des rapports sur sa meilleure vitesse de production de résultats par seconde. Et pour certaines tâches, le critère de référence est la latence moyenne, c’est-à-dire le temps qu’il faut pour que la réponse revienne du serveur.

Les GPU de Nvidia ont obtenu les meilleurs résultats dans presque tous ces tests.

mlperf-inference-v5-0-press-briefing-final-deck-under-embargo-until-4-2-25-8-00am-pt-slide-12

MLCommons

MangoBoost allié à AMD

Son principal concurrent, AMD, avec son GPU MI300X, a obtenu le meilleur score dans deux des tests de Llama 2 70b. Il a produit 103 182 jetons par seconde, ce qui est nettement mieux que le deuxième meilleur résultat, obtenu par le nouveau GPU Blackwell de Nvidia.

Ce système AMD a été mis au point par un nouvel entrant dans le benchmark MLPerf, la startup MangoBoost.

Elle fabrique des cartes qui permettent d’accélérer le transfert de données entre les racks de GPU. La société développe également un logiciel appelé LLMboost pour améliorer l’utilisation de l’IA générative.

Trillium loin derrière Blackwell

Google a également présenté un système, montrant sa puce Trillium, la sixième itération de son unité de traitement Tensor (TPU) interne.

Ce système est resté loin derrière le Blackwell de Nvidia lors d’un test sur la vitesse à laquelle l’ordinateur pouvait répondre à des requêtes pour générer des images sur Stable Diffusion.

La dernière série de tests de référence MLPerf présentait moins de concurrents pour Nvidia que lors ds éditions précédentes. Par exemple, l’unité Habana du géant des microprocesseurs Intel n’était pas là. Qualcomm, le géant des puces mobiles, n’a pas non plus présenté de candidats.

Intel reste le roi dans le domaine des CPU

Reste que Intel a pu briller dans une autre catégorie. Celle des processeurs hôtes pour exécuter dans les datacenters le travail ordinaire de programmation des tâches et de gestion de la mémoire et du stockage.

Dans cette catégorie, le microprocesseur Xeon d’Intel était le processeur hôte qui alimentait sept des onze meilleurs systèmes, contre seulement trois victoires pour le microprocesseur serveur EPYC d’AMD. Cela représente une certaine amélioration pour Intel par rapport aux années précédentes.

Le onzième système le plus performant, qui a servi de référence pour la vitesse de traitement de l’énorme Llama 3.1 405b de Meta, a été construit par Nvidia lui-même. Un système qui ne comprenait aucun microprocesseur Intel ou AMD. Au lieu de cela, Nvidia a utilisé la puce Grace-Blackwell 200, où le GPU Blackwell est connecté dans le même boîtier que le microprocesseur Grace de Nvidia.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.