le dernier LLM de Google atteint 98 % de la précision d …

le dernier LLM de Google atteint 98 % de la précision d ...



L’économie de l’intelligence artificielle est au cœur des débats ces derniers temps, la startup DeepSeek AI vantant des gains de coûts massifs grâce au déploiement de puces GPU.

Google n’est pas en reste et vient d’annoncer que son dernier grand modèle de langage open source, Gemma 3, s’approche de la précision du R1 de DeepSeek avec une fraction de la puissance de calcul estimée.

En utilisant les scores « Elo », un système de mesure employé pour classer les joueurs d’échecs et les athlètes, Google affirme que Gemma 3 se rapproche à 98 % du score du R1 de DeepSeek, soit 1 338 contre 1 363 pour R1.

Le modèle le plus performant sur une seule puce, affirme Google

Cela signifie que R1 est supérieur à Gemma 3. Cependant, selon les estimations de Google, il faudrait 32 GPU H100 Nvidia pour atteindre le score de R1, alors que Gemma 3 n’utilise qu’une seule puce H100.

L’équilibre entre puissance de calcul et score Elo est idéal, affirme Google

Le géant californien présente ce nouveau programme comme « le modèle le plus performant pouvant être exécuté sur un seul GPU ou TPU », faisant référence à sa puce d’IA personnalisée.

« Gemma 3 offre des performances de pointe pour sa taille, surpassant Llama-405B, DeepSeek-V3 et o3-mini lors des évaluations préliminaires des préférences humaines du classement LMArena », indique Google, en référence aux scores Elo. « Cela vous permet de créer des expériences utilisateur attrayantes, compatibles avec un seul GPU ou hôte TPU. »

Le modèle de Google surpasse également le score Elo du Llama 3 de Meta, qui, selon les estimations, nécessiterait 16 GPU. (Notez que le nombre de puces H100 utilisées par la concurrence est une estimation de Google ; DeepSeek AI n’a divulgué qu’un exemple d’utilisation de 1 814 GPU H800 moins puissants de Nvidia pour traiter des réponses avec R1.)

Des informations plus détaillées sont disponibles dans un billet de blog sur HuggingFace, où le référentiel Gemma 3 est proposé.

Les modèles Gemma 3, destinés à une utilisation sur appareil plutôt que dans les centres de données, ont un nombre de paramètres, ou « poids » neuronaux, bien inférieur à celui de R1 et d’autres modèles open source. En règle générale, plus le nombre de paramètres est élevé, plus la puissance de calcul requise est importante.

Qu’est-ce que la distillation de l’IA ?

Le code Gemma offre des nombres de paramètres de 1, 4, 12 et 27 milliards, ce qui est relativement faible par rapport aux normes actuelles. En revanche, R1 dispose de 671 milliards de paramètres, dont 37 milliards peuvent être utilisés de manière sélective en ignorant ou en désactivant certaines parties du réseau.

La principale amélioration permettant une telle efficacité est une technique d’IA largement utilisée appelée distillation. Elle consiste à extraire les pondérations d’un modèle plus grand et à les insérer dans un modèle plus petit, tel que Gemma 3, afin de lui conférer des performances accrues.

Le modèle ainsi distillé est également soumis à trois mesures de contrôle qualité différentes : l’apprentissage par renforcement à partir du retour humain (RLHF), qui permet de rendre les résultats de GPT et d’autres grands modèles de langage inoffensifs et utiles ; ainsi que l’apprentissage par renforcement à partir du feedback machine (RLMF) et l’apprentissage par renforcement à partir du feedback d’exécution (RLEF), qui, selon Google, améliorent respectivement les capacités mathématiques et de codage du modèle.

Un article du blog développeurs Google détaille ces approches, et un autre article décrit les techniques utilisées pour optimiser la plus petite version, le modèle à 1 milliard, pour les appareils mobiles. Ces techniques incluent quatre méthodes courantes d’ingénierie de l’IA : la quantification, la mise à jour des dispositions de cache « clé-valeur », l’amélioration du temps de chargement de certaines variables et le « partage du poids GPU ».

L’entreprise compare non seulement les scores Elo, mais aussi Gemma 3 à la version précédente de Gemma 2 et à ses modèles Gemini à code source fermé lors de tests de performance tels que la tâche de programmation LiveCodeBench. Gemma 3 est généralement moins précis que Gemini 1.5 et Gemini 2.0, mais Google qualifie les résultats de remarquables, affirmant que Gemma 3 « affiche des performances compétitives par rapport aux modèles Gemini à code fermé ».

Les modèles Gemini ont un nombre de paramètres bien plus important que Gemma.

Gemma 3 est multimodal

La principale avancée de Gemma 3 par rapport à Gemma 2 réside dans une « fenêtre contextuelle » plus longue, c’est-à-dire le nombre de jetons d’entrée pouvant être conservés en mémoire pour que le modèle puisse les traiter à un instant T.

Gemma 2 ne disposait que de 8 000 jetons, contre 128 000 pour Gemma 3, ce qui représente une fenêtre contextuelle « longue », plus adaptée au traitement d’articles ou de livres entiers. (Gemini et d’autres modèles à code source fermé sont bien plus performants, avec une fenêtre contextuelle de 2 millions de jetons pour Gemini 2.0 Pro.)

Gemma 3 est également multimodal, contrairement à Gemma 2. Cela signifie qu’il peut gérer des images en entrée ainsi que du texte pour répondre à des questions telles que « Qu’y a-t-il sur cette photo ?»

Enfin, Gemma 3 prend en charge plus de 140 langues, et non plus seulement l’anglais comme Gemma 2.

D’autres fonctionnalités intéressantes cachées dans les détails

Par exemple, un problème bien connu avec tous les grands modèles linguistiques est qu’ils peuvent mémoriser des portions de leurs données d’entraînement, ce qui peut entraîner des fuites d’informations et des violations de la vie privée si les modèles sont exploités par des techniques malveillantes.

Les chercheurs de Google ont testé les fuites d’informations en échantillonnant les données d’entraînement et en déterminant la quantité pouvant être extraite directement de Gemma 3 par rapport à ses autres modèles. « Nous constatons que les modèles Gemma 3 mémorisent les textes longs à un taux bien inférieur à celui des modèles précédents », notent-ils, ce qui signifie théoriquement que le modèle est moins vulnérable aux fuites d’informations.

Pour davantage de détails, vous pouvez consulter le document technique de Gemma 3.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.