Elon Musk était un investisseur d’OpenAI lorsque la société a été fondée en 2015. Mais il a depuis non seulement rompu les liens avec la société, mais a également critiqué son approche de la sécurité. En conséquence, Elon Musk a lancé son propre chatbot d’IA, Grok. Et cet outil vient de bénéficier d’une mise à jour assez importante.
Mardi, xAI, une société d’IA fondée par Musk, a annoncé la sortie d’un premier aperçu de Grok-2, son grand modèle de langage (LLM) doté de nouvelles capacités en matière de chat, de codage et de raisonnement. La nouvelle version comprend également Grok-2 mini qui, comme son nom l’indique, est une version allégée de Grok-2.
Avant cette sortie, une première version de Grok-2 a été testée dans le Chatbot Arena de la LMSYS (Large Model Systems Organization) sous le nom anonyme de « sus-column-r », comme le font de nombreuses entreprises d’IA avant de lancer un nouveau modèle.
Super pour les maths et le code
Sur cette plateforme participative, les utilisateurs peuvent évaluer les LLM en discutant avec deux modèles côte à côte. Et en comparant leurs réponses sans connaître le nom des modèles. Face à des modèles de pointe tels que GPT-4o d’OpenAI et Gemini 1.5 Pro de Google, Grok-2 s’est montré à la hauteur. Il se classe troisième dans la catégorie « Général » et à égalité avec GPT-4o, comme le montre le graphique ci-dessous.
Si, comme moi, vous avez visité le classement de Chatbot Arena et avez été surpris de ne pas voir les mêmes résultats, le LMSYS a révélé qu’il publiait les premiers résultats sur Twitter (X), avec « La mise à jour officielle pour Grok 2 arrive bientôt… ! »
Parmi les autres résultats remarquables de Chatbot Arena, on peut citer les compétences de Grok-2 dans les catégories mathématiques et de codage. Il s’est classé deuxième dans les deux cas. Sur les questions complexes, il se classe quatrième. Si vous souhaitez le tester dans l’Arena, visitez le site web, cliquez sur Arena side-by-side et entrez un prompt.
La grande question des images générées
La société a également évalué les performances de Grok-2 sur des critères de performance LLM populaires, notamment les critères Massive Multitask Language Understanding (MMLU) et MATH. Les résultats ont été meilleurs que ceux de son prédécesseur, Grok 1.5, et compétitifs par rapport aux modèles leaders de l’industrie, notamment GPT-4o, Claude 3 Opus, Llama 3, etc.
xAI
Au-delà de ses performances textuelles, Grok 2 permet aux utilisateurs de générer des images de haute qualité grâce à une collaboration avec le modèle de génération d’images FLUX.1 de Black Forest Labs.
Et c’est là que Grok 2 devient fort étonnant.
Les images rendues sont de haute qualité et réalistes
Bien que de nombreux générateurs d’images sur le marché soient soumis à des restrictions strictes concernant la création d’images impliquant des personnalités publiques telles que des célébrités et des hommes politiques, ce n’est pas le cas de Grok-2.
De nombreux bêta-testeurs se sont déjà déchaînés sur la plateforme, générant des images d’hommes politiques dans des situations provocantes. Voici l’une des générations les moins provocantes.
Les images rendues sont de haute qualité et réalistes. Pourtant il ne semble pas y avoir de mention sur la plateforme qui indique clairement qu’une image a été générée. Une pratique là aussi utilisée par de nombreuses plateformes de médias sociaux.
Grok-2 et Grok-2 mini sont déployés en version bêta
Grok-2 et Grok-2 mini sont déployés en version bêta sur X pour les utilisateurs de X Premium et Premium+. Ces formules Premium X coûtent respectivement 8 et 16 dollars par mois et incluent d’autres avantages tels que :
- Une coche bleue
- Des publicités limitées ou inexistantes
- La priorisation des réponses
- La vérification de l’identité
Les deux modèles seront mis à la disposition des développeurs par le biais d’une nouvelle plateforme API dans le courant du mois.
Source : « ZDNet.com »