Google dévoile Gemini 2.5 Flash, son modèle de raisonnement « le …

Quelques semaines seulement après le lancement de Gemini 2.5 Pro, Google passe à son prochain modèle ultra-performant.

L’entreprise vient de publier une version « préliminaire » de Gemini 2.5 Flash dans l’API Gemini, AI Studio et Vertex AI. La date limite de connaissance du modèle est janvier 2025. Il peut accepter des requêtes textuelles, visuelles, vidéo et audio, et dispose d’une fenêtre contextuelle d’un million de jetons.

Google affirme que la nouvelle version perfectionne Flash 2.0 avec un raisonnement amélioré, sans compromettre sa vitesse ni son coût. Les modèles de raisonnement passent plus de temps à « réfléchir » (ou à interpréter une requête) avant de répondre, ce qui produit des résultats plus complets et plus directs, idéalement mieux adaptés aux besoins de l’utilisateur, par rapport aux modèles précédents privilégiant la vitesse.

Un « budget de réflexion »

« Gemini 2.5 Flash est très performant sur les requêtes difficiles dans ChatBot Arena, juste derrière 2.5 Pro », note Google.

Qualifiant ce nouveau modèle de plus rentable, le géant californien souligne que Flash 2.5 « permet aux développeurs de configurer la quantité de réflexion nécessaire pour optimiser les performances ». Cela leur donne un « budget de réflexion », c’est-à-dire la possibilité de ne payer pour le raisonnement que lorsqu’ils en ont le plus besoin. Avec le raisonnement activé, le prix de sortie passe de 60 cents par million de jetons à 3,50 $.

Si les développeurs n’attribuent pas de budget au modèle, celui-ci détermine lui-même les besoins de raisonnement de la requête en évaluant sa complexité. Par exemple, il identifiera les questions nécessitant un raisonnement minimal, comme « Combien d’États y a-t-il aux États-Unis ?», indépendamment des problèmes mathématiques à plusieurs étapes. Google indique que pour reproduire la latence et le coût de Flash 2.0, les développeurs doivent définir le budget à 0.

Gemini 2.5 Flash a obtenu 12 % au Humanity’s Last Exam (HLE), un nouveau benchmark alternatif aux tests industriels devenus trop faciles à utiliser pour les modèles en constante évolution. Ce score a surpassé celui des modèles concurrents, notamment Claude 3.7 Sonnet et DeepSeek R1, mais pas celui d’o4-mini, récemment lancé par OpenAI, qui a obtenu 14 % au test.

Vous pouvez tester Gemini 2.5 Flash en avant-première via l’API Gemini dans Google AI Studio et Vertex AI.

Source link

Un « budget de réflexion »

Laisser un commentaire Annuler la réponse