Fin décembre, OpenAI annonçait ses derniers modèles, o3 et o3-mini, qui excellent dans le raisonnement et surpassent même o1 sur certains tests, y compris les mathématiques et les sciences.
Lors du lancement, le PDG d’OpenAI, Sam Altman, a déclaré que o3 devait sortir à la fin du mois de janvier.
L’entreprise a tenu sa promesse.
o3-mini
Vendredi, OpenAI a publié son modèle o3-mini, le modèle le plus économique de la série de raisonnement d’OpenAI. Jusqu’à présent, cette série était composée de o1 et o1-mini. Comme son prédécesseur, le modèle est particulièrement performant en sciences, en mathématiques et en codage, selon l’entreprise.
OpenAI o3-mini est désormais disponible dans ChatGPT et dans l’API.
Les utilisateurs Pro auront un accès illimité à o3-mini et Plus & les utilisateurs Team auront des limites de taux triplées (par rapport à o1-mini).
Les utilisateurs gratuits peuvent essayer o3-mini dans ChatGPT en sélectionnant le bouton Raison sous le compositeur de message.
Lorsque o3-mini est sélectionné, il utilise un effort de raisonnement moyen, ce qui permet d’équilibrer la vitesse et la précision. Bien que le modèle original o1 dispose toujours de connaissances générales plus étendues que o3-mini, le principal avantage du nouveau modèle est sa vitesse et ses performances supérieures à celles de o1-mini.
Performances de référence
En comparant les performances de o3-mini à celles de o1-mini, les testeurs ont constaté que o3-mini fournissait des réponses plus précises, plus raisonnées et plus claires que o1-mini. Ils ont préféré les réponses o3-mini dans 56 % des cas et ont observé une réduction de 39 % des erreurs majeures.
Au-delà des évaluations des préférences humaines, dans plusieurs benchmarks STEM, y compris la compétition Math (AIME 2024), les questions scientifiques de niveau doctoral (GPQA Diamond) et la compétition Code (Codeforces), o3-mini avec un raisonnement moyen – qui est ce que les utilisateurs de ChatGPT obtiendront par défaut – a surpassé o1-mini.
OpenAI
Il est également intéressant de noter que o3-mini, avec un effort de raisonnement élevé dans les benchmarks, s’est rapproché des performances de o1, et les a même parfois dépassées, comme on peut le voir dans les benchmarks AIME 2024 above and Software Engineering (SWE-bench Verified). Le modèle o3-mini avec un effort de raisonnement moyen a égalé les performances de o1 dans le benchmark Codeforces.
Sécurité
OpenAI a évalué la sécurité de o3-mini lors de sa diffusion publique par le biais d’un jailbreak et d’évaluations de contenu interdites.
L’entreprise a constaté que le modèle surpassait largement le GPT-4o dans les évaluations.
OpenAI a publié les résultats de l’évaluation ci-dessous et a également lancé une carte du système o3-mini, un PDF de 37 pages qui comprend les résultats détaillés des évaluations.
Comment accéder à o3-mini
Tous les abonnés aux niveaux payants d’OpenAI, y compris ChatGPT Plus, Team et Pro, peuvent accéder à OpenAI o3-mini. Les utilisateurs des niveaux Plus et Team disposent désormais d’une limite de débit trois fois supérieure, passant de 50 messages par jour avec o1-mini à 150 messages par jour. L’accès à ChatGPT Enterprise sera disponible dans une semaine.
Le modèle o3-mini remplacera o1-mini dans le sélecteur de modèle, car il sera utile pour les mêmes tâches, sauf que l’expérience sera maintenant améliorée avec une latence plus faible et des limites de débit plus élevées. En tant qu’utilisateur payant, au moment où j’écris ces lignes, je n’ai pas encore eu accès au modèle o3-mini, et je vois toujours l’option o1-mini.
Si vous n’avez pas d’abonnement, pas de problème : Vous pouvez voir si o3-mini vaut le coup depuis votre compte gratuit. Tout ce que les utilisateurs gratuits de ChatGPT ont à faire est de cliquer sur « Raison » dans la zone de texte du message ou de régénérer une réponse. Le PDG d’OpenAI, Sam Altman, a confirmé l’accès gratuit dans un post sur X. Jusqu’à présent, tous les modèles de raisonnement étaient protégés par un paywall. OpenAI n’a pas précisé les limites du nouveau modèle pour les utilisateurs gratuits.