Quoi de neuf pour les derniers modèles Claude IA d’Anthropic ?

Depuis sa création en 2021, Anthropic est rapidement devenue l’une des principales entreprises d’IA et un concurrent sérieux d’OpenAI, Google et Microsoft grâce à ses modèles Claude. Forte de cette dynamique, l’entreprise a organisé cette semaine sa première conférence développeurs, « Code with Claude », qui a présenté ses accomplissements et ses perspectives.

(Information : Ziff Davis, la société mère de ZDNET, a intenté une action en justice contre OpenAI en avril 2025, l’accusant d’avoir violé ses droits d’auteur lors de l’entraînement et de l’exploitation de ses systèmes d’IA.)

Anthropic a profité de l’événement pour dévoiler deux modèles très attendus : Claude Opus 4 et Claude Sonnet 4. Tous deux offrent des améliorations par rapport aux modèles précédents, notamment de meilleures performances en matière de codage et de raisonnement. De plus, l’entreprise a lancé de nouvelles fonctionnalités et de nouveaux outils pour ses modèles, qui devraient améliorer l’expérience utilisateur.

Claude Opus 4

La famille Claude Opus a toujours compté parmi les modèles d’IA intelligents les plus avancés de l’entreprise, conçus pour les tâches complexes. Si le Claude Opus 3 était déjà reconnu comme un modèle hautement performant, la nouvelle génération l’a encore renforcé. Anthropic le présente comme son modèle le plus puissant à ce jour et le meilleur modèle de codage au monde. Ce que confirment les résultats du banc SWE.

Selon Anthropic, Opus 4 a été conçu pour offrir des performances soutenues sur des tâches complexes et longues nécessitant des milliers d’étapes, surpassant largement tous les modèles Sonnet. L’un de ses principaux atouts est sa capacité à fonctionner de manière autonome pendant plusieurs heures, ce qui fait de Claude Opus 4 un excellent modèle pour alimenter les agents IA qui effectuent des tâches sans intervention humaine.

Pour ce faire, ils doivent raisonner sur les étapes suivantes, comme choisir l’outil à utiliser ou l’action à entreprendre. Par conséquent, les agents ont besoin d’un modèle capable de raisonner efficacement et de maintenir ce raisonnement dans le temps, comme Claude Opus 4.

Claude Sonnet 4

Claude Sonnet 4 s’appuie sur les fonctionnalités de Claude Sonnet 3.7 avec une maniabilité améliorée, terme qui décrit la capacité d’un modèle à suivre les instructions, le raisonnement et le codage humains. Il remplace désormais Claude Sonnet 3.7 dans le chatbot.

Autres améliorations de Claude

Une nouvelle fonctionnalité disponible en version bêta permet à Opus 4 et Sonnet 4 d’alterner entre réflexion approfondie et utilisation d’outils, offrant ainsi aux utilisateurs une performance globale alliant rapidité et précision. Anthropic a indiqué que Claude peut également appeler plusieurs soit séquentiellement, soit simultanément, pour exécuter la tâche en cours de manière appropriée.

Lorsque les développeurs donnent accès à Claude aux fichiers locaux, celui-ci peut désormais créer et maintenir des « fichiers mémoire » contenant les informations clés, ce qui permet une meilleure connaissance des tâches à long terme, une meilleure cohérence et de meilleures performances pour les tâches des agents, selon Anthropic. Les développeurs bénéficient également de nouvelles fonctionnalités dans l’API Anthropic pour créer des agents plus puissants, notamment l’outil d’exécution de code, le connecteur MCP, l’API Fichiers et la mise en cache des invites, prise en charge jusqu’à une heure.

Une autre amélioration des deux modèles est la réduction de 65 % du « hackage de récompense » (un comportement où le modèle prend des raccourcis pour terminer une tâche) par rapport à Claude Sonnet 3.7, en particulier pour les tâches de codage agentique où ce problème est courant.

Les utilisateurs bénéficieront également d’une meilleure compréhension du processus de réflexion du modèle grâce à une nouvelle fonctionnalité de synthèse. Elle affiche le raisonnement du modèle sous forme d’informations compréhensibles plutôt que sous forme de chaîne de pensée brute lorsque les processus de réflexion sont trop longs.

Anthropic indique que la synthèse ne sera nécessaire que dans environ 5 % des cas, la plupart des processus étant suffisamment courts pour être affichés dans leur intégralité. Comprendre comment le modèle est parvenu à une conclusion permet aux utilisateurs de vérifier son exactitude, d’identifier les éventuelles lacunes du processus et, éventuellement, de comprendre comment ils auraient pu parvenir à la réponse eux-mêmes.

Anthropic a également annoncé des plans pour l’avenir de l’entreprise, notamment en préparant les modèles à des niveaux de sécurité d’IA plus élevés tels que l’ASL-3 et en fournissant des mises à jour de modèles plus fréquentes.

Benchmarks

Comme pour toute sortie de modèle, le lancement d’Opus 4 et de Sonnet 4 s’est accompagné de résultats de benchmarks. Les deux modèles ont démontré des performances exceptionnelles dans les tâches de codage. Sur SWE-bench verified, un benchmark permettant d’évaluer les grands modèles de langage sur des défis logiciels réels nécessitant un raisonnement agentique et une génération de code multi-étapes, Opus 4 et Sonnet 4 ont surpassé plusieurs modèles leaders dans le domaine du codage, notamment OpenAI Codex-1, OpenAI o3, GPT-4.1 et Gemini 2.5 Pro.

Au-delà du codage, Opus 4 et Sonnet 4 ont également obtenu des résultats compétitifs, soit en tête des catégories, soit en s’en rapprochant, dans d’autres tests de référence traditionnellement utilisés, notamment GPQA Diamond, qui teste le raisonnement de niveau universitaire ; AIME 2025, qui teste le niveau de compétition des lycées ; et le MMMLU, qui teste les tâches multilingues.

Disponibilité

Claude Opus 4 et Sonnet 4 sont des modèles hybrides dotés d’un mode de réponse quasi-instantané et d’un mode de raisonnement étendu pour les requêtes nécessitant une analyse plus approfondie. Les offres payantes de Claude, notamment Pro, Max, Team et Enterprise, donnent accès aux deux modèles et à la réflexion étendue. Claude Sonnet 4 est également disponible gratuitement.

Les développeurs peuvent accéder aux deux modèles via l’API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud. Anthropic indique que le prix est cohérent avec les modèles précédents.

Claude Code

Claude Code permet aux développeurs d’utiliser l’assistant de codage de Claude directement là où ils écrivent et gèrent leur code, que ce soit dans le terminal, dans leur IDE ou en arrière-plan avec le SDK Claude Code. Par exemple, de nouvelles extensions bêta pour VS Code et JetBrains permettent aux utilisateurs d’intégrer Claude Code à ces IDE, où les modifications proposées par Claude apparaîtront en ligne.

Anthropic a également annoncé le lancement du SDK Claude Code, qui permet aux usagers de créer leurs propres outils et agents basés sur l’IA, tout en exploitant le même agent principal que Claude Code, garantissant ainsi le même niveau d’assistance. À titre d’exemple, Anthropic a partagé le lancement de Claude Code sur GitHub en version bêta. Les utilisateurs peuvent ainsi faire appel à Claude Code pour les demandes d’extraction (pull requests) et obtenir de l’aide pour corriger les erreurs, répondre aux commentaires des relecteurs, etc.

Source link