Imaginez un modèle d’IA capable de travailler seul avec un ordinateur. Eh bien, n’imaginez plus. Une telle IA est arrivée. Mardi, Anthropic a annoncé que la dernière génération de son modèle d’IA Claude peut utiliser un ordinateur. Oui, comme vous et moi. Baptisée Claude 3.5 Sonnet, l’IA est disponible en mode bêta pour que les développeurs puissent l’utiliser via une API.
Présenté par Anthropic comme le « premier modèle d’IA à proposer l’utilisation d’un ordinateur en version bêta publique », Claude 3.5 Sonnet peut être codé par les développeurs pour fonctionner avec un ordinateur de plusieurs façons.
En utilisant un produit ou un service programmé via l’API, vous pouvez demander à l’IA :
- De « regarder » un écran d’ordinateur
- De déplacer un curseur sur l’écran
- De cliquer sur des boutons
- De taper du texte à l’aide d’un clavier virtuel
L’idée est d’émuler la façon dont vous interagissez avec votre propre ordinateur.
Une IA encore au stade expérimental
Pour l’instant, la nouvelle IA en est au stade expérimental. Donc elle est parfois lente et sujette à des erreurs. Cependant, Anthropic a publié la nouvelle version bêta dans le but précis de recueillir les commentaires des développeurs afin d’améliorer le modèle au fil du temps.
Pourquoi l’utilisation d’un ordinateur par une IA est-elle utile ? Anthropic a anticipé cette question et y a répondu.
« Une grande partie du travail moderne se fait par le biais d’ordinateurs », explique Anthropic. « Permettre à l’IA d’interagir directement avec les logiciels informatiques de la même manière que les humains débloquera une vaste gamme d’applications qui ne sont tout simplement pas possibles pour la génération actuelle d’assistants IA. »
En test dans certaines entreprises
Et comment les développeurs et les utilisateurs peuvent-ils tirer parti d’une IA qui fonctionne avec un ordinateur ?
« Au lieu de créer des outils spécifiques pour aider Claude à accomplir des tâches individuelles, nous lui enseignons des compétences informatiques générales, ce qui lui permet d’utiliser une large gamme d’outils et de logiciels standard conçus pour les humains », explique Anthropic. « Les développeurs peuvent utiliser cette capacité pour automatiser des processus répétitifs, construire et tester des logiciels, et mener des tâches comme la recherche. »
Plusieurs entreprises exploitent déjà les prouesses de Claude 3.5 Sonnet avec les ordinateurs, notamment Asana, Canva, Cognition, DoorDash, Replit et The Browser Company, selon Anthropic. Par exemple, la plateforme de développement et de déploiement de logiciels Replit utilise ces capacités pour évaluer des applications pour son produit Replit Agent.
Un travail avec beaucoup d’essais et d’erreurs
Selon Anthropic, programmer Claude pour qu’il apprenne à travailler avec des ordinateurs, en particulier à regarder l’écran et à effectuer certaines actions en réponse, implique beaucoup d’essais et d’erreurs.
L’utilisation d’un ordinateur nécessite la capacité de voir et d’interpréter des images, comme celles d’un écran d’ordinateur. Elle implique également la capacité de déterminer comment et quand exécuter des opérations spécifiques en fonction de ce qui est affiché à l’écran.
Pour répondre à ces exigences, Claude 3.5 Sonnet examine les captures d’écran qui lui montrent ce que vous regardez. L’IA compte ensuite le nombre de pixels verticaux et horizontaux pour savoir où déplacer le curseur. Cette compétence est essentielle pour permettre à l’IA d’émettre des commandes à l’aide de la souris.
Comment Claude s’en sort-il jusqu’à présent ?
Dans les tests d’évaluation OSWorld, qui évaluent les tentatives d’utilisation des ordinateurs par les modèles d’IA, Claude 3.5 Sonnet a obtenu une note de 14,9 %. Bien que ce résultat soit bien inférieur aux 70-75 % de compétences humaines, il représente presque le double des 7,7 % obtenus par le meilleur modèle d’IA suivant dans la même catégorie, selon Anthropic.
Cette tentative d’utilisation d’un ordinateur par une IA n’en est qu’à ses débuts. Claude ne peut donc pas effectuer des tâches informatiques plus « avancées », comme faire glisser une fenêtre ou zoomer sur l’écran.
De plus, la façon dont Claude travaille avec un ordinateur en visualisant et en assemblant des captures d’écran signifie qu’il peut manquer certaines actions et notifications.
Claude 3.5 Sonnet est désormais accessible à tous. Les développeurs peuvent créer des applications avec la version bêta à usage informatique sur l’API Anthropic, Amazon Bedrock et Vertex AI de Google Cloud.