Pourquoi les nouveaux outils d’OpenAI pour faire des d’agent d’IA …

Si vous êtes développeur depuis un certain temps, vous savez que les interfaces de programmation d’applications (API) sont susceptibles d’être modifiées selon le bon vouloir du fournisseur.

Il se peut que vous vous couchiez un soir en pensant votre application solide. Puis vous vous réveillez le matin pour découvrir que l’un de vos fournisseurs d’API a annoncé un changement qui vous obligera à passer les six prochains mois à recoder votre application pour qu’elle fonctionne avec la nouvelle API.

Et les applications basées sur l’IA ne sont pas à l’abri de cette loi. OpenAI a ainsi annoncé l’introduction de API Responses, qui entraînera la fin de l’API Assistants en 2026. Comme la plupart des changements d’API, la nouvelle API en fait plus et fonctionne mieux. Cependant, malgré ces capacités, la nouvelle API demande un peu de travail pour les utilisateurs des API précédentes.

Pourquoi les éditeurs utilisent des API ?

OpenAI a annoncé de nouvelles fonctionnalités pour les programmeurs qui créent des agents d’IA, y compris au niveau de l’API. Mais avant de nous pencher sur les nouveautés, replaçons ce changement dans son contexte.

Vous avez probablement remarqué que depuis que l’IA générative (Gen AI) a fait irruption sur la scène de la technologie, presque tous les produits et services informatique semblent avoir soudainement ajouté une fonctionnalité d’IA à leurs offres. Mais ces fournisseur n’ont pas tous, loin de là, des équipes de recherche en IA qui construisent des LLM.

Au lieu de cela, ces entreprises utilisent des API sous licence qui fournissent des services d’IA moyennant des frais relativement prévisibles par transaction. Les coûts varient selon les modèles. Mais selon une estimation approximative, un développeur peut effectuer 67 requêtes de chat GPT-4.5, 1 176 requêtes GPT-4o ou 20 000 mini requêtes GPT-4o pour un euro.

Grâce aux API d’OpenAI (et aux API d’autres sociétés d’IA), les fonctionnalités d’IA peuvent être ajoutées au code avec de simples appels de fonction et une carte de crédit. De quoi écourter des années de développement et économiser des millions d’euros de coûts d’infrastructure et de recherche.

La nouvelle API Responses

Jusqu’à présent, OpenAI proposait une API, l’API Chat Completions, pour envoyer des requêtes de chat à ChatGPT et obtenir une réponse. OpenAI proposait également une API, l’API Assistants, qui permet aux agents d’effectuer des raisonnements en plusieurs étapes et d’accéder à des fichiers.

La nouvelle API Responses combine les caractéristiques de ces deux API. Si l’API Chat Completions devrait être conservée, l’entreprise a annoncé son intention de supprimer l’API Assistants dès l’année prochaine au profit de l’API Responses, plus performante.

Les tarifs pour l’utilisation de l’API Responses se trouvent sur la page de tarification d’OpenAI et varient en fonction du modèle et de l’utilisation.

L’API Responses comporte trois outils que les programmeurs peuvent appeler :

La recherche sur le web
La recherche de fichiers
L’utilisation de l’ordinateur

L’outil de recherche Web

Si vous avez déjà utilisé ChatGPT pour effectuer une recherche sur le Web et agréger une réponse, vous savez ce que fait l’outil de recherche Web. Dans le cas de l’API Réponses, elle permet aux programmeurs de lancer de telles requêtes à partir de leurs programmes.

Lorsqu’elle est utilisée, l’API fournit un texte en guise de réponse, ainsi que des liens vers des sources et des citations en ligne. OpenAI dit que les tests de recherche sur le web avec GPT-4o ne sont correct qu’à 38 % (gardez cela à l’esprit la prochaine fois que vous utiliserez ChatGPT pour faire une recherche).

Mais que les recherches utilisant l’aperçu de recherche GPT-4o et le mini aperçu de recherche GPT-4o sont corrects neuf fois sur dix.

L’outil de recherche de fichiers

Vient ensuite l’outil de recherche de fichiers. Il permet d’effectuer des recherches dans une bibliothèque de vos documents d’entreprise. OpenAI affirme ne pas entraîner ses IA sur ces données d’entreprise. Vous pouvez donc être certain que le téléchargement de toutes vos données sera sécurisé et n’apparaîtra pas dans la réponse de quelqu’un d’autre à un prompt.

Il y a cependant des problèmes. Tout d’abord, à 0,10 $ par giga, par mois, le stockage de fichiers n’est pas bon marché. La base de données des documents d’entreprise de ma petite société pèse 57 To. Si cette base de données était téléchargée vers OpenAI pour une recherche d’IA contextuelle, le stockage coûterait… près de 6 000 dollars par mois.

L’avantage d’un outil de recherche en IA est qu’il permet de briser les silos. Mais si les silos sont ce qui rend le stockage des données plus abordable en ne téléchargeant que des données sélectionnées, cette tarification pourrait limiter l’utilité de cette fonctionnalité.

Outil d’utilisation de l’ordinateur

Enfin, OpenAI inclut son outil d’utilisation de l’ordinateur, l’outil de visualisation d’écran et de clic au cœur de son offre d’agent Operateur.

Cet outil est censé être capable de lire des écrans et, en fonction de leur contenu, d’effectuer des traitements ou de cliquer pour déclencher des actions.

D’après les démonstrations, en particulier dans l’aperçu de la présente annonce, il semble que l’outil ait encore un long chemin à parcourir avant d’être utile.

Agents SDK

Une API est un ensemble de points de terminaison ou d’appels de fonction permettant d’interagir avec un système externe. Un SDK (kit de développement logiciel) est un ensemble plus large, comprenant souvent des outils logiciels, certaines API, des bibliothèques et des utilitaires, qui fonctionnent tous ensemble.

OpenAI a annoncé Agents SDK, un ensemble d’outils pour construire, déboguer et surveiller les agents en action. Le kit comprend l’API Responses et ajoute l’orchestration de flux de travail, permettant aux codeurs d’effectuer un raisonnement en plusieurs étapes et d’exécuter des tâches.

Le kit permet également aux codeurs de créer des équipes d’agents, chacune chargée de responsabilités spécifiques. Une fonctionnalité de « transfert » permet à un agent d’effectuer un certain travail, puis de transférer le traitement à un autre agent, et ainsi de suite.

En outre, et je pense que c’est l’une des fonctionnalités les plus importantes, un tableau de bord permet de voir chaque interaction avec l’IA, d’identifier quels agents ont été utilisés pour quoi, et comment ils ont été chargés. Avec la prévalence des hallucinations de l’IA, il est important de pouvoir suivre ce que font toutes ces tâches indépendantes.

Source link