comment le nouvel agent de ChatGPT peut chercher …

Qu’y a-t-il de mieux qu’un chatbot d’IA pour vous aider à accomplir des tâches ?

Et bien un chatbot qui peut les accomplir à votre place.

C’est à ce jour la philosophie d’OpenAI, qui continue de développer ses agents d’IA avec le lancement de Deep Research.

Deep Research en action

Dimanche, OpenAI a dévoilé Deep Research, un agent d’IA qui peut effectuer des recherches en plusieurs étapes pour vous en tirant une grande quantité d’informations du web et en synthétisant ces sources pour vous dans un rapport complet.

Une fois sollicité, Deep Research peut travailler de manière totalement indépendante. C’est comme si vous aviez un analyste de recherche à vos ordres.

Aujourd’hui, nous lançons notre nouvel agent capable de travailler pour vous de manière indépendante : Deep Research.
Donnez-lui un ordre et ChatGPT trouvera, analysera &amp ; synthétisera des centaines de sources en ligne pour créer un rapport complet en quelques dizaines de minutes contre plusieurs heures pour un humain. pic.twitter.com/03PPi4cdqi

Powering Deep Research est une version du modèle o3 d’OpenAI optimisée pour la navigation sur le web et l’analyse de données. En s’appuyant sur les capacités de raisonnement avancées d’o3, il peut rechercher et interpréter des quantités massives de contenu provenant du web, y compris des textes et des images. Puis les restituer dans un rapport adapté à vos besoins.

Chaque rapport est généré en cinq à trente minutes

Chaque rapport est généré en cinq à trente minutes, en fonction de la tâche à accomplir. Vous pouvez toutefois travailler sur d’autres tâches pendant ce temps, ce qui optimise la productivité de votre flux de travail. Le rapport terminé est publié dans le chat. Dans les semaines à venir, l’agent inclura également des images, des visualisations de données, etc.

Selon OpenAI, le même travail prendrait des heures à un humain. En outre, l’agent est censé être particulièrement performant pour trouver des informations de niche qui nécessiteraient des recherches multiples de la part des humains.

Selon OpenAI, le public cible de Deep Research est un public qui effectue un travail intensif dans les domaines de la finance, de la science, de la politique et de l’ingénierie. Et ceux qui ont besoin de recherches fiables et approfondies. Chaque rapport comprend des citations claires et un résumé du cheminement de pensée de l’agent afin que les utilisateurs puissent vérifier les informations par eux-mêmes.

La double vérification des réponses d’un chatbot est une bonne pratique

La double vérification des réponses d’un chatbot est une bonne pratique. Pourquoi ? Parce que les chatbots sont susceptibles d’avoir des hallucinations. OpenAI prévient que Deep Research « peut parfois halluciner des faits dans les réponses ou faire des déductions incorrectes, bien qu’à un taux nettement inférieur à celui des modèles ChatGPT existants, selon des évaluations internes ».

OpenAI ajoute également que l’agent peut avoir du mal à distinguer les informations faisant autorité des rumeurs et ne pas transmettre correctement l’incertitude.

Ce qui souligne la nécessité d’un contrôle humain.

Performance comparée

Dans le billet de blog annonçant la fonctionnalité, OpenAI compare les résultats côte à côte de GPT-4o par rapport à Deep Research pour montrer comment le même prompt génère des résultats très différents. Ceux générés par Deep Research sont beaucoup plus robustes et mieux organisés.

Capture d’écran par Sabrina Ortiz/ZDNET

Deep Research surpasse également GPT-4o dans Humanity’s Last Exam, un examen de référence en IA lancé récemment. Ce benchmark teste différents sujets sur des questions de niveau expert. Deep Research a obtenu une précision de 26,6 %, surpassant GPT-4o, Grok-2, Claude 3,5 Sonnet, Gemini Thinking, o1, et même o3-mini-high, qui venait d’obtenir le score le plus élevé quelques jours auparavant, comme l’a souligné Sam Altman, PDG d’OpenAI.

Vendredi dernier, le score le plus élevé pour le « dernier examen de l’humanité » était o3-mini-high, avec 13 %.
aujourd’hui, dimanche, deep research obtient 26,6 %.

OpenAI a également publié les performances de Deep Research sur une série d’autres évaluations, notamment GAIA, un benchmark qui évalue l’IA sur des questions du monde réel.

Comment accéder à Deep Research d’OpenAI

En raison de la puissance de calcul requise pour faire fonctionner la fonction Deep Research, seuls les utilisateurs de ChatGPT Pro peuvent y accéder pour le moment.

L’abonnement de 200 $ par mois comprend l’accès à 100 requêtes d’une version optimisée et d’autres avantages tels que l’accès illimité à ChatGPT et Sora et l’accès à Operator, sa fonction d’agent d’intelligence artificielle qui peut effectuer des tâches dans le navigateur (comme les réservations).

Les utilisateurs de ChatGPT Plus et Team seront les premiers à bénéficier de l’accès, suivis par les utilisateurs Enterprise et les utilisateurs gratuits. OpenAI précise qu’elle prévoit de lancer une version plus rapide et plus rentable de la fonction, alimentée par un modèle plus petit mais tout aussi efficace.

Une foule de concurrents chez Google et Microsoft

Si vous souhaitez accéder à cette fonctionnalité dès maintenant mais que vous ne voulez pas débourser 200 dollars par mois, Google propose une fonctionnalité similaire, également appelée Deep Research (sic !), qui est disponible pour tous les utilisateurs de Gemini Advanced via l’abonnement Google One AI Premium qui coûte 20 dollars par mois.

En décembre dernier, M. Altman a même répondu à un utilisateur X qui lui demandait de « créer une fonction de recherche approfondie comme Gemini, mais en mieux », par un « kk », suggérant que la nouvelle fonction Deep Research est la réponse d’OpenAI à Google.

La semaine dernière, Microsoft a également annoncé une fonction capable d’un raisonnement plus approfondi appelée Think Deeper, qui permet d’exploiter le modèle de raisonnement O1 d’OpenAI pour fournir des réponses de meilleure qualité à des questions complexes.

Cependant, contrairement à Gemini et aux fonctions Deep Research d’OpenAI, cette fonction ne dispose pas de capacités agentiques ni d’accès à l’internet. Le plus grand avantage est que l’expérience est entièrement gratuite.

Source link