Deep Research d’OpenAI a bien plus d’endurance que vous pour trou …

Deep Research d'OpenAI a bien plus d'endurance que vous pour trou ...


L’intelligence artificielle générative la plus récente embarque des agents d’intelligence artificielle capables d’accéder au web pour trouver des réponses à des questions. Mais bien que prometteuse, la technologie agentique est encore en cours d’élaboration.

Dans un article publié ces derniers jours, les chercheurs d’OpenAI expliquent comment la technologie Deep Research obtient de bien meilleurs résultats que les autres modèles d’OpenAI lorsqu’il s’agit de répondre à des questions sur le web.

Elle fait également beaucoup mieux que les humains pour les tâches nécessitant des heures de recherche.

Mesurer la capacité des agents d’IA a naviguer sur le web

Mais Deep Research bute encore près de la moitié du temps.

Le nouveau test d’OpenAI suggère que Deep Research peut être plus tenace et obstiné dans la recherche d’une réponse que les chercheurs humains pour certaines tâches. Mais il échoue encore souvent à trouver une réponse.

Baptisé BrowseComp, le test est décrit par les auteurs, Jason Wei et son équipe, comme « une référence simple mais difficile pour mesurer la capacité des agents à naviguer sur le web ».

Les humains ne peuvent pas être parallélisés

L’idée de départ est que les agents d’IA – c’est-à-dire les modèles d’IA capables de parcourir des « milliers de pages web » – pourraient être beaucoup plus ingénieux que les humains, qui ont une mémoire limitée, se fatiguent en surfant sur le web et « ne peuvent s’occuper que d’une chose à la fois et ne peuvent pas être parallélisés ».

« L’intelligence des machines, en revanche, dispose d’une mémoire beaucoup plus étendue et peut fonctionner inlassablement sans se laisser distraire », écrivent Wei et son équipe.

Wei et son équipe se sont appuyés sur leur travail de l’année dernière, « SimpleQ&A », qui teste la capacité des modèles d’IA à répondre à des « questions courtes et factuelles ». Les questions portaient sur la télévision et les films, la science, l’histoire, la musique, les jeux vidéo, la politique et d’autres sujets.

Vers des requêtes très difficiles

L’ensemble de 1 266 questions de BrowseComp est conçu pour aller au-delà de la simple recherche d’informations, expliquent les auteurs. Il s’agit plutôt de questions pour lesquelles il est difficile de trouver des réponses. Ou, comme ils le disent, « difficiles parce qu’elles nécessitent de chercher dans un large espace de réponses potentielles et de les faire correspondre aux contraintes posées dans la question », et « d’informations difficiles à trouver et profondément enchevêtrées sur le web ».

Par exemple, cette paire question-réponse :

Identifiez le titre d’une publication de recherche publiée avant juin 2023, qui mentionne des traditions culturelles, des processus scientifiques et des innovations culinaires. Elle est coécrite par trois personnes : l’une d’entre elles était professeur adjoint au Bengale occidental et l’autre est titulaire d’un doctorat. (Réponse : Les fondements de la fabrication du pain : la science du pain)

Ils soulignent qu’une telle question est facile à vérifier parce que la réponse est contenue dans une seule phrase qui est « autonome ».

OpenAI

Test parallèle avec des humains

Les questions et les réponses ont été élaborées par des « formateurs » humains et ont été sélectionnées parce qu’elles étaient impossibles à résoudre avec ChatGPT d’OpenAI, avec ou sans capacités de navigation.

Les questions étaient également impossibles à résoudre pour une « première version » de Deep Research.

Pour démontrer à quel point les humains sont faibles en matière de recherche sur le Web, ils ont d’abord testé des humains pour répondre aux questions.

openai-2025-humans-give-up-most-of-the-time-on-hard-to-answer-questions

OpenAI

Pour 70 % des questions, les humains ont abandonné après deux heures d’efforts

Les résultats n’ont pas été bons pour les humains. Pour 70 % des questions, les humains ont abandonné après deux heures d’efforts. Ils n’ont répondu qu’à environ 30 % des questions. Et pour 14 % des réponses proposées, les suggestions des humains ne correspondaient pas à la réponse réelle.

Wei et son équipe émettent l’hypothèse que les humains ayant des capacités de recherche plus élevées pourraient faire mieux.

« Il est possible qu’un grand nombre des problèmes auxquels ils ont renoncé puissent être résolus par des professionnels expérimentés (détectives ou journalistes d’investigation, par exemple) disposant de suffisamment de temps ».

openai-2025-browsecomp-accuracy-and-calibration-error

OpenAI

Après les humains, ils ont testé Deep Research contre GPT-4o d’OpenAI (avec et sans capacités de navigation), GPT-4.5 et le modèle o1.

Les résultats ont été catastrophiques. « GPT-4o et GPT-4.5 ont atteint une précision proche de zéro, ce qui souligne la difficulté du test de référence », écrivent-ils. « Sans un raisonnement solide ou l’utilisation d’outils, les modèles ne parviennent pas à retrouver les types de faits obscurs et multi-sauts ciblés par BrowseComp ».

O1 a obtenu de meilleurs résultats, ce qui « suggère que certaines réponses de BrowseComp peuvent être obtenues par inférence sur des connaissances internes ».

Avec un score de 51,5 %, Deep Research était « nettement meilleur »

Avec un score de 51,5 %, Deep Research était « nettement meilleur » et « il est particulièrement efficace pour répondre aux questions de niche, non intuitives, qui nécessitent de parcourir de nombreux sites web », écrivent Wei et son équipe.

Cependant, ils ont également constaté que GPT-4o utilisant la navigation et Deep Research pouvait commettre une erreur en étant « trop confiant » dans les mauvaises réponses. Ce qui est connu sous le nom d’erreur de calibrage.

« Les modèles dotés de capacités de navigation, tels que GPT-4o avec navigation et Deep Research, présentent une erreur de calibrage plus élevée, écrivent-ils, ce qui suggère que l’accès aux outils web peut accroître la confiance du modèle dans les réponses incorrectes. Cela correspond aux observations selon lesquelles Deep Research a du mal à calibrer la confiance et ne parvient souvent pas à transmettre l’incertitude avec précision à l’heure actuelle ».

« Le modèle « sait » fréquemment quand il a raison

Pour corriger l’erreur d’étalonnage, ils ont effectué un autre test avec Deep Research, dans lequel le modèle devait produire jusqu’à 64 réponses pour chaque question. Ils ont ensuite demandé au modèle de choisir la meilleure d’entre elles. Ce faisant, Deep Research s’est avéré assez bon pour choisir la bonne réponse parmi toutes les propositions.

openai-2025-best-of-n-scaling-accuracy

OpenAI

Cela, écrivent Wei et son équipe, suggère que « le modèle « sait » fréquemment quand il a raison, même s’il a du mal à exprimer cette certitude sous la forme d’une probabilité calibrée ».

Ils notent également que le succès de Deep Research s’améliore à mesure qu’on lui ajoute des données informatiques lorsqu’il effectue des recherches sur le web. En d’autres termes, « les performances s’échelonnent en douceur en fonction de la quantité de calcul utilisée pendant le temps de test ». Cela correspond à une tendance croissante à utiliser davantage de puces GPU pour la tâche d’inférence.

openai-2025-browsecomp-test-time-accuracy-scaling

OpenAI

Le biais des réponses faciles

Wei et son équipe ne proposent pas directement d’hypothèse sur la raison pour laquelle Deep Research échoue presque la moitié du temps.

Mais la réponse implicite se trouve dans la mise à l’échelle de sa capacité avec plus de calcul. Lorsqu’ils exécutent davantage de tâches parallèles et demandent au modèle d’évaluer plusieurs réponses, la précision dépasse les 75 % de réponses aux questions.

L’implication est qu’il est essentiel de choisir des stratégies qui forcent le modèle à évaluer ses propres efforts plutôt que de simplement chercher une réponse unique. Sans cette étape d’évaluation, le modèle est souvent en difficulté.

Les auteurs reconnaissent que l’une des grandes lacunes de BrowseComp est qu’il se limite à des questions faciles à analyser par l’ordinateur et dont les réponses sont faciles à vérifier. Aucune des 1 266 questions n’incluait « des réponses longues ou la capacité à résoudre l’ambiguïté des requêtes de l’utilisateur ».

Par conséquent, BrowseComp teste les fonctions « essentielles » des agents d’intelligence artificielle, mais n’est pas complet. « Le modèle doit être très efficace pour localiser des informations difficiles à trouver, mais il n’est pas garanti que cela s’applique à toutes les tâches qui nécessitent de naviguer.

Deep Research est disponible pour les utilisateurs des abonnements Plus et Pro d’OpenAI.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.