Les recherches approfondies d’Openai ont plus d’endurance de recherche de faits que vous, mais c’est toujours mal la moitié du temps

 Les recherches approfondies d’Openai ont plus d’endurance de recherche de faits que vous, mais c’est toujours mal la moitié du temps


Openai

La dernière intelligence artificielle générative comprend Agents d’IA qui peut accéder au Web pour trouver des réponses aux questions. Bien que prometteur, la technologie agentique est vraiment un travail en cours.

Dans Un article publié la semaine dernièreLes chercheurs ouverts racontent comment l’entreprise Recherche profonde La technologie, qui a été conçue pour utiliser le Web, fait bien mieux que les autres modèles d’Openai lors de la réponse aux questions Web. Il fait également bien mieux que les humains sur les tâches nécessitant des heures de recherche.

Aussi: Que sont les agents de l’IA? Comment accéder à une équipe d’assistants personnalisés

Mais la recherche profonde trébuche presque la moitié du temps.

Le nouveau test d’Openai suggère que la recherche approfondie peut être plus tenace et excitée dans la poursuite d’une réponse que les chercheurs humains pour certaines tâches, mais il ne parvient toujours pas à une réponse souvent.

Appelé BrowsComp, le test est décrit par les auteurs Jason Wei et l’équipe comme « une référence simple mais difficile pour mesurer la capacité des agents à parcourir le Web ».

La prémisse est que les agents de l’IA – ce qui signifie que les modèles d’IA qui peuvent parcourir « des milliers de pages Web » – pourraient être beaucoup plus ingénieux que les humains, qui ont une mémoire limitée, se font fatiguer sur le Web, et « ne peut s’occuper qu’à une chose à la fois et ne peut pas être parallélisée », ne peut pas diriger leur cerveau pour fonctionner sur des données parallèles de pensée.

« Machine Intelligence, en revanche, a un rappel beaucoup plus étendu et peut fonctionner sans relâche sans se laisser distraire », écrivez Wei et l’équipe.

Aussi: Les recherches approfondies d’Openai peuvent vous faire économiser des heures de travail – et maintenant c’est beaucoup moins cher à accéder

Wei et l’équipe ont construit sur leurs travaux antérieurs de l’année dernière« Simpleq & a », qui teste la capacité des modèles d’IA à répondre aux «questions courtes et à la recherche de faits». Les questions couvraient la télévision et les anecdotes, la science, l’histoire, la musique, les jeux vidéo, la politique et d’autres sujets.

L’ensemble BrowsComp de 1 266 questions est conçu pour aller au-delà de la simple récupération d’informations, racontent les auteurs. Au lieu de cela, ce sont des questions pour lesquelles il est difficile de trouver les réponses – ou, comme ils l’ont dit, « difficile parce qu’ils nécessitent de rechercher un grand espace de réponses potentielles et de les faire correspondre aux contraintes posées dans la question » et « des informations difficiles à trouver et profondément enchevêtrées ».

Par exemple, une paire de réponses aux questions est la suivante:

Identifiez le titre d’une publication de recherche publiée avant juin 2023, qui mentionne les traditions culturelles, les processus scientifiques et les innovations culinaires. Il est co-écrit par trois individus: l’un d’eux était professeur adjoint au Bengale occidental et un autre tient un doctorat.
(Réponse: les principes fondamentaux de la fabrication du pain: la science du pain)

Ils soulignent qu’une telle question est facile à vérifier car la réponse est contenue dans une seule phrase qui est «autonome».

openai-2025-browsecomp-échantillon

Openai

Les questions et réponses ont été développées par des «formateurs» humains, et ils ont été sélectionnés comme étant impossibles à résoudre avec le chatppt d’Openai, avec ou sans capacités de navigation. Les questions étaient également impossibles pour une « première version » de la recherche approfondie.

Montrant à quel point les humains sont faibles pour rechercher le Web, ils ont d’abord testé les humains qui « connaissaient l’ensemble de données » pour répondre aux questions.

OpenAI-2025-humains-give-up-most-of-the-temps-on-qui-resserre

Openai

Les résultats n’étaient pas bons pour les humains. Pour 70% des questions, les humains ont abandonné après deux heures d’effort. Ils n’ont répondu qu’environ 30% des questions, et pour 14% de leurs réponses proposées, les suggestions des humains n’a pas correspondre à la réponse réelle.

Wei et l’équipe ont émis l’hypothèse que les humains ayant des compétences de recherche plus élevées pourraient faire mieux: « Il est possible que bon nombre des problèmes qu’ils aient abandonnés soient résolubles par des professionnels expérimentés (par exemple, des détectives ou des journalistes d’investigation) avec un temps suffisant. »

OpenAI-2025-BrowsEcomp-Accuratic and-Calibration-Error

Openai

Après les humains, ils ont testé une recherche approfondie contre le GPT-4O d’Openai (avec et sans capacités de navigation), le GPT-4.5 et le modèle O1.

Les résultats étaient abyssaux. « GPT-4O et GPT-4.5 ont atteint une précision proche de zéro, soulignant la difficulté de la référence », écrivent-ils. « Sans un raisonnement solide ou une utilisation forte des outils, les modèles ne récupèrent pas les types d’objectifs obscurs et multi-hop BrowsComps. »

O1 s’est mieux comporté, qui « (suggère) que certaines réponses de BrowsComp peuvent être surfacées par l’inférence sur les connaissances internes ».

Aussi: L’IA déchaîne des escroqueries plus avancées. Voici ce qu’il faut rechercher (et comment rester protégé)

Avec un score de 51,5%, la recherche profonde a été « nettement meilleure » et « il est particulièrement efficace pour répondre aux questions de niche et non intuitives qui nécessitent de parcourir de nombreux sites Web », WEI et l’équipe écrivent.

Cependant, ils ont également constaté que le GPT-4O utilisant la navigation et la recherche profonde pouvait se tromper en étant « trop ​​confiant » sur les mauvaises réponses, qui est connue sous le nom d’erreur d’étalonnage.

« Les modèles avec des capacités de navigation tels que le GPT-4O avec navigation et recherche profonde présentent une erreur d’étalonnage plus élevée », ils écrivent,, ce qui suggère que l’accès aux outils Web peut augmenter la confiance du modèle dans des réponses incorrectes. Cela s’aligne sur les observations que la recherche profonde se débat avec l’étalonnage de confiance et ne parvient souvent pas à transmettre une incertitude à l’heure actuelle.  »

Pour corriger l’erreur d’étalonnage, ils ont fait un autre test avec des recherches approfondies, dans lesquelles le modèle devait produire jusqu’à 64 réponses à chaque question. Ensuite, ils ont fait choisir le meilleur d’entre eux. Quand cela l’a fait, la recherche approfondie était assez bonne pour choisir la bonne réponse parmi toutes les propositions.

OpenAI-2025-Best-of-N-Scaling-Reguratic

Openai

Cela, écrivez Wei et Team, suggère que « le modèle » sait « quand c’est juste, même s’il a du mal à exprimer cette certitude comme une probabilité calibrée ».

Aussi: La dernière puce de Google consiste à réduire un énorme coût caché dans l’IA

Ils notent également que le succès de la recherche approfondie s’améliore avec plus de calcul ajouté lorsqu’il recherche le Web. En termes différemment, « les performances évoluent en douceur en fonction de la quantité de calcul de temps de test utilisé ». Que les carrés avec une tendance croissante de Jeter plus de puces GPU à la tâche de l’inférence.

OpenAI-2025-BrowsComp-Test-Time-Accuratic-échec

Openai

Wei et l’équipe n’offrent directement aucune hypothèse sur les raisons pour lesquelles la recherche profonde échoue presque la moitié du temps, mais la réponse implicite est dans la mise à l’échelle de sa capacité avec plus de calcul. Alors qu’ils exécutent des tâches plus parallèles et demandent au modèle d’évaluer plusieurs réponses, la précision évolue au-delà de 75% des questions répondues.

L’implication est qu’il est essentiel de choisir des stratégies qui obligent le modèle à évaluer Ses propres efforts plutôt que de simplement poursuivre une seule réponse. Sans cette étape d’évaluation, le modèle lutte beaucoup par temps.

Aussi: Avec les modèles d’IA qui obtiennent chaque référence, il est temps pour l’évaluation humaine

Un grand trou dans BrowsComp, reconnaît les auteurs, est qu’il est limité à des questions faciles à analyser l’ordinateur et dont les réponses sont faciles à vérifier. Aucune des 1 266 questions ne comprenait « des réponses longues ou une capacité à résoudre l’ambiguïté dans les requêtes utilisateur ».

En conséquence, BrowsComp, soutiennent-ils, teste les fonctions « Core » des agents d’IA mais n’est pas complet. « Le modèle doit être très compétent pour localiser des informations difficiles à trouver, mais il n’est pas garanti que cela se généralise à toutes les tâches qui nécessitent une navigation. »

Des recherches approfondies sont disponibles pour les utilisateurs d’Openai Abonnements plus et pro.

Vous voulez plus d’histoires sur l’IA? Inscrivez-vous à l’innovationnotre newsletter hebdomadaire.





Source link

Related post