Les modèles les plus compétents d’Openai hallucinent plus que les précédents

 Les modèles les plus compétents d’Openai hallucinent plus que les précédents


Adrienne Bresnahan / Getty Images

Openai dit ses derniers modèles, O3 et O4-MINIsont les plus puissants à ce jour. Cependant, la recherche montre que les modèles hallucinent également davantage – au moins deux fois plus que les modèles antérieurs.

Aussi: Comment utiliser Chatgpt: un guide du débutant sur le chatbot IA le plus populaire

Dans le carte systèmeun rapport qui accompagne chaque nouveau modèle d’IA, et publié avec la sortie la semaine dernière, OpenAI a rapporté que O4-Mini est moins précis et hallucine plus que les deux O1 et o3. En utilisant PersonQA, un test interne basé sur des informations accessibles au public, la société a trouvé O4-Mini halluciné dans 48% des réponses, soit trois fois le taux d’O1.

Alors que O4-Mini est plus petit, moins cher et plus rapide que O3, et, par conséquent, ne devait pas le surpasser, O3 a toujours halluciné dans 33% des réponses, ou deux fois le taux d’O1. Sur les trois modèles, O3 a obtenu le meilleur de précision.

Aussi: L’O1 d’Openai réside plus que n’importe quel modèle d’IA majeur. Pourquoi cela compte

« L’O3 a tendance à faire plus de réclamations dans l’ensemble, conduisant à des allégations plus précises ainsi qu’aux réclamations plus inexactes / hallucinées », a expliqué le rapport d’Openai. « Des recherches supplémentaires sont nécessaires pour comprendre la cause de ce résultat. »

Les hallucinations, qui se réfèrent aux revendications fabriquées, aux études et même aux URL, ont continué à affligez même les progrès les plus de pointe de l’IA. Il n’y a actuellement aucune solution parfaite pour les prévenir ou les identifier, cependant Openai a essayé certaines approches.

De plus, la vérification des faits est une cible en mouvement, ce qui rend difficile l’intégration et l’échelle. La vérification des faits implique un certain niveau de compétences cognitives humaines qui manquent principalement, comme le bon sens, le discernement et la contextualisation. En conséquence, la mesure dans laquelle un modèle hallucine s’appuie fortement sur la qualité des données de formation (et l’accès à Internet pour les informations actuelles).

La minimisation de fausses informations dans les données de formation peut réduire les chances d’une déclaration fausse en aval. Cependant, cette technique n’empêche pas les hallucinations, car la plupart des choix créatifs d’un chatbot d’IA ne sont toujours pas entièrement compris.

Dans l’ensemble, le risque d’hallucinations a tendance à réduire lentement avec chaque nouvelle version du modèle, ce qui rend les scores d’O3 et O4-Mini quelque peu inattendus. Bien que O3 ait gagné 12 points de pourcentage sur l’O1 de précision, le fait que le modèle hallucine deux fois plus suggère que sa précision ne s’est pas développée proportionnellement à ses capacités.

Aussi: Mes deux applications AI préférées sur Linux – et comment je les utilise pour faire plus

Comme les autres versions récentes, O3 et O4-MinI sont des modèles de raisonnement, ce qui signifie qu’ils externalisent les étapes qu’il prend pour interpréter une invite à un utilisateur à voir. La semaine dernière, le laboratoire de recherche indépendant transforme a publié son évaluationce qui a constaté que l’O3 falsifie souvent des actions qu’il ne peut pas prendre en réponse à une demande, notamment en prétendant exécuter Python dans un environnement de codage, malgré le chatbot n’ayant pas cette capacité.

De plus, le modèle double à la baisse lorsqu’il est attrapé. « (O3) justifie en outre les sorties hallucinées lorsqu’elles sont interrogées par l’utilisateur, affirmant même qu’elle utilise un MacBook Pro externe pour effectuer des calculs et copie les sorties dans Chatgpt », a expliqué le rapport. TransLUSE a constaté que ces fausses affirmations concernant le code d’exécution étaient plus fréquentes dans les modèles de la série O (O1, O3-MINI et O3) que les modèles de série GPT (4.1 et 4o).

Ce résultat est particulièrement déroutant car les modèles de raisonnement prennent plus de temps pour fournir des réponses plus approfondies et de meilleure qualité. Transduire la cofondatrice Sarah Schwettmann dit à TechCrunch Ce « taux d’hallucination de l’O3 peut le rendre moins utile qu’il ne le serait autrement ».

Aussi: Les chatbots déforment les nouvelles – même pour les utilisateurs payants

Le rapport de TransLUSE a déclaré: « Bien que les problèmes de véracité des post-formation soient connus, ils ne tiennent pas pleinement compte de la gravité accrue de l’hallucination dans les modèles de raisonnement. Nous émettons l’hypothèse que ces problèmes pourraient être intensifiés par des choix de conception spécifiques dans les modèles de raisonnement O-Série, tels que les résultats des résultats des résultats et l’omission des chaînes de chiens de la série à partir de virages. »

La semaine dernière, des sources à l’intérieur d’Openai et des testeurs tiers ont confirmé le L’entreprise a radicalement minimisé les tests de sécurité Pour les nouveaux modèles, y compris O3. Bien que la carte système montre que O3 et O4-MINI soient « approximativement à la égalité » avec O1 pour une robustesse contre les tentatives de jailbreak (les trois obtiennent entre 96% et 100%), ces scores d’hallucination soulèvent des questions sur les impacts non liés à la sécurité de la modification des délais de test.

Le fardeau est toujours sur les utilisateurs pour vérifier les résultats de tout modèle d’IA. Cette stratégie semble sage lors de l’utilisation des modèles de raisonnement de dernière génération.





Source link

Related post