La nouvelle IA chaude d’Openai a un problème embarrassant

 La nouvelle IA chaude d’Openai a un problème embarrassant


Comment n’avons-nous pas encore résolu cela ?!

Bucker la tendance

Openai lancé Ses derniers modèles de raisonnement en IA, surnommé O3 et O4-MinI, la semaine dernière.

Selon la société dirigée par Sam Altman, les nouveaux modèles surpassent leurs prédécesseurs et « excellent à résoudre les mathématiques, le codage et les défis scientifiques complexes tout en démontrant une forte perception visuelle et analyse ».

Mais il y a un domaine extrêmement important où O3 et O4-Mini semblent plutôt faire un pas en arrière majeur: ils ont tendance à inventer les choses – ou « hallucine » – substantiellement plus que ces versions antérieures, comme TechCrunch rapports.

La nouvelle met à nouveau en évidence un problème technique lancinant qui a tourmenté l’industrie depuis des années maintenant. Les entreprises technologiques ont eu du mal à freiner les hallucinations rampantes, qui ont grandement saper l’utilité d’outils comme Chatgpt.

Inquiétant, les deux nouveaux modèles d’Openai renforcent également une tendance historique, qui a vu chaque nouveau modèle halluciner progressivement moins que le précédent, comme TechCrunch souligne, suggérant que Openai se dirige maintenant dans la mauvaise direction.

Se diriger dans les nuages

Selon les propres tests internes d’Openai, O3 et O4-MinI ont tendance à halluciner plus que les modèles plus anciens, y compris l’O1, l’O1-Mini et même l’O3-MinI, qui a été publié fin janvier.

Pire encore, l’entreprise ne semble pas bien comprendre pourquoi. Selon son rapport technique« Plus de recherches sont nécessaires pour comprendre la cause » des hallucinations rampantes.

Son modèle O3 a marqué un taux d’hallucination de 33% sur la référence de précision interne de l’entreprise, surnommée PersonQA. C’est à peu près le double du taux par rapport aux modèles de raisonnement précédents de l’entreprise.

Son O4-MinI a marqué un taux d’hallucination abyssal de 48%, dont une partie pourrait être due à ce que ce soit un modèle plus petit qui a « moins de connaissances mondiales » et a donc tendance à « halluminer davantage », selon Openai.

La société de recherche sur l’IA à but non lucratif transforme également Trouvé dans ses propres tests Cet O3 avait une forte tendance à halluciner, en particulier lors de la génération de code informatique.

La mesure dans laquelle il a tenté de couvrir pour ses propres lacunes est déroutant.

« Il justifie en outre les sorties hallucinées lorsqu’elles sont interrogées par l’utilisateur, affirmant même qu’il utilise un MacBook Pro externe pour effectuer des calculs et copie les sorties dans Chatgpt », a écrit TransLuis dans son article de blog.

Les experts ont même dit TechCrunch Le modèle O3 d’OpenAI hallumine les liens de site Web cassé qui ne fonctionnent tout simplement pas lorsque l’utilisateur essaie de cliquer sur eux.

Sans surprise, Openai est bien conscient de ces lacunes.

« La lutte contre les hallucinations sur tous nos modèles est un domaine de recherche en cours, et nous travaillons continuellement pour améliorer leur précision et leur fiabilité », a déclaré le porte-parole d’Openai, Niko Felix TechCrunch.

Plus sur Openai: Openai construit secrètement un réseau social



Source link

Related post