Les nouveaux modèles d’IA d’Openai O3 et O4-Mini peuvent maintenant «penser avec des images»

 Les nouveaux modèles d’IA d’Openai O3 et O4-Mini peuvent maintenant «penser avec des images»


Le PDG d’Openai, Sam Altman. Image: Creative Commons

OpenAI a déployé deux nouveaux modèles d’IA, O3 et O4-Mini, qui peuvent littéralement «penser avec des images», marquant un grand pas en avant dans la façon dont les machines comprennent les images. Ces modèles, annoncés dans un communiqué de presse OpenAI, peuvent raisonner sur les images de la même manière qu’ils font du texte – recadrage, zoom et photos rotatives dans le cadre de leur processus de pensée interne.

Au cœur de cette mise à jour se trouve la possibilité de mélanger le raisonnement visuel et verbal.

« Openai O3 et O4-Mini représente une percée importante de la perception visuelle en raisonnant avec des images dans leur chaîne de pensée », a déclaré la société dans son communiqué de presse. Contrairement aux versions passées, ces modèles ne reposent pas sur des systèmes de vision séparés – ils mélangent plutôt des outils d’image et des outils texte pour des réponses plus riches et plus précises.

Comment fonctionne la «réflexion avec les images»?

Les modèles peuvent recadrer, zoomer, tourner ou retourner une image dans le cadre de leur processus de réflexion, tout comme les humains. Ils ne reconnaissent pas seulement ce qu’il y a sur une photo, mais travaillez avec lui pour tirer des conclusions.

L’entreprise note que «Chatgpt L’intelligence visuelle améliorée vous aide à résoudre des problèmes plus difficiles en analysant les images de manière plus approfondie, avec précision et de manière fiable que jamais. »

Cela signifie que si vous téléchargez une photo d’un problème mathématique manuscrit, d’un signe flou ou d’un graphique compliqué, le modèle peut non seulement le comprendre, mais aussi le décomposer étape par étape – peut-être encore mieux qu’avant.

Surpasse les modèles précédents dans des références clés

Ces nouvelles capacités ne sont pas seulement impressionnantes en théorie; OpenAI dit que les deux modèles surpassent leurs prédécesseurs concernant les meilleurs repères académiques et IA.

«Nos modèles ont établi de nouvelles performances de pointe dans les questions-réponses de questions STEM (MMMU, Mathvista), la lecture et le raisonnement des graphiques (Charxiv), les primitives de perception (VLMS sont aveugles) et la recherche visuelle (V *)», a noté la société dans un communiqué. «Sur V *, notre approche de raisonnement visuel atteint une précision de 95,7%, résolvant largement l’indice de référence.»

Mais les modèles ne sont pas parfaits. Openai admet que les modèles peuvent parfois trop réfléchir, conduisant à des manipulations d’images prolongées et inutiles. Il y a aussi des cas où l’IA pourrait mal interpréter ce qu’elle voit, malgré l’utilisation correcte d’outils pour analyser l’image. L’entreprise a également mis en garde contre les problèmes de fiabilité lors de l’essai de la même tâche à plusieurs reprises.

Qui peut utiliser Openai O3 et O4-Mini?

À partir du 16 avril, O3 et O4-MinI sont disponibles pour les utilisateurs de ChatGpt Plus, Pro et Team; Ils remplacent des modèles plus anciens comme O1 et O3-MinI. Les utilisateurs de l’entreprise et de l’éducation auront accès la semaine prochaine, et les utilisateurs gratuits peuvent essayer O4-MinI via une nouvelle fonctionnalité «Think».



Source link

Related post