Openai vient de sortir GPT-4.5 et dit que c’est son modèle de chat le plus grand et le meilleur à ce jour

 Openai vient de sortir GPT-4.5 et dit que c’est son modèle de chat le plus grand et le meilleur à ce jour


Contrairement à des modèles de raisonnement tels que O1 et O3, qui fonctionnent à travers des réponses étape par étape, la plupart des modèles de langage comme GPT-4.5 crachent la première réponse qu’ils proposent. Mais GPT-4.5 est plus grand public. Testé sur SimpleQA, une sorte de quiz General-Knowledge développé par OpenAI l’année dernière qui comprend des questions sur des sujets de la science et de la technologie aux émissions de télévision et aux jeux vidéo, GPT-4,5 scores de 62,5% par rapport à 38,6% pour GPT-4O et 15% pour O3-MinI.

De plus, Openai affirme que GPT-4.5 répond avec beaucoup moins de réponses inventées (appelées hallucinations). Sur le même test, GPT-4.5 a inventé les réponses 37,1% du temps, contre 59,8% pour GPT-4O et 80,3% pour O3-MINI.

Mais SimpleQa n’est qu’une seule référence. Sur d’autres tests, y compris MMLU, une référence plus courante pour comparer les modèles de gros langues, GPT-4.5 bat les modèles précédents d’Openai par une marge plus petite. Et sur les références standard des sciences et des mathématiques, GPT-4.5 score moins que O3-MinI.

Allumer le charme

Le charme spécial de GPT-4.5 semble être ses compétences conversationnelles. Les testeurs humains employés par Openai disent qu’ils préféraient GPT-4.5 à GPT-4O pour les requêtes quotidiennes, les requêtes professionnelles et les tâches créatives, notamment en provenant de poèmes. (Ryder dit que c’est également génial dans l’art Internet ACSII à l’ancienne.)

Par exemple, dites-le que vous passez par un patch approximatif et que le GPT-4.5 pourrait offrir quelques mots de sympathie avant de dire: « Vous voulez parler de ce qui s’est passé, ou avez-vous juste besoin d’une distraction? Je suis ici de toute façon. » Le GPT-4O est moins bon pour lire les indices sociaux et pourrait essayer de résoudre le problème, que vous le l’aviez demandé ou non, vous frappant avec une liste de points de façons de vous remonter le moral.

Et pourtant, après des années au sommet, Openai fait face à une foule difficile. «L’accent mis sur l’intelligence émotionnelle et la créativité est cool pour les cas d’utilisation de niche comme l’écriture de coachs et les copains de brainstorming», explique Waseem Alshikh, cofondateur et CTO de l’écrivain, une startup qui développe des modèles de langues importants pour les clients d’entreprise.

« Mais GPT-4.5 ressemble à une nouvelle couche de peinture brillante sur la même vieille voiture », dit-il. « Lancer plus de calcul et de données sur un modèle peut le rendre plus fluide, mais ce n’est pas un changement de jeu. »

« Le jus ne vaut pas la pression lorsque vous considérez les coûts énergétiques et le fait que la plupart des utilisateurs ne remarqueront pas la différence dans l’utilisation quotidienne », dit-il. «Je préfère les voir pivoter à l’efficacité ou à la résolution de problèmes de niche que de continuer à superser la même recette.»



Source link

Related post

Leave a Reply

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *