J’ai testé les compétences de codage de GPT-5, et c’était tellement mauvais que je m’en tiens à GPT-4O (pour l’instant)

Intelligence Artificielle
Noesis News
août 11, 2025
0
39
21 minutes de lecture

Images Vaselena / Getty

Les principaux plats de ZDNET

Le nouveau produit phare du GPT-5 d’Openai a échoué la moitié de mes tests de programmation.
Les sorties OpenAI précédentes ont eu à peu près des résultats parfaits.
Maintenant qu’OpenAI a activé les secours à d’autres LLM, il existe des options.

Donc Gpt-5 est arrivé. C’est sorti. Il est libéré. C’est le discours de la ville virtuelle. Et ça a des problèmes. Je ne vais pas enterrer la lede. GPT-5 a échoué la moitié de Mes tests de programmation. C’est le pire que LLM phare d’Openai ait jamais fait sur mes tests soigneusement conçus.

Aussi: La meilleure IA pour le codage en 2025 (et quoi ne pas utiliser)

Avant d’entrer dans les détails, prenons un moment pour discuter d’une autre petite fonctionnalité qui est également un peu bancale. Consultez le nouveau bouton Modifier en haut des vidages de code qu’il génère.

édition — Capture d’écran de David Gewirtz / ZDNET

Cliquer sur le bouton Modifier vous emmène dans un joli petit éditeur de code. Ici, j’ai remplacé le champ de l’auteur, juste dans les résultats de Chatgpt.

Cela semblait bien, mais cela s’est finalement avéré futile. Lorsque j’ai fermé l’éditeur, cela m’a demandé si je voulais économiser. Je l’ai fait. Ensuite, ce message inutile est apparu.

sauvage — Capture d’écran de David Gewirtz / ZDNET

Je ne suis jamais revenu à ma session originale. J’ai dû soumettre à nouveau mon invite d’origine et laisser GPT-5 faire son travail une deuxième fois.

Mais attendez. Il y a plus. Faisons des résultats de mes tests…

1. Écriture d’un plugin WordPress

C’était Mon tout premier test de coder les prouesses pour toute IA. C’est ce qui m’a donné que le premier « le monde est sur le point de changer », et cela a été fait en utilisant GPT-3.5.

Les tests ultérieurs, en utilisant la même invite mais avec différents modèles d’IA, ont généré des résultats mitigés. Certaines AIS ont fait très bien, d’autres non. Certaines IA, comme celles de Microsoft et Google, se sont améliorées au fil du temps.

Aussi: Comment je teste la capacité de codage d’un chatbot AI – et vous pouvez aussi

Le modèle de Chatgpt est l’étalon-or de ce test depuis le tout début. Cela rend les résultats de GPT-5 encore plus curieux.

Donc, regardez, le codage réel avec GPT-5 a été partiellement réussi. GPT-5 a généré un seul bloc de code, que j’ai collé dans un fichier et j’ai pu exécuter. Il a fourni l’interface utilisateur requise.

Lorsque j’ai collé dans les noms de test, il a mis à jour dynamiquement le nombre de lignes, bien qu’il le décrit comme « ligne pour randomiser » au lieu de « lignes pour randomiser ».

plugin — Capture d’écran de David Gewirtz / ZDNET

Mais ensuite, lorsque j’ai cliqué sur randomiser, ce n’est pas le cas. Au lieu de cela, cela m’a redirigé vers les outils.php. Quoi?? Chatgpt n’a jamais eu de problème avec ce test, que ce soit GPT-3.5, GPT-4 ou GPT-4O. Vous voulez me dire que le GPT-5 très attendu d’Openai échoue tout de suite? Aie.

J’ai ensuite donné à GPT-5 cette invite.

Lorsque je clique sur randomiser, je suis emmené sur http: //testsite.local/wp-admin/tools.php. Je n’obtiens pas de liste de résultats randomisés. Pouvez-vous réparer?

Le résultat a été une ligne de patch. Je ne suis pas ravi de cette approche car elle oblige l’utilisateur à creuser le code et à ne faire aucune erreur en remplacement d’une ligne.

correctif — Capture d’écran de David Gewirtz / ZDNET

J’ai donc demandé à GPT-5 un plugin complet. Cela m’a donné le texte intégral du plugin pour copier et coller. Cette fois, cela a fonctionné.

plugin2 — Capture d’écran de David Gewirtz / ZDNET

Cette fois, il a randomisé les lignes. Lorsqu’il a rencontré des doublons, il les a séparés les uns des autres, comme il a été instruit. Enfin.

Aussi: J’ai trouvé 5 détecteurs de contenu AI qui peuvent identifier correctement le texte d’IA 100% du temps

Je suis désolé, Openai. Je dois vous échouer sur ce test. Vous auriez passé si la seule erreur n’utilisait pas le pluriel de « ligne » le cas échéant. Mais le fait que cela m’a rendu un plugin sans emprise sur le premier essai est l’échec du territoire, même si l’IA a finalement fait fonctionner le deuxième essai.

Peu importe comment vous le faites tourner, c’est un pas en arrière.

2. Réécriture d’une fonction de chaîne

Ce deuxième test est conçu pour réécrire une fonction de chaîne pour mieux vérifier les dollars et les cents. Le code d’origine que GPT-5 a été invité à réécrire ne permettait pas les cents (il n’a vérifié que les entiers).

test2 — Capture d’écran de David Gewirtz / ZDNET

GPT-5 a bien fait ce test. Il a renvoyé un résultat minimal car il n’a fait aucune vérification d’erreur. Il n’a pas vérifié les entrées non corrigées, les espaces supplémentaires, les milliers de séparateurs ou les symboles de devise.

Mais ce n’est pas ce que j’ai demandé. Je lui ai dit de réécrire une fonction, qui n’a elle-même aucune vérification d’erreur. GPT-5 a fait exactement ce que j’ai demandé sans aucune embellissement. Je suis un peu heureux de cela car il ne sait pas si le code avant cette routine a déjà fait ce travail.

GPT-5 a réussi ce test.

3. Trouver un bug ennuyeux

Ce test est survenu parce que je me débattais avec un bug moins que censément dans mon code. Sans entrer dans les mauvaises herbes sur le fonctionnement du cadre WordPress, la réponse évidente n’est pas la bonne réponse.

Vous avez besoin de connaissances assez arcanes sur la façon dont les filtres WordPress transmettent leurs informations. Ce test a été une pierre d’achoppement depuis plus de quelques LLM AI.

Aussi: Selon le rapport de la désillusion de la génération AI, selon le rapport de cycle de battage médiatique de Gartner en 2025

Le GPT-5, cependant, comme GPT-4 et GPT-4O avant lui, a compris le problème. Il a articulé une solution claire.

GPT-5 a réussi ce test.

4. Écrire un script

Ce test demande à l’IA d’incorporer un outil de script MAC assez obscur appelé Clavier Maestroainsi que le langage de script d’Apple Applecript et le comportement de script chromé.

C’est vraiment un test de la portée de l’IA en termes de connaissances, de sa compréhension de la façon dont les pages Web sont construites et de la capacité d’écrire du code dans trois environnements interconnectés.

Un bon nombre d’IA ont échoué à ce test, mais le point de défaillance est généralement un manque de connaissances sur le clavier Maestro. GPT-3.5 ne connaissait pas le clavier Maestro. Mais Chatgpt réussit ce test depuis GPT-4. Jusqu’à maintenant.

Où devons-nous commencer? Eh bien, la bonne nouvelle est que GPT-5 a très bien géré la partie maestro du clavier du problème. Mais cela a si mal au codage qu’il a même doublé son manque de compréhension du fonctionnement de l’affaire dans Applescript.

GPT5-Applecript — Capture d’écran de David Gewirtz / ZDNET

Il a en fait inventé une propriété. C’est l’un de ces cas où une IA présente en toute confiance une réponse qui est complètement erronée.

Aussi: Chatgpt est livré avec des préréglages de personnalité maintenant – et d’autres mises à niveau que vous avez peut-être manquées

Applescript est insensible natif. Si vous voulez que AppleScript fasse attention à Case, vous devez utiliser un bloc « Considération de cas ». Donc, c’est arrivé.

minuscule — Capture d’écran de David Gewirtz / ZDNET

La raison pour laquelle le message d’erreur a fait référence au titre de l’un de mes articles est parce que c’était la fenêtre avant de Chrome. Cette fonction vérifie la fenêtre avant et fait des trucs en fonction du titre.

fin de recherche — Capture d’écran de David Gewirtz / ZDNET

Mais les malentendus comment Case fonctionne n’était pas la seule erreur Applescript GPT-5 générée. Il a également fait référence à une variable nommée SearchTerm sans la définir. C’est à peu près une pratique créant des erreurs dans n’importe quel langage de programmation.

Échec, échouer, échouer, McFailDypants.

Internet a parlé

Openai semblait souffrir du même orgueil que son AIS. Il a en toute confiance déplacé tout le monde vers GPT-5 et a brûlé les ponts vers GPT-4O. Je paie 200 $ par mois pour un Chatppt pro compte. Vendredi, je n’ai pas pu retourner à GPT-4O pour le codage des travaux. Personne d’autre ne pourrait non plus.

Il y avait cependant un tout petit coup de recul des utilisateurs sur l’ensemble des ponts brûlants. Et par minuscule, je veux dire Toute Frickin ‘Internet. Ainsi, samedi, Chatgpt avait une nouvelle option.

revenir — Capture d’écran de David Gewirtz / ZDNET

Pour y arriver, accédez à vos paramètres de chatppt et activez « Show Legacy Models ». Ensuite, comme cela l’a toujours été, il suffit de déposer le menu du modèle et de choisir celui que vous voulez. Remarque: Cette option n’est disponible que pour les niveaux payants. Si vous utilisez gratuitement Chatgpt, vous prenez ce qui vous donne et vous l’adoreras.

Depuis que l’ensemble de l’IA génératrice a débuté au début de 2023, Chatgpt a été l’étalon-or des outils de programmation, du moins selon mes tests LLM.

Aussi: Microsoft déploie GPT-5 dans sa suite Copilot – voici où vous le trouverez

Maintenant? Je ne suis vraiment pas sûr. Ce n’est qu’un jour environ après la sortie de GPT-5, donc ses résultats s’amélioreront probablement au fil du temps. Mais pour l’instant, je m’en tiens à GPT-4O pour le codage, bien que j’aime les capacités de raisonnement profonde dans GPT-5.

Et toi? Avez-vous déjà essayé GPT-5 pour les tâches de programmation? Cela a-t-il fonctionné mieux ou pire que les versions précédentes comme GPT-4O ou GPT-3.5? Avez-vous pu obtenir du code de travail sur le premier essai, ou GPT-4O avez-vous dû le guider à travers des correctifs? Allez-vous utiliser GPT-5 pour coder ou rester avec des modèles plus anciens? Faites-nous savoir dans les commentaires ci-dessous.

Vous pouvez suivre mes mises à jour quotidiennes de projet sur les réseaux sociaux. Assurez-vous de vous abonner à ma newsletter hebdomadaire de mise à jouret suivez-moi sur Twitter / X à @Davidgewirtzsur Facebook à Facebook.com/davidgewirtzsur Instagram à Instagram.com/davidgewirtzsur bluesky à @ Davidgewirtz.comet sur youtube à Youtube.com/davidgewirtztv.

Source link

J’ai testé les compétences de codage de GPT-5, et c’était tellement mauvais que je m’en tiens à GPT-4O (pour l’instant)

Les principaux plats de ZDNET

1. Écriture d’un plugin WordPress

2. Réécriture d’une fonction de chaîne

3. Trouver un bug ennuyeux

4. Écrire un script

Internet a parlé

Noesis News

Posts Récents

Commentaires Récents

Archives

Catégories

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Elon Musk prévient que l’IA « va évidemment faire...

(R) Observer les modèles inattendus dans la demande...

Comment construire un pipeline de données léger avec...

Le navigateur COMET AI de Perplexity pourrait exposer...

Arrêter d’écrire un python désordonné: un cours accidentel...

The best sunglasses for seniors in 2025, according...

40 mèmes hilarants relatables partagés sur le compte...

WELEVEL RAshes 5,7 millions de dollars au développement...

L’IA d’Elon Musk propose des

Last Week in AI #297

Voici quelle est la tendance

Les principaux plats de ZDNET

1. Écriture d’un plugin WordPress

2. Réécriture d’une fonction de chaîne

3. Trouver un bug ennuyeux

4. Écrire un script

Internet a parlé

Noesis News

Related post

Posts Récents

Commentaires Récents

Archives

Catégories

Tags