J’ai retesté les compétences de codage de l’IA de Microsoft Copilot en 2025 et maintenant c’est un jeu sérieux

 J’ai retesté les compétences de codage de l’IA de Microsoft Copilot en 2025 et maintenant c’est un jeu sérieux


Microsoft

Il y a eu une tonne de buzz sur la façon dont les AIS peuvent aider à la programmation, mais au cours de la première année ou deux de l’IA générative, une grande partie de ce battement était un battage médiatique. Microsoft a organisé d’énormes événements célébrant comment Copilot pourrait vous aider à coder, mais lorsque je l’ai mis à l’épreuve en avril 2024, il a échoué les quatre Mes tests standardisés. Il a complètement frappé. S’est écrasé et brûlé. Est tombé de la falaise. Il a effectué le pire de toute IA que j’ai testée.

Metaphores mixtes à part, respectons le baseball. Copilot a échangé ses crampons contre un laissez-passer de bus. Ce n’était pas digne.

Aussi: La meilleure IA pour le codage en 2025 (et quoi ne pas utiliser)

Mais le temps passé dans l’enclos des releveurs de la vie semble avoir aidé Copilot. Cette fois, quand il est apparu pour les essais, il a été réchauffé et prêt à entrer dans la boîte. Il jetait de la chaleur dans l’enclos des releveurs. Quand il était temps de jouer, il avait un œil sur le ballon et son swing a été composé. De toute évidence, il était prêt pour le jeu et cherchait un lancer à conduire.

Mais pourrait-il résister à mes tests? Avec un plis dans mes yeux, je suis monté sur le monticule du lanceur et j’ai commencé avec un lob facile. En 2024, vous pouviez sentir le vent alors que le copilot se balançait et manquait. Mais maintenant, en avril 2025, Copilot s’est connecté carrément avec le ballon et l’a frappé droit et vrai.

Aussi: Comment je teste la capacité de codage d’un chatbot AI – et vous pouvez aussi

Nous avons dû envoyer Copilot vers le bas, mais il a riposté au spectacle. Voici le jeu par jeu.

1. Écriture d’un plugin WordPress

Eh bien, Copilot s’est certainement amélioré depuis sa première série de ce test en avril 2024. La première fois, il n’a pas fourni de code pour afficher réellement les lignes randomisées. Il les a stockés en valeur, mais il ne les a pas récupérés et ne les affichait pas. En d’autres termes, il a balancé et a raté. Il n’a produit aucune sortie.

Ceci est le résultat de la dernière exécution:

tablier de ligne

Capture d’écran de David Gewirtz / ZDNET

Cette fois, le code a fonctionné. Il a laissé une ligne vierge supplémentaire aléatoire à la fin, mais comme il a rempli la mission de programmation, nous l’appellerons bien.

Aussi: Comment utiliser Chatgpt pour écrire du code – et mon astuce préférée pour déboguer ce qu’elle génère

La séquence ininterrompue de Copilot de défaillances de programmation absolument non atténuée a été brisée. Voyons comment cela se fait dans le reste des tests.

2. Réécriture d’une fonction de chaîne

Ce test est conçu pour tester les conversions de dollars et de cents. Dans mon premier test en avril 20224, le code généré par le copilote a correctement signalé une erreur si une valeur contenant une lettre ou plus d’un point décimal lui est envoyée, mais n’a pas effectué de validation complète. Il a permis aux résultats que cela ait pu faire échouer les routines ultérieures.

Aussi: Comment j’ai utilisé Chatgpt pour écrire un signet javascript personnalisé

Cette course, cependant, s’est plutôt bien comportée. Il effectue la plupart des tests correctement. Il renvoie faux pour les nombres avec plus de deux chiffres à droite du point décimal, comme 1,234 et 1.230. Il renvoie également faux pour les nombres avec des zéros de premier plan supplémentaires. Donc 0,01 est autorisé, mais 00.01 ne l’est pas.

Techniquement, ces valeurs pourraient être converties en valeurs de devise utilisables, mais il n’est jamais mauvais qu’une routine de validation soit stricte dans ses tests. L’objectif principal est que la routine de validation ne laisse pas une valeur à travers qui pourrait entraîner une routine ultérieure. Copilot a fait du bien ici.

Nous sommes maintenant à deux pour deux, une énorme amélioration par rapport à ses résultats de sa première course.

3. Trouver un bug ennuyeux

Je dois vous dire comment Copilot a répondu pour la première fois en avril 2024, car c’est tout simplement trop bon.

Aussi: Pourquoi je viens d’ajouter Gemini 2.5 Pro à la très courte liste d’outils d’IA que je paie pour

Cela teste la capacité de l’IA à penser que quelques échecs avancent. La réponse qui semble évidente n’est pas la bonne réponse. J’ai été pris par cela lorsque je débogage à l’origine du problème qui est finalement devenu ce test.

Lors de la première exécution de Copilot, cela m’a suggéré de vérifier l’orthographe de ma fonction le nom de ma fonction et du nom de crochet WordPress. Le crochet WordPress est une chose publiée, donc Copilot aurait dû être en mesure de confirmer l’orthographe. Et ma fonction est ma fonction, donc je peux l’épeler comme je veux. Si je l’avais mal orthographié quelque part dans le code, l’IDE l’aurait très visiblement signalé.

Et ça s’est amélioré. À l’époque, Copilot m’a également répété la déclaration du problème, suggérant que je résolve le problème moi-même. Oui, toute sa recommandation était que je le débogue. Eh bien, duh. Ensuite, cela s’est terminé par « envisager de chercher le soutien du développeur de plugin ou des forums communautaires. 😊 » – et oui, cet emoji faisait partie de la réponse de l’IA.

C’était une défaillance emojique spectaculaire, enthousiaste. Vous voyez ce que je veux dire? Les premières réponses de l’IA, aussi inutiles, devraient être immortalisées.

Surtout quand Copilot n’était pas aussi amusant cette fois. Cela l’a résolu. Rapidement, proprement, clairement. Fait et fait. Résolu.

Cleanshot-2025-04-23-AT-10-33-062X

Capture d’écran de David Gewirtz / ZDNET

Cela met Copilot à trois pour trois et le déplace de manière décisive de la catégorie « n’utilisez pas cet outil ». Les bases sont chargées. Voyons si Copilot peut marquer un home run.

4. Écrire un script

L’idée avec ce test est qu’il pose des questions sur un outil de script MAC assez obscur appelé Clavier Maestroainsi que le langage de script d’Apple Applecript et le comportement de script chromé. Pour l’enregistrement, le clavier Maestro est l’une des principales raisons pour lesquelles j’utilise les Mac via Windows pour ma productivité quotidienne, car elle permet de reprogrammer le système d’exploitation et les différentes applications pour répondre à mes besoins. C’est si puissant.

Dans tous les cas, pour réussir le test, l’IA doit décrire correctement comment résoudre le problème à l’aide d’un mélange de code maestro du clavier, de code Applecript et de fonctionnalité API Chrome.

Aussi: L’IA a grandi au-delà des connaissances humaines, dit l’unité DeepMind de Google

À l’époque, Copilot ne l’a pas bien fait. Il a complètement ignoré le maestro du clavier (à l’époque, il n’était probablement pas dans sa base de connaissances). Dans le Applecript généré, où je lui ai demandé de simplement numériser la fenêtre actuelle, Copilot a répété le processus pour toutes les fenêtres, renvoyant les résultats pour la mauvaise fenêtre (la dernière de la chaîne).

Mais pas maintenant. Cette fois, Copilot l’a bien fait. Il a fait exactement ce qui a été demandé, a obtenu la bonne fenêtre et l’onglet, a correctement parlé au clavier Maestro et Chrome, et a utilisé une syntaxe Applecript réelle pour la pommes.

Bases chargées. Home run.

Résultats globaux

L’année dernière, j’ai dit que je n’étais pas impressionné. En fait, j’ai trouvé les résultats un peu démoralisants. Mais j’ai aussi dit ceci:

Eh bien, Microsoft améliore ses produits au fil du temps. Peut-être d’ici l’année prochaine.

Au cours de la dernière année, Copilot est passé des retraits au bâton à Shaker. Il est passé du nettoyage au bâton au sous-sol pour chasser un fanion sous les lumières.

Et toi? Avez-vous pris Copilot ou un autre assistant de codage AI sur le terrain ces derniers temps? Pensez-vous qu’il est enfin prêt pour les grandes ligues, ou est-ce toujours monté sur le banc? Avez-vous eu des retraits au bâton ou des circuits en utilisant l’IA pour le développement? Et que faudrait-il à l’un de ces outils pour gagner une place dans votre gamme de départ? Faites-nous savoir dans les commentaires ci-dessous.


Vous pouvez suivre mes mises à jour quotidiennes de projet sur les réseaux sociaux. Assurez-vous de vous abonner à ma newsletter hebdomadaire de mise à jouret suivez-moi sur Twitter / X à @Davidgewirtzsur Facebook à Facebook.com/davidgewirtzsur Instagram à Instagram.com/davidgewirtzet sur youtube à Youtube.com/davidgewirtztv.





Source link

Related post