J’ai retesté les capacités de codage de Copilot. C’est une bombe …

Microsoft a organisé de grands événements pour célébrer la façon dont Copilot pouvait vous aider à coder.

Mais lorsque je l’ai mis à l’épreuve, il a échoué. Il a complètement échoué. Il a obtenu les pires résultats de toutes les IA que j’ai testé.

Mais aujourd’hui, en avril 2025, Copilot c’est grandement amélioré. Et je vous montre comment.

1. Écrire un plugin WordPress

Copilot s’est amélioré depuis sa première exécution de ce test en avril 2024. La première fois, il n’a pas fourni de code pour afficher les lignes aléatoires. Il les stockait dans une valeur, mais ne les récupérait pas et ne les affichait pas. En d’autres termes, il s’est balancé et a raté son coup. Il n’a produit aucun résultat.

Voici le résultat de la dernière exécution :

Capture d’écran par David Gewirtz/ZDNET

Cette fois, le code a fonctionné. Il a laissé une ligne blanche supplémentaire au hasard à la fin, mais comme il a rempli la mission de programmation, nous dirons que c’est bon.

La série ininterrompue d’échecs de programmation de Copilot a été interrompue. Voyons ce qu’il en est pour les autres tests.

2. Réécriture d’une fonction de chaîne de caractères

Ce test est conçu pour tester les conversions en dollars et en cents. Lors de mon premier test en avril 20224, le code généré par Copilot a bien signalé une erreur si une valeur contenant une lettre ou plus d’une virgule décimale lui était envoyée, mais il n’a pas effectué une validation complète. Il a laissé passer des résultats qui auraient pu faire échouer les routines suivantes.

Cette exécution, cependant, s’est plutôt bien déroulée. Elle effectue la plupart des tests correctement. Elle renvoie un message faux pour les nombres comportant plus de deux chiffres à droite de la virgule, comme 1,234 et 1,230. Il renvoie également un message d’erreur pour les nombres comportant des zéros supplémentaires. Ainsi, 0,01 est autorisé, mais 00,01 ne l’est pas.

Techniquement, ces valeurs pourraient être converties en valeurs monétaires utilisables. Mais il n’est jamais mauvais qu’une routine de validation soit stricte dans ses tests. L’objectif principal est que la routine de validation ne laisse pas passer une valeur qui pourrait faire planter une autre routine. Copilot s’est bien débrouillé ici.

3. Trouver un bug gênant

Je dois vous dire comment Copilot a répondu à cette question en avril 2024, parce que c’est trop beau.

Il s’agit de tester la capacité de l’IA à anticiper quelques coups d’échecs. La réponse qui semble évidente n’est pas la bonne. C’est ce qui m’a surpris lorsque j’ai commencé à déboguer le problème qui est finalement devenu ce test.

Lors de la première exécution de Copilot, il m’a suggéré de vérifier l’orthographe du nom de ma fonction et du nom du hook WordPress. Le hook WordPress est public, donc Copilot aurait dû être capable de confirmer l’orthographe. Et ma fonction est ma fonction, je peux donc l’orthographier comme je veux. Si je l’avais mal orthographié quelque part dans le code, l’IDE me l’aurait signalé.

Et cela s’est amélioré. À l’époque, Copilot me répétait volontiers l’énoncé du problème, en me suggérant de le résoudre moi-même. Oui, sa recommandation était que je débogue le problème. Puis, il terminait par « envisagez de demander de l’aide au développeur du plugin ou aux forums de la communauté. ? » — et oui, cet emoji faisait partie de la réponse de l’IA.

Cette fois-ci, l’IA a juste résolu le problème. Rapidement, proprement, clairement. C’est fait, c’est fait. Résolu.

Capture d’écran par David Gewirtz/ZDNET

4. Écrire un script

L’idée de ce test est qu’il pose des questions sur un outil de script Mac assez obscur appelé Keyboard Maestro, ainsi que sur le langage de script d’Apple, AppleScript, et le comportement de script de Chrome. Pour mémoire, Keyboard Maestro permet de reprogrammer l’ensemble du système d’exploitation et les diverses applications en fonction de mes besoins.

Quoi qu’il en soit, pour réussir le test, l’IA doit décrire correctement comment résoudre le problème à l’aide d’un mélange de code Keyboard Maestro, de code AppleScript et de fonctionnalités de l’API Chrome.

À l’époque, Copilot ne faisait pas les choses correctement. Il ignorait complètement Keyboard Maestro (à l’époque, cela ne figurait probablement pas dans sa base de connaissances). Dans l’AppleScript généré, où je lui demandais d’analyser uniquement la fenêtre en cours, Copilot répétait le processus pour toutes les fenêtres, renvoyant des résultats pour la mauvaise fenêtre (la dernière de la chaîne).

Mais pas maintenant. Cette fois, Copilot a bien fait les choses. Il a fait exactement ce qui lui était demandé, a obtenu la bonne fenêtre et le bon onglet, a correctement communiqué avec Keyboard Maestro et Chrome, et a utilisé la syntaxe AppleScript réelle pour l’AppleScript.

Pour aller plus loin sur la capacité des IA génératives à créer du code

Source link

1. Écrire un plugin WordPress

2. Réécriture d’une fonction de chaîne de caractères

3. Trouver un bug gênant

4. Écrire un script

Pour aller plus loin sur la capacité des IA génératives à créer du code

Laisser un commentaire Annuler la réponse