voici ce qu’il vaut après l’épreuve de ses compét …

David Gewirtz/ZDNET

DeepSeek s’est brusquement imposé dans l’esprit du monde de l’IA le week-end dernier. Il se distingue pour trois raisons majeures :

Il s’agit d’un chatbot d’IA originaire de Chine, et non des États-Unis.
Il est open source.
Il utilise beaucoup moins d’infrastructure que les grands outils d’IA que nous avons étudiés.

Étant donné les inquiétudes du gouvernement américain concernant TikTok et l’implication possible du gouvernement chinois dans ce code, l’apparition d’une nouvelle IA en provenance de Chine ne manquera pas de susciter l’attention… Radhika Rajkumar, de ZDNET, s’est penchée sur ces questions dans son article DeepSeek : voici pourquoi il faut prêter attention à cette startup chinoise rivale d’OpenAI.

Dans cet article, nous éviterons la politique. Au lieu de cela, je soumets DeepSeek à mon habituelle série de tests de codage par l’IA. J’ai déjà éprouvé dix autres grands modèles de langage à ces mêmes tests.

La réponse courte est la suivante : impressionnant, mais pas parfait. Entrons dans le vif du sujet.

Test 1 : Écrire un plugin WordPress

Ce test a été en fait mon premier test des capacités de programmation de ChatGPT, il y a bien longtemps. Ma femme avait besoin d’un plugin pour WordPress qui l’aiderait à gérer un dispositif d’implication pour son groupe en ligne.

Ses besoins étaient assez simples. Le plugin devait recevoir une liste de noms, un nom par ligne. Il devait ensuite trier les noms et, s’il y avait des doublons, les séparer pour qu’ils ne soient pas listés côte à côte.

Je n’avais pas vraiment le temps de coder cela pour elle, alors j’ai décidé sur un coup de tête de lancer ce défi à l’IA. À ma grande surprise, cela a fonctionné.

Depuis, c’est le premier test que je fais passer aux IA pour évaluer leurs compétences en programmation. L’IA doit savoir comment configurer le code dans le cadre WordPress et suivre des instructions suffisamment claires pour créer à la fois l’interface utilisateur et la logique du programme.

Capture d’écran par David Gewirtz/ZDNET

Seule la moitié des IA que j’ai testées ont réussi ce test. Aujourd’hui, nous pouvons en ajouter une au cercle des vainqueursn DeepSeek!

Capture d’écran par David Gewirtz/ZDNET

DeepSeek a créé l’interface utilisateur et suivi la logique du programme exactement comme spécifié. DeepSeek a réussi donc le premier des quatre tests.

Test 2 : Réécriture d’une fonction de chaîne de caractères

Un de mes lecteurs s’est plaint de ne pas pouvoir saisir des dollars et des cents dans un champ de saisie de dons. Tel qu’il est écrit, mon code n’autorise que les dollars. Le test consiste donc à donner à l’IA la routine que j’ai écrite et à lui demander de la réécrire pour qu’elle autorise à la fois les dollars et les cents.

Habituellement, l’IA génère alors un code de validation par expression régulière. DeepSeek a généré un code qui fonctionne, mais celui-ci peut être amélioré. Le code écrit par DeepSeek était inutilement long et répétitif. Ma plus grande préoccupation est que la validation de DeepSeek garantit une validation jusqu’à deux décimales, mais si un très grand nombre est saisi (comme 0,30000000000000004), l’utilisation de la fonction parseFloat (transformation d’une chaîne de caractères en un nombre flottant) n’a pas de connaissance explicite de l’arrondi.

Je donnerais la préférence à DeepSeek parce qu’aucun de ces problèmes n’entraînerait le blocage du programme lorsqu’il est exécuté par un utilisateur et la solution proposée générerait les résultats escomptés.

Cela donne à DeepSeek deux victoires sur quatre.

Test 3 : Trouver un bug gênant

Il s’agit d’un test réalisé lorsque j’ai eu un bug très ennuyeux que j’ai eu du mal à trouver. Une fois de plus, j’ai décidé de voir si ChatGPT pouvait le gérer, ce qu’il a fait.

Le problème est que la réponse n’est pas évidente. En fait, le défi est qu’il y a une réponse évidente, basée sur le message d’erreur. Mais la réponse évidente n’est pas la bonne. Je n’ai pas été le seul pris au dépourvu, et cela surprend régulièrement certaines IA.

Pour résoudre ce bug, il faut comprendre comment fonctionnent les appels d’API spécifiques de WordPress, être capable de voir au-delà du message d’erreur le code lui-même, et savoir où trouver le bug.

DeepSeek a également passé avec cette épreuve, ce qui lui donne déjà trois réussites en attendant le quatrième test. Cela place déjà DeepSeek devant Gemini, Copilot, Claude et Meta.

Test 4 : Écrire un script

Et voilà un autre test à mordre la poussière. Il s’agit d’un test difficile car il exige de l’IA qu’elle comprenne l’interaction entre trois environnements : AppleScript, le modèle d’objet Chrome et un outil de script Mac appelé Keyboard Maestro.

J’aurais qualifié ce test d’injuste, car Keyboard Maestro n’est pas un outil de programmation grand public. Mais ChatGPT s’est acquitté de cette tâche avec aisance, en comprenant exactement quelle partie du problème est traitée par chaque outil.

Malheureusement, DeepSeek n’avait pas ce niveau de connaissance. Il ne savait pas qu’il devait diviser la tâche entre les instructions Keyboard Maestro et Chrome. Il avait également une connaissance assez faible d’AppleScript.

DeepSeek se retrouve donc avec trois tests corrects et un échec.

Réflexions finales

J’ai trouvé que l’insistance de DeepSeek à utiliser une adresse email du cloud public comme Gmail (plutôt que mon adresse email normale avec le domaine de mon entreprise) était ennuyeuse. Il a également eu un certain nombre d’échecs en termes de réactivité qui ont fait que ces tests ont pris plus de temps que je ne l’aurais souhaité.

J’ai douté pouvoir écrire cet article car, pendant la majeure partie de la journée, j’ai obtenu cette erreur en essayant de m’inscrire :

Les services en ligne de DeepSeek ont récemment fait l’objet d’attaques malveillantes à grande échelle. Pour assurer la continuité du service, l’inscription est temporairement limitée aux numéros de téléphone +86. Les utilisateurs existants peuvent se connecter comme d’habitude. Merci de votre compréhension et de votre soutien.

Ensuite, j’ai pu me connecter et effectuer les tests.

DeepSeek semble être trop loquace en ce qui concerne le code qu’il génère. Le code AppleScript du test 4 était à la fois erroné et excessivement long. Le code d’expression régulière du test 2 était correct, mais il aurait pu être écrit d’une manière qui l’aurait rendu beaucoup plus simple à assimiler.

Cependant je suis vraiment impressionné par le fait que DeepSeek ait battu Gemini, Copilot et Meta. Mais il semble être au niveau de l’ancien GPT-3.5, ce qui signifie qu’il y a certainement de la place pour l’amélioration.

Pour un tout nouvel outil fonctionnant sur une infrastructure bien plus légère que celle des autres outils, il pourrait s’agir d’une IA à surveiller.

Qu’en pensez-vous ? Avez-vous essayé DeepSeek ? Utilisez-vous des IA pour l’aide à la programmation ? Faites-le nous savoir dans les commentaires ci-dessous.

Source : « ZDNet.com »

Source link

Test 1 : Écrire un plugin WordPress

Test 2 : Réécriture d’une fonction de chaîne de caractères

Test 3 : Trouver un bug gênant

Test 4 : Écrire un script

Réflexions finales

Laisser un commentaire Annuler la réponse