Depuis deux semaines vous passez vos soirées à questionner ChatGPT, la formidable IA conversationnelle d’OpenAI. Et vous commencez même à échafauder des plans pour l’utiliser dans le cadre de votre métier.
Certes, certaines réponses sont imprécises, voire foireuses. Mais d’autres tests vous montrent un potentiel impressionnant.
Et voici qu’après l’enthousiasme assez général pour une solution informatique qui peut apparaître « magique », apparaissent les premières informations sur la construction de GPT-3 et de ChatGPT, tout comme des outils concurrents. Evidemment, sous le capot, point de magie. Mais surtout, peu d’ingéniosité. Surtout du labeur payé chichement à la tâche, et du scrapping de données à une échelle encore jamais vue.
Eduquer l’IA via des travailleurs du clic
Le magazine Time révèle d’une part qu’OpenAI a utilisé des prestataires kenyans pour rendre ChatGPT moins toxique. Moins toxique ? Oui car GPT-3, le moteur de ChatGPT, a montré par le passé une capacité peu enviable à débiter des remarques violentes, sexistes et racistes.
Pourquoi ? Parce que cette IA a été entraînée sur des centaines de milliards de mots extraits d’Internet. Et vous vous en doutez, cet énorme ensemble de données contient son lot de contenus toxiques et d’apriori.
Pour « éduquer » l’IA, OpenAI a donc du mettre en place un mécanisme de sécurité supplémentaire afin de proposer un chatbot.
Et là, pas de surprise, pas d’invention, pas de recette magique. A l’image des réseaux sociaux, ce sont des modérateurs traumatisés qui ont rectifié le savoir vivre de ChatGPT avant qu’OpenAI n’ose le proposer au public.
Un travail effectué toujours sous l’ombrelle de l’IA. Car il s’agissait pour ces prestataires d’aider à la création d’une IA modératrice de ChatGPT. Comment ? En soumettant à cette IA des « étiquettes », c’est à dire des exemples de contenu violent et de discours de haine.
Pour obtenir ces étiquettes, OpenAI a donc envoyé des dizaines de milliers de bribes de texte à une entreprise de sous-traitance au Kenya, nommée Sama, à partir de novembre 2021. Evidemment, ce dataset contenait des propos terribles, dont des récits d’abus sexuels sur des enfants, de meurtre, de suicide, ou encore de torture.
Sama de son côté se présente comme une entreprise d' »IA éthique » et affirme avoir contribué à sortir plus de 50 000 personnes de la pauvreté. Les employés de Sam employés sur le projet d’OpenAI recevaient un salaire compris entre 1,32 et 2 dollars de l’heure.
Ces travailleurs du clic, qui ont rendu ChatGPT présentable, jouent un rôle essentiel dans la chaîne de valeur de l’IA. Car au delà des poste de data scientist, des compétences d’ingénieurs de la donnée, ce sont ces armées de travailleurs qui enrichissent les données. Des armées souvent invisibles, masquées par les innovations techniques mises en avant par les géants de la tech.
IA et droit d’auteur
Au delà des problématiques de modération et de recours à une foule de prestataires payés à la tâche, la mise en place des systèmes d’IA actuels pose aussi une question de droit. Les droits d’auteur et d’usage des données et informations contenus dans les corpus, ou dataset, digérés par les machines, ne seraient ainsi pas respectés.
C’est ainsi qu’une action collective en justice (une class action) vient d’être formalisée à l’encontre de Stability AI, concurrent d’OpenAI, et créateur des services Stable Diffusion, Midjourney, et de la plate-forme DeviantArt. Les plaignants affirment que les IA génératives sont formées à partir de millions d’œuvres piratées. Et ils réclament une compensation.
C’est la question du consentement des auteurs à ce que leurs oeuvres soient utilisées qui est ici évoquée. Et de plaider un gigantesque piratage qui de plus serait désormais utiliser pour concurrencer le travail des auteurs désormais.
Cette class action pourrait faire tâche d’huile et rameuter des acteurs plus importants. Getty Images, l’une des plus grandes banque d’images du monde, menace d’assigner en justice Stability AI. L’entreprise accuse le spécialiste de l’IA d’avoir « copié et traité illégalement des millions d’images protégées par le droit d’auteur et les métadonnées associées ».
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));