OpenAI est censée apporter avant le 30 avril des garanties à la Cnil italienne, sous peine de voir ChatGPT interdit dans le pays. Pour des experts, c’est peine perdue : l’entreprise américaine pourra difficilement montrer qu’elle respecte les normes européennes relatives aux données personnelles.
Mission impossible ? OpenAI, la société à l’origine de ChatGPT, n’a plus que 10 jours pour se conformer aux décisions de la Garante, la Cnil italienne qui a suspendu l’agent conversationnel dans le pays. L’autorité, qui a donné en mars dernier le coup d’envoi d’un début de règlementation de l’IA générative dans l’UE et dans le monde, a exigé d’OpenAI qu’elle respecte les normes européennes en matière de données personnelles. La société américaine a jusqu’au 30 avril pour montrer patte blanche. Et pour certains experts cités par MIT Technology Review le 19 avril dernier, c’est simple : OpenAI fonce droit dans le mur.
Il lui sera impossible de répondre favorablement aux questions soulevées par cette autorité en charge de la protection de la vie privée. Comme il lui sera impossible de rendre ses activités conformes au RGPD, le règlement européen qui protège nos données personnelles. Les prochaines semaines pourraient même changer la façon dont les IA génératives – comme les chats conversationnels – s’entraînent, estiment des experts cités par nos confrères.
En s’entraînant, l’IA aspire des données personnelles
Car ce que remet en question la Garante, suivie par d’autres autorités européennes et canadienne, c’est la façon dont ce type d’IA fonctionne, en aspirant des quantités astronomiques de données sur internet pour s’entraîner. Le principe est que plus il y a de données, plus l’IA est performante. Or, ce fonctionnement pose trois problèmes. Parmi ces data se sont d’abord glissées des données personnelles comme des noms ou des adresses électroniques recueillies sans que les conditions prévues par le RGPD aient été respectées. Le recueil de ces données doit normalement se faire avec le consentement des personnes concernées, ou avec « l’exception d’intérêt légitime » – une disposition qui permet normalement de se passer de l’autorisation expresse d’un utilisateur.
Problème : toutes les plateformes qui ont essayé de se servir de cette exception pour justifier le traitement des données se sont toutes fait retoquer par les cours de justice européennes. Il est fort probable qu’il en soit de même pour OpenAI.
À lire aussi : L’Europe se dote d’une task force pour décider si elle doit bannir ChatGPT
En fonctionnant, l’IA ingurgite puis dégurgite des données personnelles
Deuxième problème : quand vous utilisez ChatGPT, ne donnez surtout aucune information personnelle, préconisaient des experts. On peut en effet avoir tendance à partager des informations intimes et privées avec le chatbot – comme son état mental, des opinions politiques, des questions de santé. Or là aussi, ces data vont alimenter la machine. Ce qui signifie qu’elles pourraient ressortir à n’importe quel moment. Et il serait pour l’instant quasi impossible d’effacer ces données et de s’opposer à ce que ces dernières soient réutilisées – là aussi, deux points normalement prévus par le RGPD. Pour Margaret Mitchell, chercheuse en IA et ancienne co-responsable de l’éthique de l’IA chez Google citée par nos confrères, OpenAI va se trouver dans l’impossibilité d’identifier les données des individus et de les supprimer de ses modèles.
Elle ne pourra pas supprimer les données personnelles
Ce serait comme chercher une aiguille dans une botte de foin, explique-t-elle. Et même si OpenAI parvenait à supprimer les données des utilisateurs, il n’est pas certain que cette mesure soit permanente. Des données supprimées peuvent continuer à circuler sur Internet, même longtemps après avoir été « effacées ».
Elle ne respecte pas l’obligation de traiter des données exactes
Troisième problème : le droit de traiter des données réputées exactes, garanti aussi par le RGPD. Il ne vous a pas échappé que l’agent conversationnel a des « hallucinations », comprenez, le chat commet des erreurs. En France, ChatGPT a ainsi déclaré que le député Éric Bothorel était né en 1961, qu’il est maire de Lannion ou de Saint-Brieuc et qu’il avait travaillé chez Orange : trois informations inexactes. L’homme politique a porté plainte devant la Cnil. Les erreurs de ChatGPT sont parfois beaucoup plus graves. L’agent conversationnel a par exemple affirmé, à tort, qu’un élu australien avait été condamné pour des faits de corruption, ou qu’un juriste avait été accusé d’avoir harcelé sexuellement une étudiante pendant un voyage en Alaska.
Résultat : difficile de voir comment OpenAI pourrait échapper à une lourde amende, ou à une interdiction. Selon Lilian Edwards, professeure de droit de l’internet à l’université de Newcastle citée par nos confrères, les violations commises par OpenAI sont si flagrantes qu’il est probable que cette affaire finisse devant la Cour de justice de l’UE.
En Europe, les informations trouvées sur internet ne sont pas considérées comme publiques
Quelle est la défense d’OpenAI ? Dans un article de blog du 5 avril dernier, la société américaine a déclaré qu’elle s’efforçait de supprimer les informations personnelles des données d’entraînements sur demande, « lorsque cela est possible ». Elle ajoute que ses modèles sont formés sur des contenus accessibles au public, des contenus sous licence et des contenus générés par des évaluateurs humains.
Aux États-Unis, cet entraînement pourrait être licite, car tout ce qui est public – diffusé sur internet et les réseaux sociaux – n’est pas considéré comme du « privé », soulignent nos confrères. Mais dans l’UE, les règles relatives à la protection de la vie privée et des données personnelles sont bien plus exigeantes. Et ce n’est pas parce qu’une information est sur un réseau social qu’elle devient publique. La professeure Lilian Edwards, citée par nos confrères, rappelle les règles du RGPD. Les citoyens européens ont le droit d’être informés de la manière dont leurs données sont collectées et utilisées. Ils ont aussi le droit de voir leurs données supprimées de ces systèmes, même si les data d’origine étaient accessibles sur internet.
À lire aussi : Pourquoi le transfert de vos données personnelles aux États-Unis est un incroyable casse-tête
La réponse d’OpenAI est donc particulièrement attendue. D’autant que l’issue de ce conflit pourrait avoir un impact sur toute l’IA générative. Le résultat du litige entre la Garante et OpenAI pourrait changer fondamentalement la façon dont les entreprises d’intelligence artificielle collectent les données et entraînent leurs modèles, en particulier si les méthodes actuelles sont jugées illégales au regard du droit européen. La décision uniquement applicable en Europe pourrait être suivie ailleurs dans le monde. La raison ? Les principes du RGPD, une des lois les plus strictes au monde en termes de protection des données personnelles, ont été repris dans d’autres pays.
Source :
MIT Technology Review