Raleigh (Caroline du Nord) – L’Open Source Initiative (OSI) a publié l’Open Source AI Definition (OSAID) 1.0 le 28 octobre 2024, lors de la conférence All Things Open. Et sa création n’a pas été facile.
Il a fallu près de deux ans à l’OSI pour créer et mettre en place l’OSAID. Mais sans aucun changement par rapport à la dernière version de l’OSAID, c’est enfin chose faite. Malheureusement, tout le monde n’en est pas satisfait. Et même ses créateurs admettent qu’il s’agit d’un travail en cours.
Pourquoi ? Carlo Piana, président de l’OSI et avocat, explique que « notre compréhension collective de ce que fait l’IA, de ce qui est nécessaire pour modifier les modèles de langage, est limitée à l’heure actuelle. Plus nous l’utiliserons, plus nous comprendrons. Pour l’instant, notre compréhension est limitée et nous ne savons pas encore à quoi ressemblera la technologie dans un an, deux ans ou trois ans ».
Les pragmatiques, les idéalistes et ceux qui font du faux open source
Ou, comme le dit Taylor Dolezal, responsable de l’écosystème de la Cloud Native Computing Foundation (CNCF), « Trouver un équilibre entre les principes de l’open source et les complexités de l’IA peut parfois donner l’impression d’essayer de résoudre un Rubik’s Cube les yeux bandés. »
Côtés critiques de cette nouvelle définition, trois groupes en remontrent : les pragmatiques, les idéalistes et les chefs d’entreprise qui font du faux open source.
Pour commencer, il faut comprendre la nature des conflits. Mark Collier, directeur de l’exploitation de la OpenStack Foundation, qui a participé à la rédaction de l’OSAID, l’a récemment bien expliqué :
« L’un des plus grands défis de la création de la définition de l’IA Open Source est de décider comment traiter les ensembles de données utilisés pendant la phase d’entraînement. À première vue, il peut sembler logique d’exiger que tous les ensembles de données brutes soient rendus publics.
Cependant, cette analogie entre les ensembles de données et le code source est imparfaite. Elle s’effondre si l’on y regarde de plus près. Les données d’entraînement influencent les modèles, tandis que le code source fournit des instructions explicites. Les modèles d’IA produisent des paramètres (poids), alors que les logiciels sont directement compilés à partir du code source. … de nombreux modèles d’IA sont entraînés sur des données propriétaires ou juridiquement ambiguës, telles que des contenus récupérés sur le web ou des ensembles de données sensibles comme les dossiers médicaux.
Toutes les données publiques utilisées pour l’entraînement devraient donc être accessibles. De même qu’il faudrait une transparence totale sur tous les ensembles de données utilisés et les procédures suivies pour les nettoyer et les étiqueter. Trouver le bon équilibre sur cette question est l’une des parties les plus difficiles de la création de la définition ».
Les pragmatiques ont obtenu une définition où toutes les données n’ont pas besoin d’être ouvertes et partagées
C’est ainsi que les pragmatiques ont voulu, et obtenu, une définition de l’IA open source où toutes les données n’ont pas besoin d’être ouvertes et partagées. Pour eux, il suffit de disposer « d’informations suffisamment détaillées sur les données utilisées pour entraîner le système », plutôt que de l’ensemble des données elles-mêmes. Cette approche vise à trouver un équilibre entre la transparence et les considérations pratiques et juridiques telles que les droits d’auteur et les données médicales privées.
Outre l’OSI, des organisations telles que la Mozilla Foundation, la OpenInfra Foundation, Bloomberg Engineering et SUSE ont approuvé l’OSAID. Par exemple, Alan Clark, de SUSE, a déclaré : « SUSE applaudit les progrès réalisés par l’OSI et son OSAID. Les efforts aboutissent à une définition très complète ».
Les universitaires ont également approuvé cette première version de l’OSAID. Percy Liang, de l’université de Stanford, a déclaré dans un communiqué : « Trouver la bonne définition open source est un défi. Je suis heureux de voir que la définition OSI v1.0 exige au moins que le code complet pour le traitement des données (le principal facteur de qualité du modèle) soit en source ouverte. Le diable étant dans les détails, je suis sûr que nous aurons d’autres choses à dire lorsque nous aurons des exemples concrets de personnes essayant d’appliquer cette définition à leurs modèles ».
Les idéalistes s’opposent à ce que des données non ouvertes soient autorisées dans un modèle d’IA open-source
En parlant de ce diable, les idéalistes s’opposent fermement à ce que des données non ouvertes soient autorisées dans un modèle d’IA open-source. Et ce bien que Piana ait déclaré : « Le conseil est convaincu que le processus a abouti à une définition qui répond aux normes de l’Open Source telles qu’elles sont définies dans la Définition de l’Open Source et les Quatre libertés essentielles« . Les idéalistes ne voient pas les choses de la même manière.
Tom Callaway, chez Amazon Web Services (AWS), résume bien leurs objections. « Cela vous permet de construire un système d’IA binaire à partir de sources de données propriétaires et d’appeler le résultat « open source », et c’est tout simplement faux. Cela porte atteinte à ce qu’est l' »open source ».
L’OSI est bien consciente de ces arguments. Lors d’une table ronde un représentant de l’OSI a déclaré : « Les membres de nos communautés sont mécontents. Ils ont l’impression que leur voix n’a pas été entendue ».
L’OSI a donc estimé devoir proposer une définition parce que des lois étaient adoptées aux États-Unis et dans l’Union européenne sur l’IA open source sans la définir. L’OSI et de nombreux autres groupes estiment que cette question devait être abordée avant que les entreprises n’aillent de l’avant avec leurs propres définitions bidon de l’IA open source. À l’avenir, l’OSI ajustera la définition pour tenir compte des changements à venir dans le domaine de l’IA.
Entre-temps, au moins un groupe, Digital Public Goods (DPG) met à jour sa norme DPG pour l’IA afin d’exiger des données d’entraînement ouvertes pour les systèmes d’IA. Sa proposition sera publiée sur GitHub au début du mois de novembre. Et sera soumise aux commentaires du public pendant une période d’examen communautaire de quatre semaines. D’autres initiatives de ce type verront le jour.
Meta et OpenAI font eux aussi de la résistance
Les entreprises de logiciels libres ont tout intérêt à ce que leurs programmes soient considérés comme des logiciels open source. Et les les lois et réglementations relatives à l’IA open source sont plus souples que celles qui s’appliquent aux systèmes d’IA propriétaires. Cela signifie qu’elles peuvent économiser beaucoup d’argent si leurs produits sont régis par les règles de l’open source.
Par exemple, la licence de Llama 3 de Meta n’est pas conforme aux règles de l’open source pour plusieurs raisons. Néanmoins, Meta a déclaré : « Il n’existe pas de définition unique de l’IA open source, et la définir est un défi car les définitions précédentes n’englobent pas les complexités des modèles d’IA d’aujourd’hui ». Meta et d’autres grandes puissances de l’IA, comme OpenAI, tenteront d’amener les gouvernements à reconnaître leurs propres définitions. Je m’attends à ce qu’ils proposent une fausse définition de l’IA open source pour couvrir leurs produits et services propriétaires.
D’après moi, cela signifie que si l’OSAID dispose d’une norme que de nombreux groupes respecteront, les conflits sur ce qu’est réellement l’IA open source ne font que commencer. Et je ne vois pas de solution à ce conflit avant des années.
Aujourd’hui, la plupart des utilisateurs de l’IA s’en moquent. Ils veulent simplement qu’on leur facilite le travail. Il en va tout autrement pour les entreprises et les agences gouvernementales. Pour eux, l’IA open-source est vitale.