Il n’est pas facile de faire coïncider les logiciels libres et l’intelligence artificielle (IA). Il suffit de demander à l’Open Source Initiative (OSI). L’OSI, l’organisation chargée de la définition des logiciels libres, travaille depuis deux ans à l’élaboration d’une définition de l’intelligence artificielle open source. Sa définition de l’intelligence artificielle open source vient d’être publiée en version RC1 (release candidate).
Cette version clarifie les controverses qui entourent l’IA open source. Elle précise quatre libertés fondamentales qu’un système d’IA doit accorder pour être considéré comme open source :
- La possibilité d’utiliser le système dans n’importe quel but sans autorisation
- La possibilité d’étudier son fonctionnement
- La possibilité de le modifier dans n’importe quel but
- La possibilité de le partager avec ou sans modifications.
Jusqu’à présent, tout va bien.
Compromis sur les données de formation
Cependant, l’OSI a opté pour un compromis en ce qui concerne les données de formation. Reconnaissant qu’il n’est pas facile de partager des ensembles de données complets, la définition actuelle exige « des informations suffisamment détaillées sur les données utilisées pour former le système » plutôt que l’ensemble de données lui-même.
Cette approche vise à trouver un équilibre entre la transparence et les considérations pratiques et juridiques.
Cette dernière phrase est difficile à avaler pour certains. De leur point de vue, si toutes les données ne sont pas ouvertes, les grands modèles de langage (LLM) basés sur ces données ne peuvent pas être ouverts.
4 types de données différentes
L’OSI a résumé ces arguments comme suit : « Certaines personnes estiment qu’un accès total et sans entrave à toutes les données d’apprentissage (sans distinction de leur nature) est primordial, arguant que toute autre solution compromettrait la reproductibilité totale des systèmes d’IA, la transparence et la sécurité. Cette approche reléguerait l’IA Open-Source à une niche d’IA ne pouvant être entraînée qu’à partir de données ouvertes ».
Ils n’ont pas tort.
Oui, dans l’idéal, l’OSI reconnaît que toutes les données d’entraînement devraient être partagées et divulguées. Toutefois, il existe quatre types de données différents :
- Les données ouvertes
- Les données publiques
- Les données pouvant être obtenue
- Les données ne pouvant être partagées
« Les exigences légales sont différentes pour chacun d’entre eux. Toutes doivent être partagées sous la forme autorisée par la loi » mentionne l’OSI.
Lutter contre l’open washing
En bref, « Les données peuvent être difficiles à partager. Les lois autorisant la formation sur les données limitent souvent le partage de ces données afin de protéger les droits d’auteur ou d’autres intérêts. Les règles de protection de la vie privée donnent également à une personne la capacité légitime de contrôler ses informations les plus sensibles, comme les décisions concernant sa santé ».
La version RC aborde également d’autres éléments clés des systèmes d’intelligence artificielle. Elle exige que l’intégralité du code source utilisé pour l’entraînement et le fonctionnement du système soit disponible sous des licences approuvées par l’OSI. De même, les paramètres et les poids des modèles doivent être partagés selon des conditions ouvertes.
Stefano Maffulli, directeur exécutif de l’OSI, a souligné l’importance de cette définition pour lutter contre l’open washing, une pratique consistant pour les entreprises à revendiquer l’ouverture sans respecter de véritables normes en la matière.
Les puristes et les grandes entreprises mécontentes de cette définition
« Si une entreprise dit qu’elle est open source, elle doit porter les valeurs de la définition de l’open source » dit il.
A Vienne (Autriche) dans le cadre du Open Source Summit Europe, M. Mafulli m’a expliqué que les puristes de l’open source n’étaient pas les seuls à être mécontents de la définition de l’IA proposée par l’OSI.
Les autres mécontents « sont des entreprises, qui considèrent leurs programmes de formation et la manière dont elles gèrent la formation, assemblent et filtrent les ensembles de données et créent des ensembles de données comme des secrets commerciaux.
Elles ne veulent pas les divulguer. C’est un vieil argument que nous avons entendu dans les années 90 lorsque Microsoft ne voulait pas divulguer son code source.
Un code compréhensible et du Copyleft
En outre, la RC1 comporte deux nouvelles fonctionnalités.
- La première est que le code IA open source doit être suffisant pour que les destinataires en aval puissent comprendre comment l’apprentissage du langage machine a été effectué. La formation est le lieu de l’innovation et, selon l’OSI, c’est « la raison pour laquelle les entreprises ne publient pas leur code de formation et de traitement des données ».
Compte tenu de l’état actuel des connaissances et des pratiques, cela est nécessaire pour faire évoluer les systèmes d’IA. - Enfin, le nouveau texte reconnaît que les créateurs peuvent exiger du Copyleft pour le code, les données et les paramètres de l’IA en libre accès, soit individuellement, soit sous forme de combinaisons groupées.
Par exemple, si un « consortium détenant des droits sur un code d’entraînement et un ensemble de données décidait de distribuer le code et les données groupés avec des conditions juridiques qui lient les deux ensemble, avec des dispositions similaires au copyleft ».
L’OSI ajoute que « ce type de document juridique n’existe pas encore, mais le scénario est suffisamment plausible pour qu’il mérite d’être pris en considération ».
Ne croyez pas que la définition soit déjà arrêtée. Ce n’est pas le cas.
Un texte en évolution
L’OSI à partir de maintenant s’efforcera de corriger les bogues. L’OSI admet qu’il peut encore y avoir « des défauts majeurs qui peuvent nécessiter des réécritures significatives du texte ». Toutefois, l’accent sera mis sur la documentation d’accompagnement.
En outre, l’OSI « s’est rendu compte que, dans notre empressement à résoudre le problème des données qui doivent être fournies mais que le propriétaire du modèle ne peut pas fournir pour de bonnes raisons, nous n’avons pas réussi à faire comprendre l’exigence fondamentale selon laquelle « si vous pouvez partager les données, vous devez le faire » ».
Si tout se passe bien, l’OSI prévoit de publier la version finale 1.0 de la définition de l’IA Open Source lors de la conférence All Things Open le 28 octobre 2024. Accrochez-vous, les amis. Nous y arrivons.