Open Source Summit China (Hong Kong) – Stefano Maffulli, directeur exécutif de l’Open Source Initiative (OSI), m’a dit que les logiciels et les données qui mélangent l’intelligence artificielle (IA) et les licences open-source existantes ne font pas bon ménage. « C’est pourquoi nous devons élaborer une nouvelle définition de l’intelligence artificielle open source ».
L’OSI travaille donc à la création d’une définition complète de l’IA open source, similaire à la définition de l’open source pour les logiciels. Cela répond au besoin croissant de clarté dans la détermination de ce qui constitue un système d’IA open-source. Et ce alors que de nombreuses entreprises prétendent que leurs modèles d’IA sont open-source sans l’être réellement, comme Llama 3,1 de Meta.
La dernière version de la définition de l’IA Open-Source de l’OSI, 0.0.9, comporte plusieurs changements importants. Ces changements sont les suivants :
1. Clarification des définitions
La définition identifie désormais clairement les modèles et les poids/paramètres comme faisant partie du « système » d’IA.
Et il insiste sur le fait que tous les composants doivent être conformes à la norme open source.
Cette clarification garantit que l’ensemble du système d’IA, et pas seulement certaines parties, adhère aux principes de l’open-source.
2. Rôle des données d’entraînement
Les données de formation sont utiles, mais ne sont pas nécessaires pour modifier les systèmes d’IA indique le document.
Cette décision reflète la complexité du partage des données, notamment en ce qui concerne les aspects juridiques et la protection de la vie privée.
Le projet classe les données d’entraînement en données ouvertes, publiques et non publiques non partageables, chacune étant assortie de lignes directrices spécifiques visant à améliorer la transparence et la compréhension des biais des systèmes d’IA.
3. Séparation de la liste de contrôle
La liste de contrôle (checklist) pour l’évaluation des licences a été séparée du document de définition principal, conformément au Model Openness Framework (MOF).
Cette séparation permet une discussion ciblée sur l’identification de l’IA open source tout en maintenant les principes généraux dans la définition.
3 niveaux d’ouverture
Comme l’a expliqué Jim Zemlin, directeur exécutif de la Fondation Linux, lors de l’Open Source Summit China, le MOF « est un moyen d’évaluer si un modèle est ouvert ou non. Il permet de classer les modèles ».
Zemlin a ajouté que le MOF comportait trois niveaux d’ouverture :
- « Le niveau le plus élevé, le niveau 1, est une définition de la science ouverte dans laquelle les données, chaque composant utilisé et toutes les instructions doivent être utilisés pour créer son propre modèle exactement de la même manière ».
- « Le niveau 2 est un sous-ensemble de ce niveau où tout n’est pas ouvert, mais la plupart des composants le sont ».
- « Au niveau 3, il y a des domaines où les données peuvent ne pas être disponibles, mais où les données qui décrivent les ensembles de données sont disponibles. Vous pouvez ainsi comprendre que, même si le modèle est ouvert, toutes les données ne sont pas disponibles ».
Ces trois niveaux – un concept qui apparaît également dans les données d’entraînement – seront difficiles à accepter pour certains puristes de l’open source.
Un consensus difficile à trouver
Des arguments concernant les modèles et les données d’apprentissage apparaîtront au fur et à mesure que le débat se poursuivra sur les systèmes d’IA et d’apprentissage automatique qui sont réellement ouverts et ceux qui ne le sont pas.
La définition de l’Open Source AI a été élaborée en collaboration avec diverses parties prenantes. Il s’agit, entre autres, de :
- Code for America
- Wikimedia Foundation
- Creative Commons
- Linux Foundation
- Microsoft
- Amazon
- Meta
- Hugging Face
- Apache Software Foundation
- L’Union internationale des télécommunications des Nations unies.
L’OSI a organisé de nombreuses réunions publiques et ateliers afin de recueillir des contributions et de s’assurer que la définition est inclusive et représentative des différents points de vue. Le processus est toujours en cours.
M. Maffulli, de l’OSI, sait que cette version préliminaire de la définition ne plaira pas à tout le monde.
Tom Callaway d’AWS, a publié sur LinkedIn : « Je suis fermement convaincu (et beaucoup d’autres dans le domaine de l’Open Source) que la définition actuelle de l’IA Open Source ne garantit pas avec précision que les systèmes d’IA préservent les droits illimités des utilisateurs de les exécuter, de les copier, de les distribuer, de les étudier, de les modifier et de les améliorer ».
Maintenant que le projet a vu le jour, je suis sûr que d’autres auront leur mot à dire. L’OSI espère présenter une version stable de la définition lors de la conférence All Things Open en octobre 2024.
Source : « ZDNet.com »