Les solutions d’IA générative mises à disposition par les startups et les géants du numérique sont-elles compatibles avec le respect du droit d’auteur ? Une réflexion à ce sujet est en cours en France depuis mai à l’initiative du ministère de la Culture.
Le ministère mène en parallèle d’autres travaux dans le domaine de la GenAI, comme avec le service en ligne Compar:IA.
Développé par la start-up d’État éponyme dans le cadre du programme beta.gouv.fr de la Dinum, le comparateur s’intéresse spécifiquement aux IA conversationnelles.
Des biais linguistiques et culturels dans les résultats
Encore en version Beta, Compar:IA permet à ce jour aux utilisateurs de tester les résultats et performances de 11 modèles d’IA générative, qu’ils soient propriétaires ou proposés en open source. Parmi ces LLM, figurent notamment Llama 3.1 (405B), Gemini 1.5 Pro, Mixtral 8x7B et Phi-3.5-mini.
OpenAI et ses modèles, probablement les plus utilisés à ce jour, ne sont pas de la partie. Contrairement à Google, OVhcloud, Scaleway et HuggingFace, la startup à la valorisation supérieure à 150 milliards de dollars n’apparaît pas parmi la liste des partenaires technologiques du service.
Mais pourquoi Compar:IA ? Selon le ministère de la Culture, la fourniture du comparateur s’inscrit dans une démarche visant à mesurer le respect de la diversité des cultures francophones par les modèles d’IA conversationnelle.
Le ministère souligne que ces solutions sont principalement entraînées sur des données en anglais, générant par conséquent “des biais linguistiques et culturels dans les résultats qu’ils produisent.” A la clé, des données générées parfois stéréotypées ou discriminantes.
Constituer des jeux de données d’alignement
Avec ce comparateur, le ministère de la Culture ambitionne donc de constituer des jeux de données dits d’alignement composés d’une “variété de langues, de contextes et d’exemples issus de tâches courantes des utilisateurs.”
L’alignement est présentée comme une technique de réduction des biais reposant sur la collecte des préférences d’utilisateurs. L’approche a pour but de recueillir des données qui seront dans un second temps utilisées pour entraîner les modèles.
Ce réentraînement avec des jeux de données doit in fine déboucher sur un ajustement des résultats générés par les modèles “selon les préférences exprimées par les utilisateurs.” La constitution d’un tel patrimoine de données pourrait s’avérer particulièrement utile.
Le ministère signale que “ce type de jeux de données est rare, voire inexistant pour le français et les langues de France.” Outre, l’amélioration de la qualité des modèles de langage conversationnels sur les usages francophones, le projet vise un second objectif.
L’État ambitionne aussi de “faciliter l’accès aux IA génératives et encourager l’esprit critique des utilisateurs en rendant effectif un droit au pluralisme des modèles.” Cette recherche de pluralisme est décrite comme le prolongement du principe de pluralisme effectif des algorithmes.