Les grands modèles de langage ont pris d’assaut le monde de la technologie. Ils alimentent désormais des outils d’IA – comme ChatGPT et d’autres modèles conversationnels – qui peuvent résoudre des problèmes, répondre à des questions, faire des prédictions et plus encore. Cependant, l’utilisation de ces outils s’accompagne de risques importants : ils sont connus pour faire des déclarations plausibles mais fausses, générer du contenu toxique ou encore imiter les préjugés ancrés dans les données d’entraînement de l’IA.
Pour aider les chercheurs à résoudre ces problèmes, Meta a annoncé vendredi dernier la sortie d’un nouveau modèle de langage de grande taille appelé LLaMA (Large Language Model Meta AI). La société le met à disposition sous une licence non commerciale axée sur les cas d’utilisation pour la recherche, et prévoit d’accorder l’accès au cas par cas. Il sera accessible aux chercheurs universitaires, aux personnes affiliées à des organisations gouvernementales, à la société civile et au monde universitaire, ainsi qu’aux laboratoires de recherche industriels du monde entier.
Ce qui est intéressant avec LLaMA, c’est qu’il est relativement petit.
Meta a utilisé des « tokens »
Comme son nom l’indique, les grands modèles de langage sont plutôt gros. Il faut d’énormes quantités de données sur le langage (qu’il s’agisse du langage parlé, du code informatique, des données génétiques ou d’autres « langues ») pour créer un modèle d’IA suffisamment sophistiqué pour résoudre des problèmes dans cette langue, trouver des réponses ou générer ses propres compositions.
« L’entraînement de modèles de base plus petits comme LLaMA est souhaitable pour de grands modèles de langage, car il nécessite beaucoup moins de puissance de calcul et de ressources pour tester de nouvelles approches, valider le travail des autres et explorer de nouveaux cas d’utilisation », a noté Meta.
Pour former un LLM relativement « petit », Meta a utilisé des « tokens » – des morceaux de mots, plutôt que des mots entiers. Meta a entraîné LLaMA sur des textes provenant de 20 langues comptant le plus grand nombre de locuteurs, en se concentrant sur celles dont l’alphabet est latin ou cyrillique.
Plusieurs tailles disponibles
LLaMA est en fait une collection de modèles, allant de 7 à 65 milliards de paramètres. LLaMA 65B et LLaMA 33B ont été entraînés avec 1,4 billion de tokens, tandis que le plus petit modèle, LLaMA 7B, a été entraîné sur un billion de tokens. Les modèles ont été entraînés en utilisant uniquement des jeux de données accessibles au public.
Bien qu’ils soient petits, les modèles LLaMA sont puissants. Meta a déclaré que LLaMA-13B surpasse GPT-3 (175B) sur la plupart des benchmarks, tandis que LLaMA-65B est compétitif avec les meilleurs modèles, Chinchilla70B et PaLM-540B.
LLaMA est également précieux en tant qu’ensemble de modèles de base. Les modèles de base sont formés sur des données non étiquetées, ce qui signifie qu’ils peuvent être adaptés à un large éventail de cas d’utilisation.
Meta rendra LLaMA disponible en plusieurs tailles (7B, 13B, 33B, et 65B paramètres) et partage également un modèle LLAMA, card qui détaille la façon dont le modèle a été construit. La société fournit également un ensemble d’évaluations sur des benchmarks évaluant les biais et la toxicité du modèle, afin que les chercheurs puissent comprendre les limites de LLaMA et faire avancer la recherche dans ces domaines.
Source : ZDNet.com
(function(d, s, id) { var js, fjs = d.getElementsByTagName(s)[0]; if (d.getElementById(id)) return; js = d.createElement(s); js.id = id; js.src = "//connect.facebook.net/fr_FR/all.js#appId=243265768935&xfbml=1"; fjs.parentNode.insertBefore(js, fjs); }(document, 'script', 'facebook-jssdk'));