C’est le secret le mieux gardé du secteur de l’intelligence artificielle (IA) dite « générative », celle des ChatGPT, Gemini, Copilot… Il ne se niche pas dans la puissance de calcul, ni dans la taille colossale (des centaines de milliards de paramètres) de ces logiciels, ni dans des codes informatiques astucieux. Ces aspects comptent bien sûr dans le succès, mais ils sont désormais plus ou moins publics.
Non, ce que les leaders du domaine, OpenAI, Anthropic, Mistral, Microsoft… n’ont encore jamais révélé, c’est leur recette pour confectionner la collection de textes qui servent à l’entraînement de leurs modèles. Ce dernier sert à ajuster les paramètres afin de prédire le mieux possible quel est le meilleur mot pour compléter une phrase. Cette ingurgitation de milliards de textes identifie des corrélations statistiques qui permettent de générer de nouveaux textes censés répondre aux questions de l’utilisateur.
L’origine de ces textes est connue, des livres dans le domaine public, des articles de recherche, Wikipédia, mais surtout des tonnes de pages Web. Cette dernière source est majoritaire et c’est la manière dont elle est traitée qui fait la différence.
« C’est le nerf de la guerre », résume Julien Launay, créateur de l’entreprise Adaptive ML et coauteur d’un corpus d’entraînement de données issues du Web, RefinedWeb, lorsqu’il travaillait chez LightOn. Il se souvient de la surprise causée par son exposé à La Nouvelle-Orléans, en Louisiane, en décembre 2022 à la conférence phare du domaine, NeurIPS. Le soin mis dans la préparation de ces données avait permis à une IA d’égaler la concurrence nourrie avec des données d’origine plus variée.
80 000 heures de calculs
Thomas Wolf, cofondateur de Hugging Face, une plate-forme franco-américaine de mise à disposition de modèles et corpus en open source, présent à cette conférence, propose à l’équipe de Julien Launay de rejoindre son entreprise.
L’un de ses membres, Guilherme Penedo, accepte, motivé par l’idée de mettre à disposition un corpus plus gros encore que RefinedWeb. « On pensait y arriver en dix jours », se souvient Thomas Wolf. Il en faudra quinze fois plus. Le 21 avril est sorti FineWeb, monstre pesant 40 téraoctets (To), riche de 15 000 milliards de tokens, des jetons de trois-quatre lettres, sorte de syllabes. Librement téléchargeable, il permet de créer de meilleurs modèles qu’avec n’importe quel autre corpus public.
Fabriquer un tel objet est ardu : 80 000 heures de calculs avec les cartes graphiques H100 de Nvidia ont été nécessaires, ce qui est comparable à ce qu’il faut pour entraîner un modèle d’IA de bonne facture. D’abord, il faut récupérer les données. Depuis 2007, une fondation met à disposition Common Crawl, une collecte, à intervalle régulier, de milliards de pages Web. Mais pour être utile aux modèles de langues, il faut extraire seulement le texte de cette masse d’information. « Ça a été l’une des étapes les plus longues du processus, peut-être 80 % du temps de calcul, que nous avons commencé en novembre 2023 », indique Guilherme Penedo. Quatre-vingt-seize paquets collectés sur une quinzaine d’années dans Common Crawl ont été utilisés pour un volume d’environ 5 354 To.
Il vous reste 48.99% de cet article à lire. La suite est réservée aux abonnés.