l’intelligence artificielle qui gère 46 langues

l'intelligence artificielle qui gère 46 langues


Le projet BigScience a été initié par l’entreprise Hugging Face. Elle est soutenue par le CNRS, le GENCI et le ministère de l’Éducation supérieure et de la Recherche. Bloom est une intelligence artificielle qui apprend à partir de grand corpus de textes et qui a pour but initial de générer du texte (complétions d’énoncés). Chaque prédiction du modèle est comparée avec le mot correct permettant d’ajuster les paramètres internes du modèle.

Bloom, pour BigScience Large Open-science Open-access Multilingual Language Model, possède 70 couches de neurones, 112 têtes d’attention et permet d’apprendre en évaluant des milliards de mots conduisant à un modèle de 176 milliards de paramètres. Cet apprentissage a été effectué sur plusieurs mois sur un supercalculateur (Jean Zay) nécessitant plusieurs centaines de processeurs graphiques tournant en parallèle, soit 5 millions d’heures de calcul.

Comme déjà indiqué, l’innovation chez Bloom est le fait qu’il peut analyser 46 langues différentes que ce soit sur une base littéraire, scientifiques ou encore sportive. Il peut même lire du code informatique (13 langages de programmation pour le moment). Une autre particularité est que le programme est entièrement disponible en open science afin de faciliter la recherche sur les modèles de langue.

Ce graphisme indique les langues utilisées pour l’entraînement de Bloom.

Thomas Wolf, co-fondateur et directeur scientifique de la start-up Hugging Face, indique, « La création du modèle Bloom et le succès de la collaboration de recherche BigScience montrent qu’une autre manière de créer, étudier et partager les innovations en IA est possible, rassemblant industriels, académiques et associations autour d’un projet international, multidisciplinaire et d’accès ouvert. Je suis ravi que Hugging Face ait pu trouver en France les soutiens nécessaires pour cette démarche inédite à l’échelle mondiale ».



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.