Meta présente de nouvell …

Meta présente de nouvell ...


Meta a publié quatre LLM pré-entraînés avec une méthode de prédiction multi-token sur Hugging Face mentionne VentureBeat. La technique de prédiction multi-tokens a été présentée pour la première fois dans un article publié par les chercheurs de Meta en avril. Contrairement à la formation traditionnelle de LLM, qui consiste à prédire les tokens un par un dans l’ordre, cette méthode prédit plusieurs tokens simultanément. Un token est l’unité de base des données de caractères reconnues par LLM.

En prédisant simultanément plusieurs tokens, il est possible d’acquérir une compréhension plus approfondie des relations les plus fines entre la structure linguistique et le contexte. Cela permet à l’IA de comprendre plus précisément le contenu de la langue. Et d’obtenir des résultats plus efficaces et de meilleure qualité dans des tâches comme la génération de code ou l’écriture.

Meta affirme que son approche permet non seulement d’améliorer les performances des LLM par rapport aux méthodes traditionnelles, mais aussi de réduire le temps de formation et la puissance de calcul nécessaire à l’apprentissage.

Les quatre LLM sont tous basés sur 7 milliards de paramètres, mais les nombres de jetons sont différents

Bien sûr, cette technique permettrait de réduire le coût du développement et de l’exploitation de l’IA.

Les quatre LLM publiés sur Hugging Face sont tous basés sur 7 milliards de paramètres, mais les nombres de jetons sont différents pour la comparaison des performances.

Dans le détail, les LLM 7B_200B_1 et 7B_200B_4 utilisent 200 milliards de jetons. Le modèle 7B_200B_1 est traditionnel, tandis que 7B_200B_4 utilise un modèle de prédiction à jetons multiples. Les LLM 7B_1T_1 et 7B_1T_4 utilisent 1 000 milliards de jetons, et la méthodologie est la même.

Une génération trois fois plus rapide

Meta a déclaré que les tests de performance de l’IA, les tests de référence MBPP et HumanEval, ont montré une précision supérieure de 17 % et 12 %, respectivement, et une génération trois fois plus rapide.

« Notre approche ne se contente pas d’accélérer le LLM. Elle permet également d’améliorer les performances du modèle et l’efficacité de la formation », écrivent les chercheurs de Meta dans l’article.

La nouvelle méthode d’apprentissage a le potentiel de combler le fossé entre l’IA et les humains en fournissant une compréhension plus profonde du langage qui va au-delà des simples gains d’efficacité », ajoutent-ils.



Source link

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.