Lors de sa conférence annuelle re:Invent qui se tient cette semaine à Las Vegas, le service de cloud computing Amazon Web Services (AWS ) a dévoilé la troisième génération de son processeur Trainium pour la formation de grands modèles de langage (LLM) et d’autres formes d’intelligence artificielle (IA).
La nouvelle puce Trainium3, qui sera disponible l’année prochaine, sera jusqu’à deux fois plus rapide que la Trainium2 tout en étant 40 % plus économe en énergie, a déclaré le PDG d’AWS Matt Garman. Trainum3 est la première puce d’AWS à utiliser un processus de gravure de trois nanomètres.
Les processeurs Trainium2 sont disponibles
En attendant, les puces Trainium2 dévoilées il y a un an sont désormais disponibles. Elles sont quatre fois plus rapides que la génération précédente et orientées vers la formation LLM. Matt Garman a mis l’accent sur les performances avec le modèle open source Llama de Meta Platforms.
« Des tests de performances d’inférence indépendants pour Llama 405B de Meta ont montré qu’Amazon Bedrock, exécuté sur des instances Trn2, offre un débit de génération de jetons plus de trois fois supérieur à celui des autres offres disponibles chez les principaux fournisseurs de cloud », indique AWS.
Amazon a également annoncé UltraServers, une nouvelle offre pour le service Elastic Compute Cloud d’AWS qui connecte 64 des puces Trainium2 « en un seul serveur géant », en utilisant les interconnexions NeuronLink. Les serveurs sont disponibles dès maintenant sur EC2.
L’UltraServer est conçu pour gérer des LLM avec des milliards de paramètres. Pour faciliter le développement des composants Trainium, AWS a déployé un kit logiciel, connu sous le nom de Neuron, qui comprend un compilateur, des bibliothèques d’exécution et des outils optimisés. Neuron prend en charge nativement les « frameworks populaires » en IA tels que JAX et PyTorch, et « plus de 100 000 modèles sur le hub de modèles Hugging Face ».
Un UltraCluster co-développé avec Anthropic
Matt Garman a également donné un aperçu des développements futurs. Les nouvelles versions des UltraServers fonctionnant sous Trainium3 devraient être quatre fois « plus performantes » que les UltraServers basés sur Trainium2, « permettant aux clients d’itérer encore plus rapidement lors de la création de modèles et de fournir des performances en temps réel supérieures lors de leur déploiement ».
AWS a évoqué le Projet Rainier, un « UltraCluster » regroupant de nombreux UltraServers pour permettre l’accès à « des centaines de milliers de puces Trainium2 ». Cet UltraCluster est développé en partenariat avec Anthropic.