Lors de son événement Google Cloud Next 25 la semaine dernière, le géant de la recherche a dévoilé la dernière version de sa Tensor Processing Unit (TPU), sa puce conçue pour faire fonctionner l’intelligence artificielle. Et il y a du neuf.
Pour la première fois, Google positionne sa puce pour l’inférence. C’est à dire l’élaboration de prédictions pour les requêtes en direct de millions, voire de milliards d’utilisateurs. Dans le monde de l’IA, l’inférence s’oppose à l’entraînement de modèle d’IA. L’entraînement de modèle d’IA permet de son côté le développement de réseaux neuronaux effectué par des équipes de spécialistes de l’IA et de scientifiques des données.
L’Ironwood TPU, c’est le nom de la nouvelle puce, arrive à un point d’inflexion économique de l’IA. L’industrie s’attend clairement à ce que l’IA soit moins axée sur la recherche et davantage sur l’utilisation réelle des modèles d’IA par les entreprises.
Google parie que l’efficacité se déplace de la formation des modèles à l’inférence
Par ailleurs, la montée en puissance de DeepSeek AI a attiré l’attention du monde de la finance sur le coût énorme de la construction de l’IA pour Google et ses concurrents.
Surtout, l’essor des modèles d’IA « raisonnants », tels que Gemini de Google, entraîne une augmentation soudaine des calculs nécessaires pour faire des prédictions. Comme le dit Google dans sa description d’Ironwood, « le raisonnement et l’inférence en plusieurs étapes font passer la demande incrémentale de calcul – et donc le coût – du temps de formation au temps d’inférence (mise à l’échelle du temps de test) ».
Ainsi, avec Ironwood, Google parie que l’accent mis sur les performances et l’efficacité se déplace de la formation des modèles à l’inférence.
Le marché de la formation des modèles est trop petit pour Google
Google développe sa famille de puces TPU depuis plus de dix ans, à travers (déjà) désormais six générations. Mais voilà, le marché des puces pour la formation est bien plus petit que celui des puces pour l’inférence. Cela s’explique par le fait que les demandes de formation n’augmentent qu’à l’occasion de l’inauguration de chaque nouveau projet de recherche gigantesque dans le monde de la GenAI. Soit… une fois par an.
En revanche, l’inférence est censée répondre aux besoins de milliers ou de millions de clients qui souhaitent obtenir des prédictions quotidiennes à partir du réseau neuronal déjà formé. L’inférence est donc considérée comme un marché à fort volume dans le monde des puces.
Google avait précédemment fait valoir que la TPU Trillium de sixième génération, introduite l’année dernière et disponible en décembre 2024, pouvait servir à la fois de puce d’entraînement et de puce d’inférence. Mais dès la version deux de la TPU, en 2017, Google avait parlé d’une capacité combinée pour l’entraînement et l’inférence.
Google peut-il se passer d’Intel, Advanced Micro Devices et Nvidia ?
Le positionnement d’Ironwood comme étant principalement une puce d’inférence, avant tout, est une rupture.
C’est aussi un tournant qui pourrait également marquer un changement dans la volonté de Google de s’appuyer sur Intel, Advanced Micro Devices et Nvidia. Par le passé, Google avait décrit la TPU comme un investissement nécessaire pour obtenir des résultats de recherche, mais pas comme une alternative à ses fournisseurs.
Dans les opérations de cloud computing de Google, sur la base du nombre d' »instances » gérées par les clients, les puces Intel, AMD et Nvidia représentent ensemble 99 % des processeurs utilisés. Contre moins d’un pour cent pour la TPU, selon une étude de KeyBanc Capital Markets.
Google pourrait-il faire de l’ombre aux géants des puces ?
Cette dépendance à l’égard de trois fournisseurs dominants a des implications économiques pour Google et les autres géants, Microsoft et Amazon.
Les analystes boursiers de Wall Street, qui compilent les mesures des différents secteurs d’activité de Google, ont calculé la valeur économique de la TPU. Par exemple, en janvier, DA Davidson a écrit que « Google aurait généré jusqu’à 24 milliards de dollars de revenus l’année dernière s’il vendait des TPU aux clients de NVIDIA », c’est-à-dire en concurrence avec Nvidia.
À l’inverse, à l’heure où le coût de l’IA grimpe en flèche pour atteindre des projets de plusieurs centaines de milliards de dollars tels que Stargate, les analystes de Wall Street pensent que la TPU de Google pourrait permettre à l’entreprise d’économiser sur le coût de l’infrastructure de l’IA dans son cloud.
Google rémunère le fabricant de puces Broadcom pour faire ses TPU. Et l’entreprise pourrait rentabiliser cet investissement en utilisant davantage de TPU et en diminuant son utilisation de puces Intel, AMD et Nvidia pour réaliser sa propre inférence.
192 gigaoctets de mémoire DRAM
Pour justifier le choix d’Ironwood, Google met l’accent sur les avancées techniques d’Ironwood par rapport à Trillium.
Google a déclaré qu’Ironwood offre deux fois plus de « performances par watt » que Trillium, mesurées par 29,3 trillions d’opérations mathématiques en virgule flottante par seconde.
Ironwood dispose de 192 gigaoctets de mémoire DRAM, appelée HBM (mémoire à large bande passante). Soit six fois plus que Trillium. La bande passante de la mémoire transmise est 4,5 fois plus importante, soit 7,2 térabits par seconde.
Google veut « mettre à l’échelle » son infrastructure d’IA
Selon Google, ces améliorations sont censées permettre une circulation beaucoup plus importante des données à l’intérieur et à l’extérieur de la puce, ainsi qu’entre les systèmes. « Ironwood est conçu pour minimiser les mouvements de données et la latence sur la puce tout en effectuant des manipulations tensorielles massives », a déclaré Google.
Les progrès en matière de mémoire et de bande passante s’inscrivent dans le cadre de l’accent mis par Google sur la « mise à l’échelle » de son infrastructure d’IA.
La mise à l’échelle signifie que l’on peut utiliser pleinement chaque puce en regroupant des centaines ou des milliers de puces pour travailler sur un problème en parallèle. Un plus grand nombre de puces dédiées à un même problème devrait entraîner une accélération concomitante des performances.
Pathways, un code qui distribue des parties du travail de calcul de l’IA à différents ordinateurs
Là encore, la mise à l’échelle a une composante économique. En regroupant efficacement les puces, les TPU peuvent atteindre une plus grande « utilisation ». C’est-à-dire la quantité d’une ressource donnée qui est réellement utilisée par rapport à la quantité laissée inactive.
Une mise à l’échelle réussie signifie une plus grande utilisation des puces. Ce qui est une bonne chose car cela signifie moins de gaspillage d’une ressource très précieuse.
L’annonce de Google s’est accompagnée d’une annonce importante concernant un logiciel, Pathways on Cloud. Le logiciel Pathways est un code qui distribue des parties du travail de calcul de l’IA à différents ordinateurs. Il a été utilisé en interne par Google et est maintenant mis à la disposition du public.