A force de montrer leurs capacités à coups d’images inventées ou de conversations virtuelles, les technologies d’intelligence artificielle (IA) contemporaines finissent par se faire remarquer aussi sur le front de l’environnement. Ces bêtes de course informatiques sont aussi des gourmandes en énergie, notamment à cause d’une propension à grossir énormément en taille. « Il y a déjà eu deux ruptures des pentes de croissance. A partir de 2012, avec l’arrivée de l’apprentissage profond, puis en 2017 et l’avènement des grands modèles de langue dont le nombre de paramètres dépasse la centaine de milliards », résume Anne-Laure Ligozat, professeure à l’Ecole nationale supérieure d’informatique pour l’industrie et l’entreprise (Ensiie), à Evry-Courcouronnes (Essonne).
Mais ce n’est qu’en 2019 qu’une étude a quantifié pour la première fois les effets de cette hausse. Emma Strubell, de l’université du Massachusetts à Amherst, estime que le modèle de traitement du langage naturel le plus fréquent d’alors, BERT, a mobilisé 256 kilogrammes d’équivalent CO2 pour être élaboré, soit l’équivalent d’un aller Paris-Hongkong en avion.
Ça ne s’est pas arrangé. Anne-Laure Ligozat a ainsi évalué, dans une prépublication de novembre 2022, que l’apprentissage du modèle international baptisé Bloom sur les supercalculateurs du Grand Equipement national de calcul intensif (Genci) a nécessité 24,4 tonnes de CO2 (pour 118 jours de calculs), soit cent fois plus…
Mais ces chiffres sont sous-estimés. Ou plus exactement ils oublient moult gros « détails ». Par exemple, les centres de données consomment aussi, même quand aucun calcul n’est effectué. Et presque autant qu’en fonctionnement opérationnel. En outre, il a fallu fabriquer tous ces composants, ce qui a aussi un effet sur l’environnement. Au total, estime la chercheuse, on serait au-delà des 50 tonnes, le double de la première estimation, soit presque cinquante fois le tour de la Terre en avion.
Des connaissances lacunaires
Et encore, cela n’est qu’une estimation puisque, comme l’explique la professeure en informatique, plusieurs données sont manquantes ou imprécises. Ainsi, certains équipements, comme des climatisations ou des onduleurs, pour corriger les défauts des alimentations électriques, sont absents des bases de données permettant d’estimer l’empreinte carbone de leur fabrication, car ce sont des pièces quasi uniques. Pour d’autres, les constructeurs ne fournissent pas les données.
Autre bémol, ces calculs ne correspondent qu’à une partie du sujet. Ces modèles de langue doivent servir à quelque chose, par exemple faire des agents de conversation comme ChatGPT, ce qui va susciter aussi beaucoup de requêtes et de calculs. Ce que l’on appelle l’inférence peut peser autant que l’apprentissage. Pour Bloom, déjà cité, sur dix-huit jours à raison de 558 requêtes par jour en moyenne, la consommation a été équivalente à 19 kilogrammes de CO2 par jour.
Il vous reste 41.07% de cet article à lire. La suite est réservée aux abonnés.