trop puissant, trop chaud dans les serveurs ?

Les accélérateurs graphique Hopper ont fait le succès de Nvidia ces dernières années, lui permettant, avec l’essor de l’intelligence artificielle, de devenir la première capitalisation mondiale, devant Apple.

Pour prolonger le succès et ne pas laisser la concurrence la rattraper, la firme mise sur sa nouvelle architecture Blackwell encore plus performante. Annoncée en début d’année, elle devait commencer à être commercialisée sur le second semestre mais un problème de design l’a repoussée sur les derniers mois de l’année.

Alors que le départ est enfin donné pour les composants Blackwell professionnels, en attendant les premières cartes graphiques gaming utilisant la même architecture en début d’année prochaine, les premiers retours d’utilisation émergent.

Ca chauffe pour Blackwell

Et selon The Information, un problème serait rapidement apparu : les serveurs qui les équipent tendent à surchauffer sur les grosses configurations reliant jusqu’à 72 GPU Blackwell.

Le problème serait connu et Nvidia aurait demandé à plusieurs reprises aux concepteurs de serveurs de modifier leurs designs en conséquence, apparemment sans parvenir à résoudre totalement cette difficulté.

Les clients s’inquièteraient donc des délais de mise en place de datacenters IA dotés des composants Blackwell et qui doit pousser les capacités des intelligences artificielles génératives plus avant.

Simple réglage à faire ou vrai problème ?

A Reuters, Nvidia indique que l’arrivée d’une nouvelle génération de composants implique généralement des ajustements au lancement et qu’il s’agit d’un processus normal dans le cycle de commercialisation du produit.

Nvidia Grace (ARM) Blackwell

A voir si de nouveaux retards potentiels freineront les projets de gros clients comme Google, Meta ou Microsoft qui ont déjà dû patienter plusieurs mois , le temps de régler le problème initial de design.

Pour le moment, il n’est pas sûr que cet enchaînement de retards profite à d’autres, comme AMD ou Intel. Mais Nvidia devra aussi composer avec des puces IA développées en interne.

Le groupe Amazon a par exemple commencé à mettre en avant ses propres composants Trainium2 avec des offres calibrées en cherchant à réduire sa dépendance à Nvidia.

Source link

Ca chauffe pour Blackwell

Simple réglage à faire ou vrai problème ?

Laisser un commentaire Annuler la réponse