La dernière puce IA de Nvidia pour les centres de données peut surchauffer les serveurs. L’entreprise affirme de son côté qu’il ne se passe rien d’anormal.
En mars, Nvidia a présenté sa série de GPU Blackwell, dotés d’une puissance de calcul allant jusqu’à 20 pétaflops. L’une de ces versions combine deux GPU en une seule puce, qui peut fonctionner jusqu’à 30 fois plus vite avec les grands modèles de langage (LLM). Cela devrait garantir des réponses plus rapides et/ou une consommation d’énergie réduite.
Mais la puce a aussi des problèmes. Blackwell devait initialement sortir au deuxième trimestre de cette année (avril-juin), mais sa sortie a été reportée. En octobre, la société a annoncé avoir résolu un défaut de conception TSMC, qui produit les puces de Nvidia.
Désormais, The Information révèle que Blackwell souffre également d’un problème thermique, notamment dans les serveurs hébergeant jusqu’à 72 de ces puces dans un seul boîtier. Nvidia aurait alors demandé à plusieurs reprises à ses fournisseurs d’ajuster la conception des armoires.
“Pas anormal”
Nvidia elle-même a déclaré à Reuters qu’elle collaborait pleinement avec les fournisseurs de services cloud et que tout se passait normalement, comme prévu. Ce qui laisse penser qu’il n’est pas rare que le concept soit modifié pour éviter ce genre de problèmes.
À leur tour, les obstacles rencontrés posent également des problèmes à certains acteurs majeurs du cloud et de l’IA. En tant que fournisseur leader de puces IA, Nvidia est un partenaire crucial pour les acteurs qui cherchent actuellement à démarrer des centres de données spécifiquement dédiés à l’intelligence artificielle (Meta, Microsoft, OpenAI, Google, etc.). Tant que les puces ne seront pas disponibles, leur puissance de calcul ne pourra pas être utilisée.
Related News :