Ce que le plugin Nvidia Device peut faire pour l’apprentissage automatique

L’IA générative est actuellement en plein essor. Pour la Cloud Native Computing Foundation, Kubernetes est un choix naturel. Il est toujours nécessaire d’ajouter le dernier NVIDIA Device Plugin pour Kubernetes. Explications.

Les GPU sont devenus le matériel de choix pour accélérer les tâches d’apprentissage automatique. Dans le domaine, la plateforme CUDA de NVIDIA s’est imposée comme le framework dominant pour le calcul GPU.

La Cloud Native Computing Foundation reconnaît cependant que l’orchestration des charges de travail accélérées par GPU dans les environnements Kubernetes présente de nombreux défis. Et c’est là que le NVIDIA Device Plugin entre en jeu.

Avec le NVIDIA Device Plugin pour Kubernetes, disponible en open Source sous licence Apache, les développeurs et les data scientists peuvent se concentrer sur la création et le déploiement de leurs modèles sans se soucier de l’infrastructure sous-jacente. Ce dernier s’intègre parfaitement à Kubernetes.

Comment ça fonctionne ?

Le NVIDIA Device Plugin est un Daemonet Kubernetes qui simplifiera la gestion des ressources GPU dans un cluster. Sa fonction principale est exposer automatiquement le nombre de GPU sur chaque nœudles rendant détectables et attribuables par le planificateur Kubernetes.

Cela permet aux pods de demander et de consommer des ressources GPU de la même manière que le CPU et la mémoire. Sous le capot, le plugin communique avec le kubelet sur chaque nœud, fournissant des informations sur les GPU disponibles et leurs capacités. Il surveille également la santé des GPU, s’assure qu’ils fonctionnent de manière optimale et signale tout problème à Kubernetes.

Conditions préalables et installation

Certains prérequis doivent être remplis : vos nœuds GPU doivent disposer des pilotes NVIDIA nécessaires (version ~= 384.81), vous devrez installer nvidia-container-toolkit (version >= 1.7.0) sur chaque nœud GPU et configurer le nvidia-container – runtime comme runtime par défaut pour Docker ou containersd, le tout avec une version de Kubernetes 1.10 minimum. Si vous utilisez AWS EKS par exemple, ces éléments seront traités par défaut lors de l’utilisation de nœuds GPU.

L’installation complète est décrite dans cet article (en anglais).