Dela via


Konfigurera GPU-övervakning med Container Insights och/eller Managed Prometheus

Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:

Kommentar

Om du använder Nvidia DCGM-exportör kan du aktivera GPU-övervakning med Managed Prometheus och Managed Grafana. Mer information om konfiguration och instruktioner finns i Aktivera GPU-övervakning med Nvidia DCGM-exportör.

Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .

Försiktighet

Den här metoden rekommenderas inte längre för insamling av GPU-mått.

Kommentar

När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt vad som krävs av Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.

Måttnamn Måttdimension (taggar) beskrivning
begränsningar för container-GPU container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpuFörfrågningar container.azm.ms/clusterId, container.azm.ms/clusterName, containerName Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
nodeGpuAllocatable container.azm.ms/clusterId, container.azm.ms/clusterName, GPU-leverantör Antal GPU:er i en nod som kan användas av Kubernetes.
nodensGpuKapacitet container.azm.ms/clusterId, container.azm.ms/clusterName, GPU-leverantör Totalt antal GPU:er i en nod.

Prestandadiagram för GPU

Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för Container Insights finns i Arbetsböcker i Container Insights.

Nästa steg