Konfigurera GPU-övervakning med Container Insights och/eller Managed Prometheus

2025-06-19

Container insights stöder övervakning av GPU-kluster från följande GPU-leverantörer:

NVIDIA
AMD

Kommentar

Om du använder Nvidia DCGM-exportör kan du aktivera GPU-övervakning med Managed Prometheus och Managed Grafana. Mer information om konfiguration och instruktioner finns i Aktivera GPU-övervakning med Nvidia DCGM-exportör.

Containerinsikter börjar automatiskt övervaka GPU-användning på noder och GPU som begär poddar och arbetsbelastningar genom att samla in följande mått med 60 sekunders intervall och lagra dem i tabellen InsightMetrics .

Försiktighet

Den här metoden rekommenderas inte längre för insamling av GPU-mått.

Kommentar

När du har etablerat kluster med GPU-noder kontrollerar du att GPU-drivrutinen är installerad enligt vad som krävs av Azure Kubernetes Service (AKS) för att köra GPU-arbetsbelastningar. Containerinsikter samlar in GPU-mått via GPU-drivrutinspoddar som körs i noden.

Måttnamn	Måttdimension (taggar)	beskrivning
begränsningar för container-GPU	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Varje container kan ange gränser som en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
containerGpuFörfrågningar	container.azm.ms/clusterId, container.azm.ms/clusterName, containerName	Varje container kan begära en eller flera GPU:er. Det går inte att begära eller begränsa en bråkdel av en GPU.
nodeGpuAllocatable	container.azm.ms/clusterId, container.azm.ms/clusterName, GPU-leverantör	Antal GPU:er i en nod som kan användas av Kubernetes.
nodensGpuKapacitet	container.azm.ms/clusterId, container.azm.ms/clusterName, GPU-leverantör	Totalt antal GPU:er i en nod.

Prestandadiagram för GPU

Containerinsikter innehåller förkonfigurerade diagram för måtten som angavs tidigare i tabellen som en GPU-arbetsbok för varje kluster. En beskrivning av de arbetsböcker som är tillgängliga för Container Insights finns i Arbetsböcker i Container Insights.

Nästa steg

Se Använda GPU:er för beräkningsintensiva arbetsbelastningar i Azure Kubernetes Service för att lära dig hur du distribuerar ett AKS-kluster som innehåller GPU-aktiverade noder.
Läs mer om GPU-optimerade VM-SKU:er i Azure.
Granska GPU-stöd i Kubernetes för att lära dig mer om kubernetes experimentellt stöd för hantering av GPU:er över en eller flera noder i ett kluster.

Feedback

Var den här sidan till hjälp?

Dela via

Konfigurera GPU-övervakning med Container Insights och/eller Managed Prometheus

Prestandadiagram för GPU

Nästa steg

Feedback

Ytterligare resurser