Serverloze GPU's gebruiken in Azure Container Apps

2025-09-25

Azure Container Apps biedt toegang tot GPU's op aanvraag zonder dat u de onderliggende infrastructuur hoeft te beheren. Als serverloze functie betaalt u alleen voor GPU's die in gebruik zijn. Wanneer deze optie is ingeschakeld, neemt het aantal GPU's dat voor uw app wordt gebruikt toe en daalt om aan de belastingseisen van uw toepassing te voldoen. Met serverloze GPU's kunt u uw workloads naadloos uitvoeren met automatisch schalen, geoptimaliseerde koude start, facturering per seconde met omlaag schalen naar nul wanneer deze niet in gebruik zijn en minder operationele overhead.

Serverless GPU's worden alleen ondersteund voor verbruiksworkloadprofielen. De functie wordt niet ondersteund voor omgevingen met alleen verbruik.

Notitie

Toegang tot GPU's is alleen beschikbaar nadat u GPU-quota hebt aangevraagd. U kunt uw GPU-quotumaanvraag indienen via een klantondersteuningsaanvraag.

Vergoedingen

Serverloze GPU's versnellen ai-ontwikkeling doordat u zich kunt richten op uw kern-AI-code en minder op het beheren van de infrastructuur bij het gebruik van GPU's. Deze functie biedt een optie in de middelste laag tussen de serverloze API's van de Azure AI-modelcatalogus en het hosten van modellen op beheerde berekeningen.

De serverloze GPU-ondersteuning voor Container Apps biedt volledige gegevensbeheer, omdat uw gegevens nooit de grenzen van uw container verlaten terwijl er nog steeds een beheerd, serverloos platform wordt geboden waaruit uw toepassingen kunnen worden gebouwd.

Wanneer u serverloze GPU's gebruikt in Container Apps, krijgen uw apps het volgende:

Schaal naar nul GPU's: ondersteuning voor automatisch serverloos schalen van NVIDIA A100 en NVIDIA T4 GPU's.
Facturering per seconde: betaal alleen voor de GPU-rekenkracht die u gebruikt.
Ingebouwd gegevensbeheer: uw gegevens verlaten nooit de containergrens.
Flexibele rekenopties: u kunt kiezen tussen de NVIDIA A100- of T4 GPU-typen.
Middenlaag voor AI-ontwikkeling: Breng uw eigen model naar een beheerd, serverloos computerplatform.

Algemene scenario's

In de volgende scenario's worden veelvoorkomende use cases voor serverloze GPU's beschreven.

Realtijd- en batch-inferencing: aangepaste open-sourcemodellen gebruiken met snelle opstarttijden, automatisch schalen en een factureringsmodel per seconde. Serverloze GPU's zijn ideaal voor dynamische toepassingen. U betaalt alleen voor het rekenproces dat u gebruikt en uw apps worden automatisch in- en uitgeschaald om aan de vraag te voldoen.
Machine learning-scenario's: Versnel aanzienlijk toepassingen die op maat gemaakte generatieve AI-modellen, deep learning, neurale netwerken of grootschalige gegevensanalyse implementeren.
High-Performance Computing (HPC): toepassingen waarvoor complexe berekeningen en simulaties nodig zijn, zoals wetenschappelijke computing, financiële modellering of weersvoorspelling, maken gebruik van GPU's als resources voor hoge rekenvereisten.
Rendering en visualisatie: toepassingen die betrekking hebben op 3D-rendering, beeldverwerking of videotranscodering gebruiken vaak GPU's om het renderingproces te versnellen en realtime visualisatie mogelijk te maken.
Big Data Analytics: GPU's kunnen gegevensverwerking en -analyse tussen enorme gegevenssets versnellen.

Overwegingen

Houd rekening met de volgende items wanneer u serverloze GPU's gebruikt:

CUDA-versie: Serverloze GPU's ondersteunen de nieuwste CUDA-versie
Ondersteuningsbeperkingen:
- Slechts één container in een app kan de GPU tegelijk gebruiken. Als u meerdere containers in een app hebt, krijgt de eerste container toegang tot de GPU.
- Meerdere apps kunnen hetzelfde GPU-workloadprofiel delen, maar elk ervan vereist een eigen replica.
- Multi- en fractionele GPU-replica's worden niet ondersteund.
- De eerste container in uw toepassing krijgt toegang tot de GPU.
IP-adressen: Verbruiks-GPU's gebruiken één IP-adres per replica wanneer u integratie met uw eigen virtuele netwerk instelt.

Ondersteunde regio’s

Serverloze GPU's zijn beschikbaar in de volgende regio's:

Regio	A100	T4
Westelijke VS 3	Ja	Ja
Westelijke VS	Ja	Nee.
Oost-Australië	Ja	Ja
Zweden - centraal	Ja	Ja
West-Europa¹	Nee.	Ja

¹ Om een serverloos T4 GPU-workloadprofiel toe te voegen in West-Europa, moet u een nieuwe omgeving voor workloadprofielen maken in de regio.

Serverloze GPU's gebruiken

Wanneer u een container-app maakt via Azure Portal, kunt u uw container instellen voor het gebruik van GPU-resources.

Stel op het tabblad Container van het maakproces de volgende instellingen in:

Schakel onder de sectie Toewijzing van containerresources het selectievakje GPU in.
Selecteer voor het GPU-type de optie NVIDIA A100 of NVIDIA T4.

Serverloze GPU-workloadprofiel beheren

Serverloze GPU's draaien op consumptiegerichte GPU-workloadprofielen. U beheert een GPU-workloadprofiel voor verbruik op dezelfde manier als elk ander workloadprofiel. U kunt uw workloadprofiel beheren met behulp van de CLI of Azure Portal.

Serverloze GPU-quotum aanvragen

Notitie

Klanten met enterprise-overeenkomsten en betalen per gebruik-klanten hebben standaard een A100- en T4-quotum ingeschakeld.

Toegang tot deze functie is alleen beschikbaar nadat u een serverloos GPU-quotum hebt. U kunt uw GPU-quotumaanvraag indienen via een klantondersteuningsaanvraag. Wanneer u een ondersteuningsaanvraag voor een GPU-quotumaanvraag opent, selecteert u het volgende:

Open het formulier Nieuwe ondersteuningsaanvraag in Azure Portal.
Voer de volgende waarden in het formulier in:

Vastgoed Waarde

Probleemtype Service - en abonnementslimieten selecteren (quota)

Subscription Selecteer uw abonnement.

Quotumtype Selecteer Container Apps.
Kies Volgende.
Selecteer In het venster Aanvullende detailsde optie Details invoeren om het venster met aanvraagdetails te openen.
Voor quotumtype selecteert u NCA100 GPU's of T4 Gpu's voor beheerde omgevingsverbruik. Voer uw extra waarden in.
Selecteer Opslaan en doorgaan.
Vul de overige relevante details in het venster Aanvullende details in.
Kies Volgende.
Klik op Creëren.

Vastgoed	Waarde
Probleemtype	Service - en abonnementslimieten selecteren (quota)
Subscription	Selecteer uw abonnement.
Quotumtype	Selecteer Container Apps.

De koude start van GPU verbeteren

U kunt de koude starttijden aanzienlijk verbeteren door artefactstreaming in te schakelen en grote bestanden, zoals grote taalmodellen, op een opslagkoppeling te plaatsen.

Artefactenstreaming: Azure Container Registry biedt streaming van images, waarmee de opstarttijden van deze images aanzienlijk kunnen worden versneld. Als u artefact-streaming wilt gebruiken, moeten uw containerafbeeldingen worden gehost in een premium Azure Container Registry.
Opslagkoppelingen: verminder de gevolgen van netwerklatentie door grote bestanden op te slaan in een Azure-opslagaccount dat is gekoppeld aan uw container-app.

Foundry-modellen implementeren op serverloze GPU's (preview)

Serverloze GPU's van Azure Container Apps bieden nu ondersteuning voor Azure AI Foundry-modellen in openbare preview. Azure AI Foundry-modellen hebben twee implementatieopties:

Serverloze API's die betalen per gebruik facturering bieden voor een aantal van de populairste modellen.
Beheerde rekenkracht waarmee u de volledige selectie van Foundry-modellen kunt implementeren met prijzen voor betalen per GPU.

Serverloze GPU van Azure Container Apps biedt een evenwichtige implementatieoptie tussen serverloze API's en beheerde rekenkracht voor het implementeren van Foundry-modellen. Deze optie is op aanvraag met serverloze schaalaanpassing die wordt ingeschaald naar nul wanneer deze niet in gebruik is en voldoet aan de behoeften van uw gegevenslocatie. Met serverloze GPU's biedt het gebruik van Foundry-modellen u flexibiliteit om elk ondersteund model uit te voeren met automatische schaalaanpassing, betalen per seconde prijzen, volledig gegevensbeheer, out-of-the-box enterprise-netwerk- en beveiligingsondersteuning.

Taalmodellen van het type MLFLOW worden ondersteund. Als u een lijst MLFLOW met modellen wilt zien, gaat u naar de lijst met modellen die beschikbaar zijn in het azureml-register. Als u de modellen wilt zoeken, voegt u een filter toe voor MLFLOW modellen met behulp van de volgende stappen:

Selecteer Filter.
Selecteer Filter toevoegen.
Voer voor de filterregel Type = MLFLOW in.

Voor modellen die hier worden vermeld in de Azure Container Apps-opslagplaats, kunt u deze rechtstreeks implementeren op serverloze GPU's zonder dat u uw eigen installatiekopieën hoeft te bouwen met behulp van de volgende CLI-opdracht:

az containerapp up \
  --name <CONTAINER_APP_NAME> \
  --location <LOCATION> \
  --resource-group <RESOURCE_GROUP_NAME> \
  --model-registry <MODEL_REGISTRY_NAME> \
  --model-name <MODEL_NAME> \
  --model-version <MODEL_VERSION>

Voor een model dat niet in deze lijst staat, moet u het volgende doen:

Download de Github-template voor het modelimage uit de Azure Container Apps-repository.
Wijzig het score.py-bestand zodat het overeenkomt met uw modeltype. Het scorescript (met de naam score.py) definieert hoe u met het model werkt. In het volgende voorbeeld ziet u hoe u een aangepast score.py-bestand gebruikt.
Bouw de image en implementeer deze naar een containerregister.
Gebruik de vorige CLI-opdracht om het model te implementeren in serverloze GPU's, maar geef het --imageop. Met behulp van de --model-registry, --model-nameen --model-version parameters worden de belangrijkste omgevingsvariabelen ingesteld voor het optimaliseren van koude start voor uw app.

Feedback verzenden

Dien een probleem in bij de GitHub-opslagplaats van Azure Container Apps.

Volgende stappen

Afbeeldingen genereren met serverloze GPU's

Feedback

Is deze pagina nuttig?