Dela via


Kvoter och gränser för Azure AI Foundry Models

Den här artikeln innehåller en snabbreferens och detaljerad beskrivning av kvoter och gränser för Azure AI Foundry Models. Kvoter och gränser som är specifika för Azure OpenAI i Foundry Models finns i Kvot och gränser i Azure OpenAI.

Referens för kvoter och gränser

Azure använder kvoter och gränser för att förhindra budgetöverskridanden på grund av bedrägerier och för att uppfylla Begränsningar för Azure-kapacitet. Överväg dessa begränsningar när du skalar för produktionsarbetsbelastningar. Följande avsnitt innehåller en snabbguide till de standardkvoter och gränser som gäller för Azure AI-modellinferenstjänsten i Azure AI Foundry:

Resursbegränsningar

Gränsnamn Gränsvärde
Azure AI Foundry-resurser per region per Azure-abonnemang 100
Maximalt antal projekt per resurs 250
Maximalt antal distributioner per resurs 32

Hastighetsbegränsningar

I följande tabell visas begränsningar för Foundry Models för följande priser:

  • Tokener per minut
  • Antal begäranden per minut
  • Samtidig begäran
Models Tokener per minut Antal begäranden per minut Samtidiga begäranden
Azure OpenAI-modeller Varierar per modell och SKU. Se gränser för Azure OpenAI. Varierar per modell och SKU. Se gränser för Azure OpenAI. inte tillämpligt
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5 000 300
- Llama 3.3 70B Instruera
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1 000 300
- Flux-Pro 1.1
- Flux.1-Kontext Pro
inte tillämpligt 2 kapacitetsenheter (6 begäranden per minut) inte tillämpligt
Övriga modeller 400,000 1 000 300

Så här ökar du kvoten:

På grund av hög efterfrågan utvärderar vi begäranden om gränsökning per begäran.

Andra gränser

Gränsnamn Gränsvärde
Maximalt antal anpassade rubriker i API-begäranden1 10

1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden, som pipelinen passerar genom och returnerar. Om du överskrider det här antalet huvuden resulterar din begäran i ett HTTP 431-fel. Du kan lösa det här felet genom att minska rubrikvolymen. Framtida API-versioner skickas inte via anpassade rubriker. Vi rekommenderar att du inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Användningsnivåer

Global Standard-distributioner använder Azures globala infrastruktur för att dynamiskt dirigera kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Den här infrastrukturen möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se fler variabiliteter i svarsfördröjningen.

Användningsgränsen avgör vid vilken användningsnivå kunderna kan uppleva större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

Begär ökning av standardgränserna

Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen. Din begäran kan nekas om det här villkoret inte uppfylls.

Du kan skicka en tjänstbegäran för andra hastighetsgränser.

Allmänna metodtips för att hålla sig inom hastighetsgränser

Använd följande tekniker för att minimera problem som rör hastighetsbegränsningar:

  • Implementera logik för omprövning i ditt program.
  • Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
  • Testa olika mönster för att öka belastningen.
  • Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.

Nästa steg