Kvoter och gränser för Azure AI Foundry Models

2025-09-23

Den här artikeln innehåller en snabbreferens och detaljerad beskrivning av kvoter och gränser för Azure AI Foundry Models. Kvoter och gränser som är specifika för Azure OpenAI i Foundry Models finns i Kvot och gränser i Azure OpenAI.

Referens för kvoter och gränser

Azure använder kvoter och gränser för att förhindra budgetöverskridanden på grund av bedrägerier och för att uppfylla Begränsningar för Azure-kapacitet. Överväg dessa begränsningar när du skalar för produktionsarbetsbelastningar. Följande avsnitt innehåller en snabbguide till de standardkvoter och gränser som gäller för Azure AI-modellinferenstjänsten i Azure AI Foundry:

Resursbegränsningar

Gränsnamn	Gränsvärde
Azure AI Foundry-resurser per region per Azure-abonnemang	100
Maximalt antal projekt per resurs	250
Maximalt antal distributioner per resurs	32

Hastighetsbegränsningar

I följande tabell visas begränsningar för Foundry Models för följande priser:

Tokener per minut
Antal begäranden per minut
Samtidig begäran

Models	Tokener per minut	Antal begäranden per minut	Samtidiga begäranden
Azure OpenAI-modeller	Varierar per modell och SKU. Se gränser för Azure OpenAI.	Varierar per modell och SKU. Se gränser för Azure OpenAI.	inte tillämpligt
- DeepSeek-R1 - DeepSeek-V3-0324	5,000,000	5 000	300
- Llama 3.3 70B Instruera - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini	400,000	1 000	300
- Flux-Pro 1.1 - Flux.1-Kontext Pro	inte tillämpligt	2 kapacitetsenheter (6 begäranden per minut)	inte tillämpligt
Övriga modeller	400,000	1 000	300

Så här ökar du kvoten:

För Azure OpenAI använder du Azure AI Foundry Service: Begäran om kvotökning för att skicka din begäran.
För andra modeller, se begäranden ökar till standardgränserna.

På grund av hög efterfrågan utvärderar vi begäranden om gränsökning per begäran.

Andra gränser

Gränsnamn	Gränsvärde
Maximalt antal anpassade rubriker i API-begäranden¹	10

¹ Våra aktuella API:er tillåter upp till 10 anpassade huvuden, som pipelinen passerar genom och returnerar. Om du överskrider det här antalet huvuden resulterar din begäran i ett HTTP 431-fel. Du kan lösa det här felet genom att minska rubrikvolymen. Framtida API-versioner skickas inte via anpassade rubriker. Vi rekommenderar att du inte är beroende av anpassade rubriker i framtida systemarkitekturer.

Användningsnivåer

Global Standard-distributioner använder Azures globala infrastruktur för att dynamiskt dirigera kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Den här infrastrukturen möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se fler variabiliteter i svarsfördröjningen.

Användningsgränsen avgör vid vilken användningsnivå kunderna kan uppleva större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.

Begär ökning av standardgränserna

Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen. Din begäran kan nekas om det här villkoret inte uppfylls.

Du kan skicka en tjänstbegäran för andra hastighetsgränser.

Allmänna metodtips för att hålla sig inom hastighetsgränser

Använd följande tekniker för att minimera problem som rör hastighetsbegränsningar:

Implementera logik för omprövning i ditt program.
Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
Testa olika mönster för att öka belastningen.
Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.

Nästa steg

Läs mer om de modeller som är tillgängliga i Azure AI Foundry Models

Feedback

Var den här sidan till hjälp?