Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här artikeln innehåller en snabbreferens och detaljerad beskrivning av kvoter och gränser för Azure AI Foundry Models. Kvoter och gränser som är specifika för Azure OpenAI i Foundry Models finns i Kvot och gränser i Azure OpenAI.
Referens för kvoter och gränser
Azure använder kvoter och gränser för att förhindra budgetöverskridanden på grund av bedrägerier och för att uppfylla Begränsningar för Azure-kapacitet. Överväg dessa begränsningar när du skalar för produktionsarbetsbelastningar. Följande avsnitt innehåller en snabbguide till de standardkvoter och gränser som gäller för Azure AI-modellinferenstjänsten i Azure AI Foundry:
Resursbegränsningar
| Gränsnamn | Gränsvärde |
|---|---|
| Azure AI Foundry-resurser per region per Azure-abonnemang | 100 |
| Maximalt antal projekt per resurs | 250 |
| Maximalt antal distributioner per resurs | 32 |
Hastighetsbegränsningar
I följande tabell visas begränsningar för Foundry Models för följande priser:
- Tokener per minut
- Antal begäranden per minut
- Samtidig begäran
| Models | Tokener per minut | Antal begäranden per minut | Samtidiga begäranden |
|---|---|---|---|
| Azure OpenAI-modeller | Varierar per modell och SKU. Se gränser för Azure OpenAI. | Varierar per modell och SKU. Se gränser för Azure OpenAI. | inte tillämpligt |
| - DeepSeek-R1 - DeepSeek-V3-0324 |
5,000,000 | 5 000 | 300 |
| - Llama 3.3 70B Instruera - Llama-4-Maverick-17B-128E-Instruct-FP8 - Grok 3 - Grok 3 mini |
400,000 | 1 000 | 300 |
| - Flux-Pro 1.1 - Flux.1-Kontext Pro |
inte tillämpligt | 2 kapacitetsenheter (6 begäranden per minut) | inte tillämpligt |
| Övriga modeller | 400,000 | 1 000 | 300 |
Så här ökar du kvoten:
- För Azure OpenAI använder du Azure AI Foundry Service: Begäran om kvotökning för att skicka din begäran.
- För andra modeller, se begäranden ökar till standardgränserna.
På grund av hög efterfrågan utvärderar vi begäranden om gränsökning per begäran.
Andra gränser
| Gränsnamn | Gränsvärde |
|---|---|
| Maximalt antal anpassade rubriker i API-begäranden1 | 10 |
1 Våra aktuella API:er tillåter upp till 10 anpassade huvuden, som pipelinen passerar genom och returnerar. Om du överskrider det här antalet huvuden resulterar din begäran i ett HTTP 431-fel. Du kan lösa det här felet genom att minska rubrikvolymen. Framtida API-versioner skickas inte via anpassade rubriker. Vi rekommenderar att du inte är beroende av anpassade rubriker i framtida systemarkitekturer.
Användningsnivåer
Global Standard-distributioner använder Azures globala infrastruktur för att dynamiskt dirigera kundtrafik till datacentret med bästa tillgänglighet för kundens slutsatsdragningsbegäranden. Den här infrastrukturen möjliggör mer konsekvent svarstid för kunder med låg till medelhög trafiknivå. Kunder med hög ihållande användningsnivå kan se fler variabiliteter i svarsfördröjningen.
Användningsgränsen avgör vid vilken användningsnivå kunderna kan uppleva större variabilitet i svarsfördröjningen. En kunds användning definieras per modell och är det totala antalet token som förbrukas i alla distributioner i alla prenumerationer i alla regioner för en viss klientorganisation.
Begär ökning av standardgränserna
Begäranden om kvotökning kan skickas via formuläret för begäran om kvotökning. På grund av hög efterfrågan godkänns begäranden om kvotökning och fylls i i den ordning de tas emot. Prioritet ges till kunder som genererar trafik som förbrukar den befintliga kvotallokeringen. Din begäran kan nekas om det här villkoret inte uppfylls.
Du kan skicka en tjänstbegäran för andra hastighetsgränser.
Allmänna metodtips för att hålla sig inom hastighetsgränser
Använd följande tekniker för att minimera problem som rör hastighetsbegränsningar:
- Implementera logik för omprövning i ditt program.
- Undvik stora plötsliga ändringar i arbetsbelastningen. Öka arbetsbelastningen gradvis.
- Testa olika mönster för att öka belastningen.
- Öka kvoten som tilldelats din distribution. Flytta kvoten från en annan utplacering vid behov.
Nästa steg
- Läs mer om de modeller som är tillgängliga i Azure AI Foundry Models