Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Dynamisk kvot är en Azure OpenAI-funktion som gör det möjligt för en standarddistribution att opportunistiskt dra nytta av mer kvot när extra kapacitet är tillgänglig. När den dynamiska kvoten är avstängd kan distributionen bearbeta ett maximalt dataflöde som har upprättats av inställningen Token per minut (TPM). När du överskrider din förinställda TPM returnerar begäranden HTTP 429-svar. När dynamisk kvot är aktiverad har driftsättningen möjlighet att komma åt högre genomströmning innan den returnerar 429 svar, vilket gör att du kan utföra fler anrop tidigare. De extra begärandena faktureras fortfarande enligt de vanliga prissättningspriserna.
Dynamisk kvot kan bara tillfälligt öka din tillgängliga kvot: den kommer aldrig att minska under det konfigurerade värdet.
När du ska använda dynamisk kvot
Dynamisk kvot är användbar i de flesta scenarier, särskilt när ditt program kan använda extra kapacitet opportunistiskt eller själva programmet driver den hastighet med vilken Azure OpenAI-API:et anropas.
En situation där man vanligtvis föredrar att undvika dynamisk kvot är när ditt program skulle ge en negativ användarupplevelse om kvoten varierar eller ökas.
För dynamisk kvot bör du överväga scenarier som:
- Massbearbetning,
- Skapa sammanfattningar eller inbäddningar för RAG (Retrieval Augmented Generation),
- Offlineanalys av loggar för generering av mått och utvärderingar,
- Lågprioriterad forskning,
- Appar som har en liten mängd allokerade kvoter.
När träder dynamisk kvot i kraft?
Azure OpenAI-serverdelen avgör om, när och hur mycket extra dynamisk kvot som läggs till eller tas bort från olika distributioner. Den är inte prognostiserad eller meddelad i förväg och är inte förutsägbar. Om du vill dra nytta av dynamisk kvot måste programkoden kunna utfärda fler begäranden eftersom HTTP 429-svar blir ovanliga. Azure OpenAI meddelar ditt program när du har nått din kvotgräns genom att svara med en HTTP 429 och inte låta fler API-anrop gå igenom.
Hur ändrar dynamisk kvot kostnader?
Anrop som görs över baskvoten har samma kostnader som vanliga anrop.
Det finns ingen extra kostnad för att aktivera dynamisk kvot för en distribution, även om det ökade dataflödet i slutändan kan leda till ökade kostnader beroende på hur mycket trafik distributionen tar emot.
Anmärkning
Med dynamisk kvot finns det ingen tvång av en "takkvot" eller genomströmning. Azure OpenAI bearbetar så många begäranden som möjligt över baslinjekvoten. Om du behöver kontrollera utgiftstakten även när kvoten är mindre begränsad måste programkoden hålla tillbaka begäranden i enlighet med detta.
Så här använder du dynamisk kvot
Om du vill använda dynamisk kvot måste du:
- Aktivera egenskapen för dynamisk kvot i Azure OpenAI-distributionen.
- Kontrollera att programmet kan dra nytta av dynamisk kvot.
Aktivera dynamisk kvot
Om du vill aktivera dynamisk kvot för distributionen kan du gå till de avancerade egenskaperna i resurskonfigurationen och aktivera den.
Du kan också aktivera det programmatiskt med Azure CLI:s az rest:
{subscriptionId}Ersätt , {resourceGroupName}, {accountName}och {deploymentName} med relevanta värden för din resurs. I det här fallet accountName är lika med Azure OpenAI-resursnamnet.
az rest --method patch --url "https://management.azure.com/subscriptions/{subscriptionId}/resourceGroups/{resourceGroupName}/providers/Microsoft.CognitiveServices/accounts/{accountName}/deployments/{deploymentName}?api-version=2023-10-01-preview" --body '{"properties": {"dynamicThrottlingEnabled": true} }'
Hur vet jag hur mycket dynamisk kvot för dataflöde som läggs till i min app?
Om du vill övervaka hur det fungerar kan du spåra programmets dataflöde i Azure Monitor. Under förhandsversionen av dynamisk kvot finns det inget specifikt mått eller logg som anger om kvoten har ökats eller minskat dynamiskt. Den dynamiska kvoten är mindre sannolik att utnyttjas för din distribution om den körs i intensivt använda regioner och under perioder med hög belastning i dessa regioner.
Nästa steg
- Läs mer om hur kvoten fungerar.
- Läs mer om övervakning av Azure OpenAI.