Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Använd den här artikeln om du vill lära dig mer om att beräkna och förstå kostnader som är associerade med PTU. En översikt över erbjudandet för etablerat dataflöde finns i Vad är etablerat dataflöde?. När du är redo att registrera dig för erbjudandet för reserverad genomströmning kan du läsa kom-igång-guiden.
Anmärkning
I användningsfall för funktionsanrop och agent kan tokenanvändning vara variabel. Du bör förstå din förväntade TPM-användning (Token per minut) i detalj innan du migrerar arbetsbelastningar till PTU.
Etablerade dataflödesenheter
Etablerade dataflödesenheter (PTUs) är generiska enheter för modellbearbetningskapacitet som du kan använda för att storleksanpassa etablerade distributioner för att uppnå det dataflöde som krävs för bearbetning av frågor och generering av slutföranden. Etablerade dataflödesenheter beviljas till en prenumeration som kvot. Varje kvot är specifik för en region och definierar det maximala antalet PTU:er som kan tilldelas till distributioner i den prenumerationen och regionen.
Förstå fakturering av tilldelad genomströmning
Azure AI Foundry Regional Provisioned Throughput, Data Zone Provisioned Throughput och Global Provisioned Throughput faktureras per timme baserat på antalet distribuerade PTU:er, med betydande termrabatt tillgänglig via köp av Azure-reservationer.
Faktureringsmodellen per timme är användbar för kortsiktiga distributionsbehov, till exempel validering av nya modeller eller förvärv av kapacitet för ett hackathon. Rabatterna som tillhandahålls av Azure-reservationen för Azure AI Foundry Regional Provisioned, Data Zone Provisioned och Global Provisioned är dock betydande och de flesta kunder med konsekvent långsiktig användning kommer att hitta en reserverad modell som är ett bättre värdeförslag.
Azure-reservationer är en ekonomisk rabattmekanism som tillämpas på faktureringssystem, inte på serviceinteraktioner (som distribution). Reservationer och distributioner är löst kopplade för att ge flexibilitet. Du skapar eller tar bort distributioner och reservationer oberoende av varandra. Med den här metoden kan du ändra resurser, prenumerationer eller distributioner utan att ändra faktureringskonstruktionen.
Rekommenderad åtgärdsordning för att undvika oönskade avgifter:
- Använd Azure AI Foundry för att distribuera din modell i en region med tillgänglig kvot. Det här steget bekräftar att kapaciteten finns, eftersom kvoten inte är lika med kapaciteten.
- Efter distributionen delar du distributionsinformation, inklusive distributionstyp (Global Provisioned, Data Zone Provisioned eller Regional Provisioned), region och prenumeration med din administratör.
- Administratören använder den här informationen för att antingen köpa en ny reservation som matchar distributionsinformationen eller verifiera att en befintlig reservation matchar för att få det rabatterade priset.
Anmärkning
Azure AI Foundry-etablerade kunder som registrerades före självbetjäningsuppdateringen i augusti använder en inköpsmodell som kallas åtagandemodellen. Dessa kunder kan fortsätta att använda den här äldre köpmodellen tillsammans med timmodellen/reservationsmodellen. Åtagandemodellen är inte tillgänglig för nya kunder eller vissa nya modeller som introducerades efter augusti 2024. Mer information om köpmodellen för åtagande och alternativ för samexistens och migrering finns i Azure AI Foundry Provisioned August Update.
Modelloberoende kvot
Till skillnad från den TPM-kvot (Token per minut) som används av andra Azure AI Foundry-erbjudanden är PTU:er modelloberoende. PTU:erna kan användas för att distribuera modeller som stöds och säljas direkt av Microsoft i regionen.
Kvoten för tilldelade distributioner visas i Azure AI Foundry som följande distributionstyper: global tilldelad, tilldelad datazon och regional tilldelad.
Anmärkning
Kvoten garanterar inte kapacitet. Distribuera din modell i Azure AI Foundry innan du köper en matchande reservation i Azure-portalen.
| distributionstyp | Kvotnamn |
|---|---|
| Regional tillhandahållen | Regional enhet för provisionerad genomströmning |
| Global provisionerad | Global tilldelad genomströmningsenhet |
| Etablerad datazon | Datazon tilldelad genomströmningsenhet |
Förbrukning varje timme
Regionalt tilldelade, datazonstilldelade och globalt tilldelade distributioner debiteras en timtaxa ($/PTU/hr) för antalet distribuerade PTU:er. Till exempel debiteras en 300 PTU-distribution timpriset gånger 300. Alla priser för Azure AI Foundry-modellen är tillgängliga i Priskalkylatorn för Azure.
Om det finns en distribution under en partiell timme får den en proportionell avgift baserat på antalet minuter som den distribuerades under timmen. Till exempel får en driftsättning som varar i 15 minuter under en timme en fjärdedel av timavgiften.
Om distributionsstorleken ändras justeras kostnaderna för distributionen så att de matchar det nya antalet PTU:er.
Att betala för regional etablering, etablerad datazon och globala etablerade distributioner per timme är idealiskt för kortsiktiga distributionsscenarier. Till exempel: Prestandamätning av kvalitet och prestanda för nya modeller eller tillfälligt öka PTU-kapaciteten för att täcka ett evenemang, till exempel ett hackathon.
Kunder som kräver långsiktig användning av regional etablering, etablerad datazon och globala etablerade distributioner kan dock betala betydligt mindre per månad genom att köpa en termrabatt via Azure-reservationer som beskrivs senare i artikeln.
Viktigt!
Det rekommenderas inte att skala produktionsmiljöer baserat på inkommande trafik och betala för dem enbart per timme. Det finns två orsaker till detta:
- Kostnadsbesparingarna som uppnås genom att köpa Azure-reservationer för Azure AI Foundry Provisioned Throughput, Data Zone Provisioned och Global Provisioned är betydande, och det blir i många fall billigare att underhålla en distributionsstorlek för full produktionsvolym som betalas via en reservation än att skala distributionen med inkommande trafik.
- Att ha en oanvänd etablerad kvot (PTUs) garanterar inte att kapaciteten kommer att vara tillgänglig för att stödja en ökning av distributionens storlek när det behövs. Kvoten begränsar det maximala antalet PTU:er som kan distribueras, men det är ingen kapacitetsgaranti. Etablerad kapacitet för varje region och modell ändras dynamiskt under dagen och kanske inte är tillgänglig när det behövs. Därför rekommenderar vi att du upprätthåller en permanent installation för att täcka dina trafikbehov, vilket betalas genom en reservation.
Ta bort PTU-distributioner
Viktigt!
Avgifterna för distributioner på en borttagen resurs fortsätter tills resursen rensas. Om du vill förhindra oönskade avgifter tar du bort en resursdistribution innan du tar bort resursen. Men om du redan har tagit bort resursen först kan du återställa eller rensa den. Mer information finns i Återställa eller rensa borttagna Azure OpenAI-resurser.
Om du tar bort en distribution avbryts eller ändras ingen PTU-reservation. Reservationer stöder inte borttagning. Du kan använda Azure-portalen för att avbryta eller byta reservationer manuellt, och dessa alternativ kan medföra extra avgifter.
Använd de här stegen för att ta bort en etablerad distribution för att undvika oönskade avgifter.
- Ta bort distributionen i Azure AI Foundry-portalen.
- Om du planerar att ta bort Azure AI-resursen tar du först bort distributionerna och tar sedan bort resursen. Rensa resursen för att stoppa avgifterna.
- Gå till sidan Reservationer i Azure-portalen för att hantera reservationer. I Azure-portalen kan du köpa, avbryta eller byta reservationer för att anpassa dig till aktuella distributioner.
Hur mycket dataflöde per PTU du får för varje modell
Mängden dataflöde (mätt i token per minut eller TPM) som en installation får per PTU är en funktion av in- och uttoken under en minut. För att generera utdatatoken krävs mer bearbetning än indatatoken. Från och med GPT 4.1-modeller och senare matchar systemet det globala standardprisförhållandet mellan indata- och utdatatoken. Cachelagrade token subtraheras med 100% från användningen.
För gpt-5 1-utdatatoken räknas till exempel som 8 indatatoken mot din användningsgräns som matchar prissättningen. För andra modeller, till exempel gpt-4.1, räknas 1 utdatatoken som 4 indatatoken. Äldre modeller använder ett annat förhållande, och för en djupare förståelse av hur olika förhållanden mellan indata- och utdatatoken påverkar genomströmningen som din arbetsbelastning kräver, se kvotkalkylatorn för Azure AI Foundry PTU.
De senaste Azure OpenAI-modellerna
Anmärkning
gpt-4.1, gpt-4.1-mini och gpt-4.1-nano stöder inte långa kontexter (begäranden uppskattas till större än 128 000 prompttoken).
| Ämne | gpt-5 | gpt-5-mini | gpt-4.1 | gpt-4.1-mini | gpt-4.1-nano | o3 | o4-mini |
|---|---|---|---|---|---|---|---|
| Global och etablerad minsta distribution i datazonen | 15 | 15 | 15 | 15 | 15 | 15 | 15 |
| Global & datazonsetablerade skalningssteg | 5 | 5 | 5 | 5 | 5 | 5 | 5 |
| Regionalt etablerad minsta distribution | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| Regionalt etablerad skalningsökning | 50 | 25 | 50 | 25 | 25 | 50 | 25 |
| Indata-TPM per PTU | 4,750 | 23 750 | 3 000 | 14,900 | 59 400 | 3 000 | 5,400 |
| Målvärde för svarstid | 99% > 50 token per sekund* | 99% > 80 token per sekund* | 99% > 80 token per sekund* | 99% > 90 token per sekund* | 99% > 100 token per sekund* | 99% > 80 token per sekund* | 99% > 90 token per sekund* |
* Beräknas som p50-begärandefördröjning per 5 minuters basis.
Tidigare Azure OpenAI-modeller
| Ämne | gpt-4o | gpt-4o-mini | o3-mini | o1 |
|---|---|---|---|---|
| Global och etablerad minsta distribution i datazonen | 15 | 15 | 15 | 15 |
| Global & datazonsetablerade skalningssteg | 5 | 5 | 5 | 5 |
| Regionalt etablerad minsta distribution | 50 | 25 | 25 | 25 |
| Regionalt etablerad skalningsökning | 50 | 25 | 25 | 50 |
| Indata-TPM per PTU | 2,500 | 37,000 | 2,500 | 230 |
| Målvärde för svarstid | 99% > 25 token per sekund* | 99% > 33 token per sekund* | 99% > 66 token per sekund* | 99% > 25 token per sekund* |
* Beräknas som genomsnittlig svarstid för begäran per minut under månaden.
Direkt från Azure-modeller
| Ämne | DeepSeek-R1 | DeepSeek-V3-0324 | DeepSeek-R1-0528 |
|---|---|---|---|
| Global och etablerad minsta distribution i datazonen | 100 | 100 | 100 |
| Global & datazonsetablerade skalningssteg | 100 | 100 | 100 |
| Regionalt etablerad minsta distribution | NA | NA | NA |
| Regionalt etablerad skalningsökning | NA | NA | NA |
| Indata-TPM per PTU | 4 000 | 4 000 | 4 000 |
| Målvärde för svarstid | 99% > 50 token per sekund* | 99% > 50 token per sekund* | 99% > 50 token per sekund* |
* Beräknas som genomsnittlig svarstid för begäran per minut under månaden.
En fullständig lista finns i Azure AI Foundry-kalkylatorn.
Fastställa antalet PTU:er som behövs för en arbetsbelastning
Att fastställa rätt mängd etablerat dataflöde, eller PTU:er, som du behöver för din arbetsbelastning är ett viktigt steg för att optimera prestanda och kostnader.
PTU:er representerar en mängd modellbearbetningskapacitet. På samma sätt som din dator eller dina databaser förbrukar olika arbetsbelastningar eller begäranden till modellen olika mängder underliggande bearbetningskapacitet. Konverteringen från dataflödet måste till PTU:er kan approximeras med historiska tokenanvändningsdata eller anropsformuppskattningar (indatatoken, utdatatoken och begäranden per minut) enligt beskrivningen i vår dokumentation om prestanda och svarstid . För att förenkla den här processen kan du använda PTU-kvotkalkylatorn för Azure AI Foundry för att ändra storlek på specifika arbetsbelastningsformer.
Några övergripande överväganden:
- Generationer kräver mer kapacitet än uppmaningar
- För GPT-4o- och senare modeller anges TPM per PTU för in- och utdatatoken separat. För äldre modeller är större anrop progressivt dyrare att beräkna. Till exempel kräver 100 anrop av med en 1 000 token-promptstorlek mindre kapacitet än ett anrop med 100 000 token i prompten. Den här nivåindelningen innebär att fördelningen av dessa anropsformer är viktig i det övergripande dataflödet. Trafikmönster med en bred distribution som innehåller vissa stora anrop kan uppleva lägre dataflöde per PTU än en smalare fördelning med samma genomsnittliga storlek på prompt- och slutförandetoken.
Hämta PTU-kvot
Kunder måste begära kvot via länken Förfrågningskvot. Om fler kvoter krävs måste du också begära kvot via den här länken. Den här länken finns i kvothubben i hanteringscentret för Azure AI Foundry. Formuläret gör att kunden kan begära en ökning av den angivna PTU-kvoten för en viss region. Kunden får ett e-postmeddelande på den inkluderade adressen när begäran har godkänts, vanligtvis inom två arbetsdagar.
Per-Model PTU-minimum
Den minsta PTU-distribution, ökningar och bearbetningskapacitet som är associerad med varje enhet varierar beroende på modelltyp och version. Mer information finns i tabellen ovan.
Beräkna tilldelade genomströmningsenheter och kostnad
Om du vill få en snabb uppskattning för din arbetsbelastning med hjälp av TPM för indata och utdata använder du den inbyggda kapacitetshanteraren i avsnittet distributionsinformation på skärmen för distributionsdialog. Den inbyggda kapacitetshanteraren är en del av distributionsarbetsflödet för att effektivisera storleksändringen och allokeringen av kvoten till en PTU-distribution för en viss arbetsbelastning. Mer information om hur du identifierar och uppskattar TPM-data finns i rekommendationerna i vår dokumentation om prestanda och svarstider.
Om du vill använda kapacitetshanteraren går du till Azure AI Foundry Portal och väljer knappen Distributioner . Välj sedan Distribuera modell.
Välj en modell och klicka på Bekräfta. Välj en distributionstyp för provisionerad genomströmning. När du har fyllt i in- och utdata för TPM-data i den inbyggda kapacitetskalkylatorn väljer du knappen Beräkna för att visa PTU-allokeringsrekommenderingen.
Om du vill uppskatta etablerad kapacitet med hjälp av data på begäransnivå öppnar du kapacitetshanteraren i Azure AI Foundry. Kapacitetskalkylatorn finns i Management Center>Quota>Provisioned Throughput.
Alternativet Etablerat dataflöde och kalkylatorn är endast tillgängliga i vissa regioner i fönstret Kvot, om du inte ser det här alternativet om du anger kvotregionen till Sverige central gör det här alternativet tillgängligt. Ange följande parametrar baserat på din arbetsbelastning.
| Inmatning | Beskrivning |
|---|---|
| Modell | modell som du planerar att använda. Exempel: GPT-4 |
| Utgåva | Version av den modell som du planerar att använda, till exempel 0614 |
| Högsta antal anrop per minut | Antalet anrop per minut som förväntas skickas till modellen |
| Token i promptanrop | Antalet tokens i prompten, vid varje anrop till modellen. Samtal med större uppmaningar förbrukar mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde, så för arbetsbelastningar med bred varians. Vi rekommenderar att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen. |
| Token i modellsvar | Antalet token som genereras från varje anrop till modellen. Anrop med större generationsstorlekar använder mer av PTU-distributionen. För närvarande förutsätter den här kalkylatorn ett enda promptvärde, så för arbetsbelastningar med bred varians. Vi rekommenderar att du jämför distributionen på din trafik för att fastställa den mest exakta uppskattningen av PTU som behövs för distributionen. |
När du har fyllt i nödvändig information väljer du knappen Beräkna i utdatakolumnen.
Värdena i utdatakolumnen är det uppskattade värdet för PTU-enheter som krävs för de angivna arbetsbelastningsindata. Det första utdatavärdet representerar de uppskattade mängder PTU-enheter som krävs för arbetsbelastningen och är avrundade till närmaste steg på PTU-skalan. Det andra utdatavärdet representerar de råa uppskattade PTU-enheter som krävs för arbetsbelastningen. Tokensummorna beräknas med hjälp av följande ekvation: Total = Peak calls per minute * (Tokens in prompt call + Tokens in model response).
Anmärkning
Kapacitetskalkylatorerna ger en uppskattning baserat på enkla indatakriterier. Det mest exakta sättet att fastställa din kapacitet är att jämföra en distribution med en representationsarbetsbelastning för ditt användningsfall.
Azure-reservationer för Azure AI Foundry – tilldelad genomströmning
Rabatter utöver användningspriset per timme kan erhållas genom att köpa en Azure-reservation för Azure AI Foundry Regional Provisioned, Data Zone Provisioned och Global Provisioned. En Azure-reservation är en mekanism för termrabatter som delas av många Azure-produkter. Till exempel Compute och Cosmos DB. För Azure AI Foundry Regional Provisioned, Data Zone Provisioned och Global Provisioned ger reservationen rabatt i utbyte mot betalning för fast antal PTU:er under en månad eller ettårsperiod.
Azure-reservationer köps via Azure-portalen, inte via Azure AI Foundry-portalen Länk till Azure-reservationsportalen.
Reservationer köps regionalt och kan omfångsbegränsas flexibelt för att täcka användning från en grupp med distributioner. Bland reservationsomfången finns:
Enskilda resursgrupper eller prenumerationer
En prenumerationgrupp inom en administratörsgrupp
Alla prenumerationer i ett faktureringskonto
Rabatten gäller när distributionstypen (regional/datazon/global), region och reservationsomfattning (prenumeration eller resursgrupp) matchar distributionen som körs. Matchning sker inte efter modell eller distributions-ID. Flera distributioner inom omfånget kan använda samma reservation upp till dess PTU-kvantitet.
Nya reservationer kan köpas för att täcka samma omfång som befintliga reservationer, så att nya etablerade distributioner kan rabatteras. Omfånget för befintliga reservationer kan också uppdateras när som helst utan påföljd, till exempel för att täcka en ny prenumeration.
Reservationer för globala distributioner, datazoner och regionala distributioner är inte utbytbara. Du måste köpa en separat reservation för varje distributionstyp.
Reservationer kan avbrytas efter köpet, men krediterna är begränsade.
Om storleken på tilldelade distributioner inom omfånget för en reservation överskrider reservationens storlek, debiteras överskottet enligt timpriset. Om distributioner som till exempel uppgår till 250 PTU:er finns inom ramen för en 200 PTU-reservation debiteras 50 PTU:er per timme tills distributionsstorlekarna minskas till 200 PTU:er, eller så skapas en ny reservation för att täcka de återstående 50.
Reservationer garanterar ett rabatterat pris för den valda termen. De reserverar inte kapacitet för tjänsten eller garanterar att den blir tillgänglig när en distribution skapas. Vi rekommenderar starkt att kunder skapar implementeringar innan de köper en reservation för att undvika överköp av reservationer.
Viktigt!
Kapacitetstillgängligheten för modelldistributioner är dynamisk och ändras ofta mellan regioner och modeller. Om du vill skydda dig mot att köpa en reservation för fler PTU:er än du kan använda skapar du distributioner först och köper sedan Azure-reservationen för att täcka de PTU:er som du har distribuerat. Den här bästa praxis säkerställer att du kan dra full nytta av reservationsrabatten och skyddar dig från att åta dig en reservation som du inte kan använda.
Kraven på Azure-roll- och klientorganisationsprincip för att köpa en reservation skiljer sig från vad som krävs för att skapa en distributions- eller Azure AI Foundry-resurs. Kontrollera auktoriseringen för att köpa reservationer i förväg om du behöver göra det. Mer information finns i Azure AI Foundry Provisionerad Genomflödesreservation.
Viktigt: dimensionering av Azure AI Foundry förkonfigurerad genomströmning för bokning
Mängden PTU i reservationsköp är oberoende av PTU:er som har allokerats i kvoter eller används i utplaceringar. Det går att köpa en reservation för fler PTUs än vad du har i kvoten, eller distribuera för önskad region, modell eller version. Krediterna för överköp av en reservation är begränsade och kunderna måste vidta åtgärder för att säkerställa att de behåller sina reservationsstorlekar i enlighet med sina distribuerade PTU:er.
Det bästa sättet är att alltid köpa en reservation när distributioner har skapats. Detta skyddar mot att köpa en reservation och sedan ta reda på att den kapacitet som krävs inte är tillgänglig för önskad region eller modell.
Reservationer för globala distributioner, datazoner och regionala distributioner är inte utbytbara. Du måste köpa en separat reservation för varje distributionstyp.
För att hjälpa kunder att köpa rätt reservationsbelopp. Det totala antalet PTU:er i en prenumeration och region som kan omfattas av en reservation visas på sidan Kvoter i Azure AI Foundry-portalen. Se meddelandet "PTU:er tillgängliga för reservation".
Hantera Azure-reservationer
När en reservation har skapats övervakar du den via Azure-reservationsportalen eller Azure Monitor för att säkerställa att reservationen tar emot den användning du förväntar dig. Mer information om hur du hanterar och övervakar Azure-reservationer finns i följande artiklar:
- Visa användning av Azure-reservationer
- Visa köp- och återbetalningstransaktioner för Azure-reservationer
- Visa amorterade förmånskostnader
- Debitera tillbaka Kostnader för Azure-reservationer
- Förnya Azure-reservationer automatiskt