Dela via


Övervaka modelldistributioner i Azure AI Foundry Models

Viktigt!

Objekt markerade (förhandsversion) i den här artikeln är för närvarande i offentlig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

När du har viktiga program och affärsprocesser som är beroende av Azure-resurser måste du övervaka och få aviseringar för systemet. Azure Monitor-tjänsten samlar in och aggregerar mått och loggar från varje komponent i systemet, inklusive Foundry Models-distributioner. Du kan använda den här informationen för att visa tillgänglighet, prestanda och motståndskraft och få meddelanden om problem.

Den här artikeln beskriver hur du kan använda mått och loggar för att övervaka modelldistributioner i Foundry Models.

Förutsättningar

Om du vill använda övervakningsfunktioner för modelldistributioner i Foundry Models behöver du följande:

Mätvärden

Azure Monitor samlar in mått från Foundry Models automatiskt. Ingen konfiguration krävs. Dessa mått är:

  • Lagras i azure monitor-databasen för tidsseriemått.
  • Lättviktig och kan stödja aviseringar i nästan realtid.
  • Används för att spåra prestanda för en resurs över tid.

Visa metrikvärden

Azure Monitor-mått kan efterfrågas med hjälp av flera verktyg, inklusive:

Azure AI Foundry-portalen

Du kan visa mått i Azure AI Foundry-portalen. Följ dessa steg om du vill visa dem:

  1. Gå till Azure AI Foundry-portalen.

  2. Under Mina tillgångar på sidomenyn väljer du Modeller + slutpunkter och sedan namnet på den distribution som du vill se mått om.

  3. Välj fliken Mått .

  4. Du kan komma åt en översikt över vanliga mått som kan vara av intresse. För kostnadsrelaterade mått väljer du länken Azure Cost Management , som ger åtkomst till detaljerade kostnadsmått efter förbrukning i avsnittet Kostnadsanalys i Azure-portalen.

    Skärmbild som visar de mått som visas för modelldistributioner i Azure AI Foundry-portalen.

    Kostnadsdata i Azure-portalen visar faktiska avgifter efter förbrukning för modellförbrukning, inklusive andra AI-resurser i Azure AI Foundry. En fullständig lista över AI-resurser finns i Skapa med anpassningsbara API:er och modeller. Faktureringshändelsen är ungefär fem timmar lång tills den kan visas i kostnadsanalysen i Azure-portalen.

    Viktigt!

    Azure Cost Management-länken innehåller en direktlänk i Azure-portalen så att användarna kan komma åt detaljerade kostnadsmått för distribuerade AI-modeller. Den här djuplänken integreras med Azure Cost Analysis Service-vyn och ger transparenta och användbara insikter om kostnader på modellnivå.

    Den djupa länken dirigerar användarna till vyn Kostnadsanalys i Azure-portalen, vilket ger en upplevelse med ett klick för att visa distributioner per resurs, inklusive kostnad/förbrukning av indata-/utdatatoken. Om du vill visa kostnadsdata behöver du minst läsbehörighet för ett Azure-konto. Information om hur du tilldelar åtkomst till Cost Management-data finns i Tilldela åtkomst till data.

  5. Du kan visa och analysera mått med Azure Monitor Metrics Explorer för att ytterligare segmentera och filtrera dina modelldistributionsmått.

    Skärmbild som visar alternativet att öppna modelldistributionsmått i Azure Monitor.

Mätvärdenutforskare

Metrics Explorer är ett verktyg i Azure-portalen där du kan visa och analysera mått för Azure-resurser. Mer information finns i Analysera mått med Azure Monitor Metrics Explorer.

Följ dessa steg om du vill använda Azure Monitor:

  1. Gå till Azure-portalen.

  2. Skriv och välj Övervaka i sökrutan.

  3. Välj Mått på sidomenyn.

  4. I Välj omfång väljer du de resurser som du vill övervaka. Du kan antingen välja en resurs eller välja en resursgrupp eller prenumeration. Om så är fallet kontrollerar du att du väljer Resurstyper som Azure AI Services.

  5. Metrics Explorer visas. Välj de mått som du vill utforska. I följande exempel visas antalet begäranden som görs till modelldistributionerna i resursen.

    Skärmbild som visar hur du lägger till ett nytt mått i diagrammet.

    Viktigt!

    Mått i Kategorin Azure OpenAI innehåller mått för Azure OpenAI-modeller i resursen. Kategorin Modeller innehåller alla modeller som är tillgängliga i resursen, inklusive Azure OpenAI, DeepSeek och Phi. Vi rekommenderar att du byter till den här nya uppsättningen mått.

  6. Du kan lägga till så många mått som behövs i antingen samma diagram eller i ett nytt diagram.

  7. Om du behöver det kan du filtrera mått efter någon av deras tillgängliga dimensioner.

    Skärmbild som visar hur du använder ett filter för ett mått.

  8. Det är användbart att dela upp specifika mått efter några av dimensionerna. I följande exempel visas hur du delar upp antalet begäranden som görs till resursen efter modell med hjälp av alternativet Lägg till delning:

    Skärmbild som visar hur du delar upp måttet med en viss dimension.

  9. Du kan spara dina instrumentpaneler när som helst för att undvika att behöva konfigurera dem varje gång.

Kusto-frågespråk (KQL)

Om du konfigurerar diagnostikinställningar för att skicka mått till Log Analytics kan du använda Azure-portalen för att fråga efter och analysera loggdata med hjälp av Kusto-frågespråket (KQL).

Följ dessa steg för att fråga efter mått:

  1. Se till att du konfigurerar diagnostikinställningar för din resurs.

  2. Gå till Azure-portalen.

  3. Leta upp den Azure AI Foundry-resurs som du vill köra frågor mot.

  4. Under Övervakning i sidomenyn väljer du Loggar.

  5. Välj den Log Analytics-arbetsyta som du konfigurerade med diagnostik.

  6. På sidan Log Analytics-arbetsyta går du till Översikt på sidomenyn och väljer Loggar. Azure-portalen visar ett frågefönster med exempelfrågor och förslag som standard. Du kan stänga det här fönstret.

  7. Om du vill undersöka Azure Metrics använder du tabellen AzureMetrics för din resurs och kör följande fråga:

    AzureMetrics
    | take 100
    | project TimeGenerated, MetricName, Total, Count, Maximum, Minimum, Average, TimeGrain, UnitName
    

    Anmärkning

    När du väljerÖvervakningsloggar> på menyn för resursen öppnas Log Analytics med frågeomfånget inställt på den aktuella resursen. De synliga loggfrågorna innehåller endast data från den specifika resursen. Om du vill köra en fråga som innehåller data från andra resurser eller data från andra Azure-tjänster väljer du LoggarAzure Monitor-menyn i Azure Portal. Mer information finns i Log query scope and time range in Azure Monitor Log Analytics (Loggfrågeomfång och tidsintervall i Azure Monitor Log Analytics).

Andra verktyg

Verktyg som möjliggör mer komplex visualisering är:

  • Arbetsböcker: anpassningsbara rapporter som du kan skapa i Azure-portalen. Arbetsböcker kan innehålla text-, mått- och loggfrågor.
  • Grafana: ett öppet plattformsverktyg som utmärker sig i operativa instrumentpaneler. Du kan använda Grafana för att skapa instrumentpaneler som innehåller data från flera andra källor än Azure Monitor.
  • Power BI: en tjänst för affärsanalys som tillhandahåller interaktiva visualiseringar mellan olika datakällor. Du kan konfigurera Power BI för att automatiskt importera loggdata från Azure Monitor för att dra nytta av dessa visualiseringar.

Referens för mått

Följande kategorier av mått är tillgängliga:

Modeller – begäranden

Måttsystem Internt namn Enhet Aggregering Mått
Tillgänglighetsfrekvens för modell

Tillgänglighetsprocent med följande beräkning: (Totalt antal anrop – serverfel)/Totalt antal anrop. Serverfel omfattar alla HTTP-svar >=500.
ModelAvailabilityRate Procent Minimi, Maximi, Genomsnitt ApiName, OperationName, Region, StreamType, ModelDeploymentName, , , ModelNameModelVersion
Modellbegäranden

Antal anrop till modellinferens-API:et under en tidsperiod som resulterade i ett tjänstfel (>500).
ModelRequests Räkna Totalt (Summa) ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelName, , ModelVersionStatusCode

Modeller – svarstid

Måttsystem Internt namn Enhet Aggregering Mått
Tid till svar

Rekommenderat svarstidsmått (svarstid) för strömningsbegäranden. Gäller för PTU- och PTU-hanterade distributioner. Beräknas som den tid det tar för det första svaret att visas när en användare skickar en uppmaning, mätt med API-gatewayen. Det här antalet ökar när promptens storlek ökar och/eller cacheträffens storlek minskar. Obs! Det här måttet är en uppskattning eftersom den uppmätta svarstiden är starkt beroende av flera faktorer, inklusive samtidiga anrop och övergripande arbetsbelastningsmönster. Dessutom tar den inte hänsyn till någon svarstid på klientsidan som kan finnas mellan klienten och API-slutpunkten. Se din egen loggning för optimal svarstidsspårning.
TimeToResponse Millisekunder Maximalt, Minsta, Genomsnitt ApiName, OperationName, Region, StreamType, ModelDeploymentName, , ModelName, , ModelVersionStatusCode
Normaliserad tid mellan token

För strömningsbegäranden; modelltokens genereringshastighet, mätt i millisekunder. Gäller för PTU- och PTU-hanterade distributioner.
NormalizedTimeBetweenTokens Millisekunder Maximalt, Minsta, Genomsnitt ApiName, OperationName, Region, StreamType, ModelDeploymentName, , , ModelNameModelVersion

Modeller – användning

Måttsystem Internt namn Enhet Aggregering Mått
Indatatokenerna

Antal bearbetade prompttoken (indata) för en modell. Gäller för PTU- och PTU-hanterade distributioner och standarddistributioner.
InputTokens Räkna Totalt (Summa) ApiName, Region, ModelDeploymentName, , , ModelNameModelVersion
Utdatatoken

Antal token som genererats (utdata) från en modell. Gäller för PTU- och PTU-hanterade distributioner och standarddistributioner.
OutputTokens Räkna Totalt (Summa) ApiName, Region, ModelDeploymentName, , , ModelNameModelVersion
Totalt antal token

Antal slutsatsdragningstoken som bearbetas på en modell. Beräknas som prompt-token (inmatningsdata) plus genererade token (utmatningsdata). Gäller för PTU- och PTU-hanterade distributioner och standarddistributioner.
TotalTokens Räkna Totalt (Summa) ApiName, Region, ModelDeploymentName, , , ModelNameModelVersion
Matchningsgrad för token-cache

Procentandel av prompttoken som träffar cacheminnet. Gäller för PTU- och PTU-hanterade distributioner.
TokensCacheMatchRate Procent Genomsnitt Region, ModelDeploymentName, , ModelNameModelVersion
Etablerad användning

Användningsprocent för en provisionerat hanterad distribution, beräknad som (PTU:er förbrukade/PTU:er distribuerade) x 100. När användningen är större än eller lika med 100 % begränsas anropen och felkoden 429 returneras.
TokensCacheMatchRate Procent Genomsnitt Region, ModelDeploymentName, , ModelNameModelVersion
Tilldelade förbrukade tokens

Totalt antal token minus cachelagrade token under en tidsperiod. Gäller för PTU- och PTU-hanterade distributioner.
ProvisionedConsumedTokens Räkna Totalt (Summa) Region, ModelDeploymentName, , ModelNameModelVersion
Ljudindatatoken

Antal token för ljudprompt som bearbetas (indata) för en modell. Gäller för PTU-styrda modelldistributioner.
AudioInputTokens Räkna Totalt (Summa) Region, ModelDeploymentName, , ModelNameModelVersion
Ljudutdatatoken

Antal token för ljudprompt som genererats (utdata) på en modell. Gäller för PTU-styrda modelldistributioner.
AudioOutputTokens Räkna Totalt (Summa) Region, ModelDeploymentName, , ModelNameModelVersion

Loggfiler

Resursloggar ger insikter om åtgärder som har utförts av en Azure-resurs. Loggar genereras automatiskt, men du måste dirigera dem till Azure Monitor-loggar för att spara eller fråga genom att konfigurera en diagnostikinställning. Loggar ordnas i kategorier när du skapar en diagnostikinställning. Du anger vilka kategorier av loggar som ska samlas in.

Konfigurera diagnostikinställningar

Alla mått kan exporteras med diagnostikinställningar i Azure Monitor. Om du vill analysera loggar och måttdata med Azure Monitor Log Analytics-frågor måste du konfigurera diagnostikinställningar för din Azure AI Services-resurs. Du måste utföra den här åtgärden på varje resurs.

Skärmbild som visar hur du konfigurerar diagnostikloggning i en resource.png

Det finns en kostnad för att samla in data på en Log Analytics-arbetsyta, så samla bara in de kategorier som du behöver för varje tjänst. Datavolymen för resursloggar varierar avsevärt mellan tjänsterna.