Delen via


Ondersteunde metrische gegevens voor Microsoft.CognitiveServices/accounts/projecten

De volgende tabel bevat de metrische gegevens die beschikbaar zijn voor het resourcetype Microsoft.CognitiveServices/accounts/projects.

Kopteksten van tabellen

Metric - De naam van de metrische weergave zoals die in de Azure-portal verschijnt.
Name in Rest API - Naam van de metriek zoals vermeld in de REST API.
Eenheid : maateenheid.
Aggregatie - Het standaard aggregatietype. Geldige waarden: Gemiddelde, Minimum, Maximum, Totaal, Aantal.
Dimensies - Dimensies die beschikbaar zijn voor de metriek.
Tijdgranulaties - Intervallen waarop de metriek wordt bemonsterd. Bijvoorbeeld, PT1M geeft aan dat de metriek bemonsterd wordt elke minuut, PT30M elke 30 minuten, PT1H elk uur, enzovoort.
DS Export - Of de metriek via Diagnostische instellingen naar Azure Monitor Logs geëxporteerd kan worden.

Zie voor meer informatie over het exporteren van metrische gegevens - Metrische gegevens exporteren met behulp van regels voor gegevensverzameling en diagnostische instellingen maken in Azure Monitor.

Voor informatie over het bewaren van metrische gegevens, zie Azure Monitor Metrics overview.

Categorie: AI-agents

Metrische gegevens Naam in REST API Unit Aggregation Afmetingen Tijdgranulen DS-Uitvoer
Agent-gebeurtenissen (preview)

Aantal gebeurtenissen voor AI-agents in dit project.
AgentEvents Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum EventType PT1M Nee.
Invoertokens voor agents (preview)

Het aantal invoertokens voor AI-agents in dit project.
AgentInputTokens Aantal Totaal (som), gemiddelde, maximum, minimum AgentId, ModelNameTokenType PT1M Nee.
Gebruikersberichten van agent (preview)

Aantal gebeurtenissen voor gebruikersberichten van AI Agent in dit project.
AgentMessages Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum EventType, ThreadId PT1M Nee.
Uitvoertokens van agent (preview)

Het aantal uitvoertokens voor AI-agents in dit project.
AgentOutputTokens Aantal Totaal (som), gemiddelde, maximum, minimum AgentId, ModelNameTokenType PT1M Nee.
Antwoorden op agents (preview)

Het aantal antwoorden door AI-agents in dit project.
AgentResponses Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum AgentId, ModelNameResponseStatus PT1M Nee.
Agentuitvoeringen (preview)

Het aantal uitvoeringen door AI-agents in dit project.
AgentRuns Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum AgentId, ModelNameRunStatus, StatusCode, ThreadIdStreamType PT1M Nee.
Agentthreads (preview)

Aantal gebeurtenissen voor AI Agent-threads in dit project.
AgentThreads Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum EventType PT1M Nee.
Aanroepen van agenthulpprogramma's (preview)

Het aantal aanroepen van hulpprogramma's door AI-agents in dit project.
AgentToolCalls Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum AgentId, ModelNameToolName PT1M Nee.
Geïndexeerde bestanden voor agentgebruik (preview)

Het aantal bestanden dat is geïndexeerd voor ai-agentgebruik, zoals ophalen in dit project.
AgentUsageIndexedFiles Aantal Aantal, Totaal (som), Gemiddelde, Maximum, Minimum ErrorCode, StatusVectorStoreId PT1M Nee.

Categorie: Modellen - HTTP-aanvragen

Metrische gegevens Naam in REST API Unit Aggregation Afmetingen Tijdgranulen DS-Uitvoer
Beschikbaarheidspercentage van het model

Beschikbaarheidspercentage met de volgende berekening: (Totaal aantal aanroepen - serverfouten)/Totaal aantal aanroepen. Serverfoutmeldingen omvatten alle HTTP-antwoorden >=500.
ModelAvailabilityRate Procent Minimum, Maximum, Gemiddelde Region,ModelDeploymentName,ModelName,ModelVersion PT1M Nee.
Modelaanvragen

Het aantal aanroepen naar de model-API gedurende een bepaalde periode. Van toepassing op PTU-, PTU-beheerde en pay-as-you-go-implementaties.
ModelRequests Aantal Het totaal (som) ApiName, , OperationNameRegion, StreamType, , ModelDeploymentName, , ModelNameModelVersionStatusCode PT1M Yes

Categorie: Modellen - Latentie

Metrische gegevens Naam in REST API Unit Aggregation Afmetingen Tijdgranulen DS-Uitvoer
Tijd tussen tokens

Voor streamingaanvragen; Generatiesnelheid van modeltoken, gemeten in milliseconden. Is van toepassing op door PTU en PTU beheerde implementaties.
NormalizedTimeBetweenTokens Milliseconden Maximum, minimum, gemiddelde ApiName, , OperationNameRegion, StreamType, , ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Genormaliseerde tijd naar eerste byte

Voor streaming- en niet-streamingaanvragen; de tijd die nodig is om de eerste byte van antwoordgegevens te ontvangen nadat de aanvraag is gedaan per model, genormaliseerd per token. Van toepassing op PTU-, PTU-beheerde en betalen per gebruik-implementaties.
NormalizedTimeToFirstToken Milliseconden Maximum, minimum, gemiddelde ApiName, , OperationNameRegion, StreamType, , ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tijd tot laatste byte

Voor streaming- en niet-streamingaanvragen; de tijd die nodig is om de laatste byte van antwoordgegevens te ontvangen nadat de aanvraag per model is ingediend. Van toepassing op PTU-, PTU-beheerde en betalen per gebruik-implementaties.
TimeToLastByte Milliseconden Maximum, minimum, gemiddelde ApiName, , OperationNameRegion, StreamType, , ModelDeploymentName, , ModelNameModelVersion PT1M Yes
Tijd tot reactie

Aanbevolen latentiemeting (reactiesnelheid) voor streamingaanvragen. Is van toepassing op door PTU en PTU beheerde implementaties. Berekend als de tijd die nodig is voor het eerste antwoord dat wordt weergegeven nadat een gebruiker een prompt heeft verzonden, zoals gemeten door de API-gateway. Dit aantal neemt toe naarmate de promptgrootte toeneemt, en/of de cachetreffergrootte vermindert. Als u wilt uitsplitsen van de metrische reactietijd, kunt u een filter toevoegen of splitsen toepassen op de volgende dimensies: ModelDeploymentName, ModelName en ModelVersion.

Opmerking: deze metrische waarde is een benadering omdat gemeten latentie sterk afhankelijk is van meerdere factoren, waaronder gelijktijdige aanroepen en het algehele workloadpatroon. Daarnaast wordt er geen rekening gehouden met enige latentie aan de clientzijde die mogelijk bestaat tussen uw client en het API-eindpunt. Raadpleeg uw eigen logboek voor optimale latentie bewaking.
TimeToResponse Milliseconden Minimum, Maximum, Gemiddelde ApiName, , OperationNameRegion, StreamType, , ModelDeploymentName, , ModelNameModelVersionStatusCode PT1M Yes
Tokens per seconde

Inventariseert de generatiesnelheid voor een bepaald modelantwoord. Het totale aantal gegenereerde tokens wordt gedeeld door de tijd voor het genereren van de tokens, in seconden. Is van toepassing op door PTU en PTU beheerde implementaties.
TokensPerSecond Aantal Maximum, minimum, gemiddelde ApiName, , OperationNameRegion, StreamType, , ModelDeploymentName, , ModelNameModelVersion PT1M Yes

Categorie: Modellen - Gebruik

Metrische gegevens Naam in REST API Unit Aggregation Afmetingen Tijdgranulen DS-Uitvoer
Audio-invoertokens

Het aantal audioprompttokens dat is verwerkt (invoer) op een OpenAI-model. Van toepassing op door PTU beheerde modelimplementaties.
AudioInputTokens Aantal Het totaal (som) ModelDeploymentName,ModelName,ModelVersion,Region PT1M Yes
Audio-uitvoertokens

Het aantal audioprompttokens dat is gegenereerd (uitvoer) op een OpenAI-model. Van toepassing op door PTU beheerde modelimplementaties.
AudioOutputTokens Aantal Het totaal (som) ModelDeploymentName,ModelName,ModelVersion,Region PT1M Yes
Invoertokens

Het aantal prompt-tokens dat bij een model is verwerkt (invoer). Van toepassing op PTU-, PTU-beheerde en pay-as-you-go-implementaties.
InputTokens Aantal Het totaal (som) ApiName Region, ModelDeploymentName, ModelNameModelVersion PT1M Yes
Uitvoertokens

Aantal tokens dat is gegenereerd (uitvoer) van een OpenAI-model. Van toepassing op PTU-, PTU-beheerde en pay-as-you-go-implementaties.
OutputTokens Aantal Het totaal (som) ApiName Region, ModelDeploymentName, ModelNameModelVersion PT1M Yes
Voorzien gebruik

Gebruikspercentage voor een geconfigureerde en beheerde implementatie, berekend als (verbruikte PTU's/ingezette PTU's) x 100. Wanneer het gebruik groter is dan of gelijk is aan 100%, worden aanroepen beperkt en foutcode 429 geretourneerd.
ProvisionedUtilization Procent Minimum, Maximum, Gemiddelde Region,ModelDeploymentName,ModelName,ModelVersion PT1M Nee.
Totaal aantal tokens

Het aantal deductietokens dat op een model is verwerkt. Berekend als prompttokens (invoer) plus gegenereerde tokens (uitvoer). Van toepassing op PTU-, PTU-beheerde en pay-as-you-go-implementaties.
TotalTokens Aantal Het totaal (som) ApiName Region, ModelDeploymentName, ModelNameModelVersion PT1M Yes

Volgende stappen