AI-gateway in Azure API Management

2025-10-06

VAN TOEPASSING OP: Alle lagen van API Management

De AI-gateway in Azure API Management is een set mogelijkheden waarmee u uw AI-back-ends effectief kunt beheren. Deze mogelijkheden helpen u bij het beheren, beveiligen, schalen, bewaken en beheren van LLM-implementaties (large language model), AI-API's en MCP-servers (Model Context Protocol) die uw intelligente apps en agents ondersteunen.

Gebruik de AI-gateway om een breed scala aan AI-eindpunten te beheren, waaronder:

Implementaties van Azure AI Foundry en Azure OpenAI in Azure AI Foundry Models
API-implementaties voor inferentie van Azure AI-modellen
Externe MCP-servers
OpenAI-compatibele modellen en eindpunten die worden gehost door niet-Microsoft-providers
Zelf-hostende modellen en eindpunten

Diagram met een samenvatting van ai-gatewaymogelijkheden van Azure API Management.

Notitie

De AI-gateway, met inbegrip van MCP-servermogelijkheden, breidt de bestaande API-gateway van API Management uit; het is geen afzonderlijk aanbod. Gerelateerde governance- en ontwikkelaarsfuncties bevinden zich in Azure API Center.

Waarom een AI-gateway gebruiken?

AI-acceptatie in organisaties omvat verschillende fasen:

Het definiëren van vereisten en evalueren van AI-modellen
AI-apps en -agents bouwen die toegang nodig hebben tot AI-modellen en -services
AI-apps en back-ends operationeel maken en implementeren in productie

Naarmate ai-acceptatie zich verder ontwikkeld, met name bij grotere ondernemingen, helpt de AI-gateway om belangrijke uitdagingen aan te pakken, waardoor:

Toegang tot AI-services verifiëren en autoriseren
Taakverdeling over meerdere AI-eindpunten
AI-interacties bewaken en registreren
Tokengebruik en quota voor meerdere toepassingen beheren
Selfservice inschakelen voor ontwikkelaarsteams

Verkeersbemiddeling en -controle

Met de AI-gateway kunt u het volgende doen:

Snel OpenAI-compatibele of pass-through LLM-eindpunten importeren en configureren als API's
Modellen beheren die geïmplementeerd zijn in Azure AI Foundry of providers zoals Amazon Bedrock
Voltooiingen, antwoorden en realtime API's van chats beheren
Uw bestaande REST API's openstellen als MCP-servers en ondersteuning bieden voor doorgifte naar MCP-servers.

Als u bijvoorbeeld een model wilt onboarden dat is geïmplementeerd in AI Foundry of een andere provider, biedt API Management gestroomlijnde wizards voor het importeren van het schema en het instellen van verificatie naar het AI-eindpunt met behulp van een beheerde identiteit, waarbij handmatige configuratie wordt verwijderd. Binnen dezelfde gebruiksvriendelijke ervaring kunt u beleidsregels vooraf configureren voor schaalbaarheid, beveiliging en waarneembaarheid van API's.

Meer informatie:

Schaalbaarheid en prestaties

Een van de belangrijkste bronnen in generatieve AI-services is tokens. Azure AI Foundry en andere providers wijzen quota toe voor uw modelimplementaties als tokens per minuut (TPM). U distribueert deze tokens over uw modelgebruikers, zoals verschillende toepassingen, ontwikkelaarsteams of afdelingen binnen het bedrijf.

Als u één app hebt die verbinding maakt met een back-end van een AI-service, kunt u het tokenverbruik beheren met een TPM-limiet die u rechtstreeks voor de modelimplementatie hebt ingesteld. Wanneer uw toepassingsportfolio groeit, hebt u mogelijk meerdere apps die één of meerdere AI-service-eindpunten aanroepen. Deze eindpunten kunnen betalen naar gebruik of ingerichte doorvoereenheden (PTU-exemplaren) zijn. U moet ervoor zorgen dat de ene app niet het volledige TPM-quotum gebruikt en ervoor zorgt dat andere apps geen toegang hebben tot de back-ends die ze nodig hebben.

Tokensnelheidsbeperking en quota

Configureer een tokenlimietbeleid voor uw LLM-API's om limieten per API-consument te beheren en af te dwingen op basis van het gebruik van AI-servicetokens. Met dit beleid kunt u een TPM-limiet of een tokenquotum instellen gedurende een bepaalde periode, zoals elk uur, dagelijks, wekelijks, maandelijks of jaarlijks.

Diagram van het beperken van Azure OpenAI-servicetokens in API Management.

Dit beleid biedt flexibiliteit voor het toewijzen van limieten op basis van tokens voor tellersleutels, zoals abonnementssleutel, ip-adres van oorsprong of een willekeurige sleutel die is gedefinieerd via een beleidsexpressie. Het beleid maakt ook het vooraf berekenen van prompttokens aan de kant van Azure API Management mogelijk, waardoor onnodige aanvragen naar de back-end van de AI-service worden geminimaliseerd als de prompt de limiet al overschrijdt.

In het volgende basisvoorbeeld ziet u hoe u een TPM-limiet van 500 per abonnementssleutel instelt:

<llm-token-limit counter-key="@(context.Subscription.Id)" 
    tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>

Meer informatie:

LLM-tokenlimietbeleid

Semantische caching

Semantische caching is een techniek die de prestaties van LLM-API's verbetert door de resultaten (voltooiingen) van eerdere prompts in de cache op te slaan en opnieuw te gebruiken door de vectornabijheid van de prompt te vergelijken met eerdere aanvragen. Deze techniek vermindert het aantal aanroepen naar de back-end van de AI-service, verbetert de reactietijden voor eindgebruikers en kan helpen de kosten te verlagen.

Schakel in API Management semantische caching in met behulp van Azure Managed Redis of een andere externe cache die compatibel is met RediSearch en onboarding naar Azure API Management. Met behulp van de Embeddings API slaan de llm-semantic-cache-store en llm-semantic-cache-lookup beleidsregels semantisch vergelijkbare aanvullende prompts op en halen ze uit de cache. Deze aanpak zorgt ervoor dat voltooiingen opnieuw worden gebruikt, wat resulteert in verminderd tokenverbruik en verbeterde responsprestaties.

Schematisch overzicht van semantische caching in API Management.

Meer informatie:

Ingebouwde schaalfuncties in API Management

API Management biedt ook ingebouwde schaalfuncties waarmee de gateway grote hoeveelheden aanvragen naar uw AI-API's kan verwerken. Deze functies omvatten automatische of handmatige toevoeging van gatewayschaaleenheden en toevoeging van regionale gateways voor implementaties met meerdere regio's. Specifieke mogelijkheden zijn afhankelijk van de API Management-servicelaag.

Meer informatie:

Notitie

Hoewel API Management gatewaycapaciteit kan schalen, moet u ook verkeer schalen en distribueren naar uw AI-back-ends om een hogere belasting aan te kunnen (zie de sectie Veerkracht). Als u bijvoorbeeld wilt profiteren van de geografische distributie van uw systeem in een configuratie met meerdere regio's, moet u back-end AI-services implementeren in dezelfde regio's als uw API Management-gateways.

Beveiliging en veiligheid

Een AI-gateway beveiligt en beheert de toegang tot uw AI-API's. Met de AI-gateway kunt u het volgende doen:

Beheerde identiteiten gebruiken om te verifiëren bij Azure AI-services, zodat u geen API-sleutels nodig hebt voor verificatie
OAuth-autorisatie configureren voor AI-apps en -agents voor toegang tot API's of MCP-servers met behulp van de referentiebeheer van API Management
Beleid toepassen om LLM-prompts automatisch te modereren met behulp van Azure AI Content Safety

Diagram van beleid voor inhoudsveiligheid in API Management.

Meer informatie:

Resiliency

Een uitdaging bij het bouwen van intelligente toepassingen is ervoor te zorgen dat de toepassingen bestand zijn tegen back-endfouten en hoge belastingen kunnen verwerken. Door uw LLM-eindpunten te configureren met back-ends in Azure API Management, kunt u de belasting over deze eindpunten verdelen. U kunt ook regels voor circuitonderbrekers definiëren om het doorsturen van aanvragen naar back-ends van ai-services te stoppen als ze niet reageren.

Verdelingsmechanisme

De backend load balancer ondersteunt cirkelsgewijs, gewogen, op prioriteit gebaseerde en sessiebewuste loadbalancing. U kunt een distributiestrategie voor belasting definiëren die voldoet aan uw specifieke vereisten. Definieer bijvoorbeeld prioriteiten in de configuratie van de load balancer om een optimaal gebruik van specifieke Azure AI Foundry-eindpunten te garanderen, met name de eindpunten die zijn gekocht als PTU-exemplaren.

Diagram van het gebruik van back-endtaakverdeling in API Management.

Vermogenschakelaar

De stroomonderbreker van het backend systeem beschikt over een dynamische uitschakelingsduur, waarbij waarden worden toegepast uit de Retry-After header die door de backend wordt geleverd. Deze functie zorgt voor nauwkeurig en tijdig herstel van de back-ends, waardoor het gebruik van uw prioriteitsback-ends wordt gemaximaliseerd.

Diagram van het gebruik van een achtergrondcircuitonderbreker in API Management.

Meer informatie:

API Management-backends

Waarneembaarheid en beheer

API Management biedt uitgebreide bewakings- en analysemogelijkheden voor het bijhouden van gebruikspatronen voor tokens, het optimaliseren van kosten, het garanderen van naleving van uw AI-governancebeleid en het oplossen van problemen met uw AI-API's. Gebruik deze mogelijkheden om:

Logboekprompts en -voltooiingen voor Azure Monitor
Tokenstatistieken voor elke consument bijhouden in Application Insights
Het ingebouwde bewakingsdashboard weergeven
Beleid configureren met aangepaste expressies
Tokenquota voor toepassingen beheren

U kunt bijvoorbeeld metrische tokengegevens verzenden met het beleid llm-emit-token-metric en aangepaste dimensies toevoegen die u kunt gebruiken om de metrische gegevens te filteren in Azure Monitor. In het volgende voorbeeld worden metrische tokengegevens verzonden met dimensies voor client-IP-adres, API-id en gebruikers-id (uit een aangepaste header):

<llm-emit-token-metric namespace="llm-metrics">
    <dimension name="Client IP" value="@(context.Request.IpAddress)" />
    <dimension name="API ID" value="@(context.Api.Id)" />
    <dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>

Diagram van het verzenden van metrische tokengegevens met behulp van API Management.

Schakel ook logboekregistratie in voor LLM-API's in Azure API Management om tokengebruik, prompts en voltooiingen voor facturering en controle bij te houden. Nadat u logboekregistratie hebt ingeschakeld, kunt u de logboeken in Application Insights analyseren en een ingebouwd dashboard in API Management gebruiken om tokenverbruikspatronen in uw AI-API's weer te geven.

Meer informatie:

Ontwikkelaarservaring

Gebruik de AI-gateway en Het Azure API Center om de ontwikkeling en implementatie van uw AI-API's en MCP-servers te stroomlijnen. Naast de gebruiksvriendelijke ervaring voor het importeren en configureren van beleid voor algemene AI-scenario's in API Management, kunt u profiteren van:

Eenvoudige registratie van API's en MCP-servers in een organisatiecatalogus in Azure API Center
Selfservice-API- en MCP-servertoegang via ontwikkelaarsportals in API Management en API Center
API Management-beleidstoolkit voor aanpassing
API Center Copilot Studio-connector om de mogelijkheden van AI-agents uit te breiden

Schermopname van MCP-servers in API Center in de portal.

Meer informatie:

Vroege toegang tot AI-gateway functies

Als API Management-klant kunt u vroegtijdige toegang krijgen tot nieuwe functies en mogelijkheden via het releasekanaal van AI Gateway. Met deze toegang kunt u de nieuwste ai-gatewayinnovaties uitproberen voordat ze algemeen beschikbaar zijn en feedback geven om het product vorm te geven.

Meer informatie:

Instellingen voor service-updates configureren voor uw API Management-exemplaren

Labs en codevoorbeelden

Architectuur en ontwerp

Feedback

Is deze pagina nuttig?

Delen via

AI-gateway in Azure API Management

Waarom een AI-gateway gebruiken?

Verkeersbemiddeling en -controle

Schaalbaarheid en prestaties

Tokensnelheidsbeperking en quota

Semantische caching

Ingebouwde schaalfuncties in API Management

Beveiliging en veiligheid

Resiliency

Verdelingsmechanisme

Vermogenschakelaar

Waarneembaarheid en beheer

Ontwikkelaarservaring

Vroege toegang tot AI-gateway functies

Labs en codevoorbeelden

Architectuur en ontwerp

Gerelateerde inhoud

Feedback

Aanvullende resources