Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
VAN TOEPASSING OP: Alle lagen van API Management
De AI-gateway in Azure API Management is een set mogelijkheden waarmee u uw AI-back-ends effectief kunt beheren. Deze mogelijkheden helpen u bij het beheren, beveiligen, schalen, bewaken en beheren van LLM-implementaties (large language model), AI-API's en MCP-servers (Model Context Protocol) die uw intelligente apps en agents ondersteunen.
Gebruik de AI-gateway om een breed scala aan AI-eindpunten te beheren, waaronder:
- Implementaties van Azure AI Foundry en Azure OpenAI in Azure AI Foundry Models
- API-implementaties voor inferentie van Azure AI-modellen
- Externe MCP-servers
- OpenAI-compatibele modellen en eindpunten die worden gehost door niet-Microsoft-providers
- Zelf-hostende modellen en eindpunten
Notitie
De AI-gateway, met inbegrip van MCP-servermogelijkheden, breidt de bestaande API-gateway van API Management uit; het is geen afzonderlijk aanbod. Gerelateerde governance- en ontwikkelaarsfuncties bevinden zich in Azure API Center.
Waarom een AI-gateway gebruiken?
AI-acceptatie in organisaties omvat verschillende fasen:
- Het definiëren van vereisten en evalueren van AI-modellen
- AI-apps en -agents bouwen die toegang nodig hebben tot AI-modellen en -services
- AI-apps en back-ends operationeel maken en implementeren in productie
Naarmate ai-acceptatie zich verder ontwikkeld, met name bij grotere ondernemingen, helpt de AI-gateway om belangrijke uitdagingen aan te pakken, waardoor:
- Toegang tot AI-services verifiëren en autoriseren
- Taakverdeling over meerdere AI-eindpunten
- AI-interacties bewaken en registreren
- Tokengebruik en quota voor meerdere toepassingen beheren
- Selfservice inschakelen voor ontwikkelaarsteams
Verkeersbemiddeling en -controle
Met de AI-gateway kunt u het volgende doen:
- Snel OpenAI-compatibele of pass-through LLM-eindpunten importeren en configureren als API's
- Modellen beheren die geïmplementeerd zijn in Azure AI Foundry of providers zoals Amazon Bedrock
- Voltooiingen, antwoorden en realtime API's van chats beheren
- Uw bestaande REST API's openstellen als MCP-servers en ondersteuning bieden voor doorgifte naar MCP-servers.
Als u bijvoorbeeld een model wilt onboarden dat is geïmplementeerd in AI Foundry of een andere provider, biedt API Management gestroomlijnde wizards voor het importeren van het schema en het instellen van verificatie naar het AI-eindpunt met behulp van een beheerde identiteit, waarbij handmatige configuratie wordt verwijderd. Binnen dezelfde gebruiksvriendelijke ervaring kunt u beleidsregels vooraf configureren voor schaalbaarheid, beveiliging en waarneembaarheid van API's.
Meer informatie:
- Een AI Foundry-API importeren
- Een taalmodel-API importeren
- Een REST API beschikbaar maken als een MCP-server
- Een bestaande MCP-server beschikbaar maken en beheren
Schaalbaarheid en prestaties
Een van de belangrijkste bronnen in generatieve AI-services is tokens. Azure AI Foundry en andere providers wijzen quota toe voor uw modelimplementaties als tokens per minuut (TPM). U distribueert deze tokens over uw modelgebruikers, zoals verschillende toepassingen, ontwikkelaarsteams of afdelingen binnen het bedrijf.
Als u één app hebt die verbinding maakt met een back-end van een AI-service, kunt u het tokenverbruik beheren met een TPM-limiet die u rechtstreeks voor de modelimplementatie hebt ingesteld. Wanneer uw toepassingsportfolio groeit, hebt u mogelijk meerdere apps die één of meerdere AI-service-eindpunten aanroepen. Deze eindpunten kunnen betalen naar gebruik of ingerichte doorvoereenheden (PTU-exemplaren) zijn. U moet ervoor zorgen dat de ene app niet het volledige TPM-quotum gebruikt en ervoor zorgt dat andere apps geen toegang hebben tot de back-ends die ze nodig hebben.
Tokensnelheidsbeperking en quota
Configureer een tokenlimietbeleid voor uw LLM-API's om limieten per API-consument te beheren en af te dwingen op basis van het gebruik van AI-servicetokens. Met dit beleid kunt u een TPM-limiet of een tokenquotum instellen gedurende een bepaalde periode, zoals elk uur, dagelijks, wekelijks, maandelijks of jaarlijks.
Dit beleid biedt flexibiliteit voor het toewijzen van limieten op basis van tokens voor tellersleutels, zoals abonnementssleutel, ip-adres van oorsprong of een willekeurige sleutel die is gedefinieerd via een beleidsexpressie. Het beleid maakt ook het vooraf berekenen van prompttokens aan de kant van Azure API Management mogelijk, waardoor onnodige aanvragen naar de back-end van de AI-service worden geminimaliseerd als de prompt de limiet al overschrijdt.
In het volgende basisvoorbeeld ziet u hoe u een TPM-limiet van 500 per abonnementssleutel instelt:
<llm-token-limit counter-key="@(context.Subscription.Id)"
tokens-per-minute="500" estimate-prompt-tokens="false" remaining-tokens-variable-name="remainingTokens">
</llm-token-limit>
Meer informatie:
Semantische caching
Semantische caching is een techniek die de prestaties van LLM-API's verbetert door de resultaten (voltooiingen) van eerdere prompts in de cache op te slaan en opnieuw te gebruiken door de vectornabijheid van de prompt te vergelijken met eerdere aanvragen. Deze techniek vermindert het aantal aanroepen naar de back-end van de AI-service, verbetert de reactietijden voor eindgebruikers en kan helpen de kosten te verlagen.
Schakel in API Management semantische caching in met behulp van Azure Managed Redis of een andere externe cache die compatibel is met RediSearch en onboarding naar Azure API Management. Met behulp van de Embeddings API slaan de llm-semantic-cache-store en llm-semantic-cache-lookup beleidsregels semantisch vergelijkbare aanvullende prompts op en halen ze uit de cache. Deze aanpak zorgt ervoor dat voltooiingen opnieuw worden gebruikt, wat resulteert in verminderd tokenverbruik en verbeterde responsprestaties.
Meer informatie:
- Een externe cache instellen in Azure API Management
- Semantische caching inschakelen voor AI-API's in Azure API Management
Ingebouwde schaalfuncties in API Management
API Management biedt ook ingebouwde schaalfuncties waarmee de gateway grote hoeveelheden aanvragen naar uw AI-API's kan verwerken. Deze functies omvatten automatische of handmatige toevoeging van gatewayschaaleenheden en toevoeging van regionale gateways voor implementaties met meerdere regio's. Specifieke mogelijkheden zijn afhankelijk van de API Management-servicelaag.
Meer informatie:
- Een API Management-exemplaar upgraden en schalen
- Een API Management-exemplaar implementeren in meerdere regio's
Notitie
Hoewel API Management gatewaycapaciteit kan schalen, moet u ook verkeer schalen en distribueren naar uw AI-back-ends om een hogere belasting aan te kunnen (zie de sectie Veerkracht). Als u bijvoorbeeld wilt profiteren van de geografische distributie van uw systeem in een configuratie met meerdere regio's, moet u back-end AI-services implementeren in dezelfde regio's als uw API Management-gateways.
Beveiliging en veiligheid
Een AI-gateway beveiligt en beheert de toegang tot uw AI-API's. Met de AI-gateway kunt u het volgende doen:
- Beheerde identiteiten gebruiken om te verifiëren bij Azure AI-services, zodat u geen API-sleutels nodig hebt voor verificatie
- OAuth-autorisatie configureren voor AI-apps en -agents voor toegang tot API's of MCP-servers met behulp van de referentiebeheer van API Management
- Beleid toepassen om LLM-prompts automatisch te modereren met behulp van Azure AI Content Safety
Meer informatie:
- Toegang tot Azure OpenAI-API's verifiëren en autoriseren
- Over API-referenties en referentiebeheer
- inhoudsveiligheidscontroles afdwingen op LLM-aanvragen
Resiliency
Een uitdaging bij het bouwen van intelligente toepassingen is ervoor te zorgen dat de toepassingen bestand zijn tegen back-endfouten en hoge belastingen kunnen verwerken. Door uw LLM-eindpunten te configureren met back-ends in Azure API Management, kunt u de belasting over deze eindpunten verdelen. U kunt ook regels voor circuitonderbrekers definiëren om het doorsturen van aanvragen naar back-ends van ai-services te stoppen als ze niet reageren.
Verdelingsmechanisme
De backend load balancer ondersteunt cirkelsgewijs, gewogen, op prioriteit gebaseerde en sessiebewuste loadbalancing. U kunt een distributiestrategie voor belasting definiëren die voldoet aan uw specifieke vereisten. Definieer bijvoorbeeld prioriteiten in de configuratie van de load balancer om een optimaal gebruik van specifieke Azure AI Foundry-eindpunten te garanderen, met name de eindpunten die zijn gekocht als PTU-exemplaren.
Vermogenschakelaar
De stroomonderbreker van het backend systeem beschikt over een dynamische uitschakelingsduur, waarbij waarden worden toegepast uit de Retry-After header die door de backend wordt geleverd. Deze functie zorgt voor nauwkeurig en tijdig herstel van de back-ends, waardoor het gebruik van uw prioriteitsback-ends wordt gemaximaliseerd.
Meer informatie:
Waarneembaarheid en beheer
API Management biedt uitgebreide bewakings- en analysemogelijkheden voor het bijhouden van gebruikspatronen voor tokens, het optimaliseren van kosten, het garanderen van naleving van uw AI-governancebeleid en het oplossen van problemen met uw AI-API's. Gebruik deze mogelijkheden om:
- Logboekprompts en -voltooiingen voor Azure Monitor
- Tokenstatistieken voor elke consument bijhouden in Application Insights
- Het ingebouwde bewakingsdashboard weergeven
- Beleid configureren met aangepaste expressies
- Tokenquota voor toepassingen beheren
U kunt bijvoorbeeld metrische tokengegevens verzenden met het beleid llm-emit-token-metric en aangepaste dimensies toevoegen die u kunt gebruiken om de metrische gegevens te filteren in Azure Monitor. In het volgende voorbeeld worden metrische tokengegevens verzonden met dimensies voor client-IP-adres, API-id en gebruikers-id (uit een aangepaste header):
<llm-emit-token-metric namespace="llm-metrics">
<dimension name="Client IP" value="@(context.Request.IpAddress)" />
<dimension name="API ID" value="@(context.Api.Id)" />
<dimension name="User ID" value="@(context.Request.Headers.GetValueOrDefault("x-user-id", "N/A"))" />
</llm-emit-token-metric>
Schakel ook logboekregistratie in voor LLM-API's in Azure API Management om tokengebruik, prompts en voltooiingen voor facturering en controle bij te houden. Nadat u logboekregistratie hebt ingeschakeld, kunt u de logboeken in Application Insights analyseren en een ingebouwd dashboard in API Management gebruiken om tokenverbruikspatronen in uw AI-API's weer te geven.
Meer informatie:
- Logboekregistratie van tokengebruik, prompts en voltooiingen
- Metrische gegevens over tokenverbruik verzenden
Ontwikkelaarservaring
Gebruik de AI-gateway en Het Azure API Center om de ontwikkeling en implementatie van uw AI-API's en MCP-servers te stroomlijnen. Naast de gebruiksvriendelijke ervaring voor het importeren en configureren van beleid voor algemene AI-scenario's in API Management, kunt u profiteren van:
- Eenvoudige registratie van API's en MCP-servers in een organisatiecatalogus in Azure API Center
- Selfservice-API- en MCP-servertoegang via ontwikkelaarsportals in API Management en API Center
- API Management-beleidstoolkit voor aanpassing
- API Center Copilot Studio-connector om de mogelijkheden van AI-agents uit te breiden
Meer informatie:
- MCP-servers registreren en ontdekken in API Center
- API's en MCP-servers synchroniseren tussen API Management en API Center
- API Management-ontwikkelaarsportal
- API Center-portal
- Azure API Management-beleidstoolkit
- API Center Copilot Studio-connector
Vroege toegang tot AI-gateway functies
Als API Management-klant kunt u vroegtijdige toegang krijgen tot nieuwe functies en mogelijkheden via het releasekanaal van AI Gateway. Met deze toegang kunt u de nieuwste ai-gatewayinnovaties uitproberen voordat ze algemeen beschikbaar zijn en feedback geven om het product vorm te geven.
Meer informatie:
Labs en codevoorbeelden
- AI-gateway-mogelijkheden labs
- Workshop ai-gateway
- Azure OpenAI met API Management (Node.js)
- Python-voorbeeldcode
Architectuur en ontwerp
- Referentiearchitectuur voor AI-gateways met API Management
- Ai Hub Gateway-landingszoneversneller
- Een gatewayoplossing ontwerpen en implementeren met Azure OpenAI-resources
- Een gateway gebruiken vóór meerdere Azure OpenAI-implementaties