Share via


Reacties op API-aanvragen voor grote taalmodellen in de cache opslaan

VAN TOEPASSING OP: Alle API Management-lagen

Met het llm-semantic-cache-store beleid worden antwoorden op api-aanvragen voor voltooiing van chats in de cache opgeslagen in een geconfigureerde externe cache. Reactiecaching vermindert de bandbreedte en verwerkingsvereisten die zijn opgelegd aan de Back-end Azure OpenAI-API en verlaagt de latentie die wordt waargenomen door API-consumenten.

Notitie

Notitie

Stel de elementen en onderliggende elementen van het beleid in de volgorde in die in de beleidsverklaring is opgegeven. Meer informatie over het instellen of bewerken van API Management-beleid.

Ondersteunde modellen

Gebruik het beleid met LLM-API's die zijn toegevoegd aan Azure API Management die beschikbaar zijn via de Azure AI-modeldeductie-API of met openAI-compatibele modellen die worden geleverd via externe deductieproviders.

Beleidsinstructie

<llm-semantic-cache-store duration="seconds"/>

Kenmerken

Kenmerk Beschrijving Vereist Standaardinstelling
duur Time-to-live van de items in de cache, opgegeven in seconden. Beleidsexpressies zijn toegestaan. Ja N.v.t.

Gebruik

Gebruiksnotities

  • Dit beleid kan slechts eenmaal worden gebruikt in een beleidssectie.
  • Als het opzoeken van de cache mislukt, veroorzaakt de API-aanroep die gebruikmaakt van de bewerking met betrekking tot de cache geen fout en wordt de cachebewerking voltooid.
  • U wordt aangeraden een beleid voor frequentielimiet (of beleid voor frequentielimiet per sleutel ) onmiddellijk na een cachezoekactie te configureren. Dit helpt ervoor te zorgen dat uw back-endservice overbelast raakt als de cache niet beschikbaar is.

Voorbeelden

Voorbeeld met overeenkomend beleid voor llm-semantic-cache-lookup

In het volgende voorbeeld ziet u hoe u het llm-semantic-cache-lookup beleid samen met het llm-semantic-cache-store beleid gebruikt om semantisch vergelijkbare reacties in de cache op te halen met een drempelwaarde voor overeenkomstenscore van 0,05. Waarden in de cache worden gepartitioneerd door de abonnements-id van de aanroeper.

Notitie

Het beleid voor frequentielimiet dat is toegevoegd nadat de cachezoekactie heeft toegevoegd, helpt het aantal aanroepen te beperken om te voorkomen dat de back-endservice overbelast raakt als de cache niet beschikbaar is.

<policies>
    <inbound>
        <base />
        <llm-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="llm-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </llm-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <llm-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

Zie voor meer informatie over het werken met beleid: