Dela via


Snabb cachelagring

Med cachelagring av frågor kan du minska den totala svarstiden och kostnaden för längre frågor som har identiskt innehåll i början av prompten. "Fråga" i den här kontexten refererar till de indata som du skickar till modellen som en del av din begäran om att chatten ska slutföras. I stället för att bearbeta samma indatatoken om och om igen kan tjänsten behålla en tillfällig cache med bearbetade indatatokenberäkningar för att förbättra den övergripande prestandan. Cachelagring av frågor påverkar inte utdatainnehållet som returneras i modellsvaret utöver en minskning av svarstid och kostnad. För modeller som stöds debiteras cachelagrade token med rabatt på prissättning för indatatoken för standarddistributionstyper och upp till 100 % rabatt på indatatoken för etablerade distributionstyper .

Cacheminnen rensas vanligtvis inom 5–10 minuters inaktivitet och tas alltid bort inom en timme efter cachens senaste användning. Prompt-cacheminnen delas inte mellan Azure-prenumerationer.

Modeller som stöds

  • Snabbcachelagring stöds med alla Azure OpenAI-modeller GPT-4o eller senare.
  • Prompt cachelagring gäller för modeller som innefattar chattkomplettering, slutförande, svar eller realtidsåtgärder. För modeller som inte har dessa åtgärder är den här funktionen inte tillgänglig.

Komma igång

För att en begäran ska kunna dra nytta av snabb cachelagring måste begäran vara både:

  • Minst 1 024 tokens i längd.
  • De första 1 024 token i prompten måste vara identiska.

Begäranden dirigeras baserat på en hash för det inledande prefixet för en fråga.

När en matchning hittas mellan tokenberäkningarna i en prompt och det aktuella innehållet i promptcachen kallas den för en cacheträff. Cacheträffar visas som cached_tokens under prompt_tokens_details i chattens slutförandesvar.

{
  "created": 1729227448,
  "model": "o1-2024-12-17",
  "object": "chat.completion",
  "service_tier": null,
  "system_fingerprint": "fp_50cdd5dc04",
  "usage": {
    "completion_tokens": 1518,
    "prompt_tokens": 1566,
    "total_tokens": 3084,
    "completion_tokens_details": {
      "audio_tokens": null,
      "reasoning_tokens": 576
    },
    "prompt_tokens_details": {
      "audio_tokens": null,
      "cached_tokens": 1408
    }
  }
}

När de första 1 024 tokencacheträffarna inträffar för varje 128 ytterligare identiska token.

En skillnad med ett tecken i de första 1 024 tokens resulterar i en cachemiss som kännetecknas av värdet cached_tokens 0. Cachelagring av frågor är aktiverat som standard utan ytterligare konfiguration som behövs för modeller som stöds.

Om du anger parametern user kombineras den med hashprefixen, det gör att du kan påverka routingen och förbättra cacheträffsfrekvensen. Detta är särskilt fördelaktigt när många begäranden delar långa, vanliga prefix.

Vad cachelagras?

Funktionsstöd för o1-seriens modeller varierar beroende på modell. Mer information finns i vår guide för dedikerade resonemangsmodeller.

Cachelagring av frågor stöds för:

Cachelagring stöds Description Modeller som stöds
Messages Den fullständiga meddelandematrisen: system, utvecklare, användare och assistentinnehåll gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (version 2024-12-17)
gpt-4o-mini-realtime-preview (version 2024-12-17)
gpt-realtime (version 2025-08-28)
gpt-realtime-mini (version 2025-10-06)
o1 (version 2024-12-17)
o3-mini (version 2025-01-31)
Images Bilder som ingår i användarmeddelanden, både som länkar eller som base64-kodade data. Detaljparametern måste anges på samma sätt mellan begäranden. gpt-4o
gpt-4o-mini
o1 (version 2024-12-17)
Verktygsanvändning Både meddelandematrisen och verktygsdefinitionerna. gpt-4o
gpt-4o-mini
gpt-4o-realtime-preview (version 2024-12-17)
gpt-4o-mini-realtime-preview (version 2024-12-17)
gpt-realtime (version 2025-08-28)
gpt-realtime-mini (version 2025-10-06)
o1 (version 2024-12-17)
o3-mini (version 2025-01-31)
Strukturerade utdata Strukturerat utdataschema läggs till som ett prefix i systemmeddelandet. gpt-4o
gpt-4o-mini
o1 (version 2024-12-17)
o3-mini (version 2025-01-31)

För att förbättra sannolikheten för att cacheträffar ska du strukturera dina begäranden så att repetitivt innehåll inträffar i början av meddelandematrisen.

Kan jag inaktivera cachelagring av frågor?

Cachelagring av frågor är aktiverat som standard för alla modeller som stöds. Det finns inget avanmälningsstöd för cachelagring av uppmaningar.