你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

缓存对 Azure OpenAI API 请求的响应

适用于:所有 API 管理层级

策略 azure-openai-semantic-cache-store 将响应 Azure OpenAI 聊天完成 API 请求缓存到配置的外部缓存。 响应缓存可以降低后端 Azure OpenAI API 需要满足的带宽和处理能力要求,并可以减小 API 使用者能够察觉到的延迟。

注意

注意

按照策略声明中提供的顺序设置策略的元素和子元素。 详细了解如何设置或编辑 API 管理策略

Azure AI Foundry 模型中支持的 Azure OpenAI

该策略与从以下类型的 AI Foundry 模型中的 Azure OpenAI 添加到 API 管理的 API 一起使用:

API 类型 支持的模型
聊天补全 gpt-3.5

gpt-4

gpt-4o

gpt-4o-mini

o1

o3
嵌入 text-embedding-3-large

text-embedding-3-small

text-embedding-ada-002
响应(预览版) gpt-4o(版本:2024-11-202024-08-062024-05-13

gpt-4o-mini (版本: 2024-07-18

gpt-4.1 (版本: 2025-04-14

gpt-4.1-nano (版本: 2025-04-14

gpt-4.1-mini (版本: 2025-04-14

gpt-image-1 (版本: 2025-04-15

o3 (版本: 2025-04-16

o4-mini (版本:'2025-04-16)

注意

传统完成 API 仅适用于旧模型版本,并且支持受到限制。

有关模型及其功能的当前信息,请参阅 Foundry 模型中的 Azure OpenAI

策略语句

<azure-openai-semantic-cache-store duration="seconds"/>

属性

属性 说明 需要 默认
持续时间 缓存条目的生存时间,以秒为单位指定。 允许使用策略表达式。 空值

使用情况

  • 策略节:出站
  • 策略范围:全局、产品、API、操作
  • 网关: 经典、v2、消耗、自承载

使用注意事项

  • 此策略只能在策略部分中使用一次。
  • 如果缓存查找失败,则使用缓存相关操作的 API 调用不会引发错误,并且缓存操作成功完成。
  • 建议在任何缓存查找后立即配置 速率限制 策略(或 按键速率限制 策略)。 这有助于防止后端服务在缓存不可用时过载。

示例

相应的 azure-openai-semantic-cache-lookup 策略的示例

以下示例演示如何将 azure-openai-semantic-cache-lookup 策略与策略一起使用 azure-openai-semantic-cache-store ,以语义方式检索具有相似性分数阈值为 0.05 的类似缓存响应。 缓存值按调用方订阅 ID 进行分区。

注意

缓存查找后添加的 速率限制 策略有助于限制在缓存不可用时阻止后端服务重载的调用数。

<policies>
    <inbound>
        <base />
        <azure-openai-semantic-cache-lookup
            score-threshold="0.05"
            embeddings-backend-id ="azure-openai-backend"
            embeddings-backend-auth ="system-assigned" >
            <vary-by>@(context.Subscription.Id)</vary-by>
        </azure-openai-semantic-cache-lookup>
        <rate-limit calls="10" renewal-period="60" />
    </inbound>
    <outbound>
        <azure-openai-semantic-cache-store duration="60" />
        <base />
    </outbound>
</policies>

有关使用策略的详细信息,请参阅: