你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 模型配额和限制

本文提供了有关 Azure AI Foundry 模型的配额和限制的快速参考及详细说明。 有关特定于 Foundry 模型中 Azure OpenAI 的配额 和限制,请参阅 Azure OpenAI 中的配额和限制

配额与限制参考

Azure 使用配额和限制来防止由于欺诈导致的预算超支,并遵循 Azure 容量约束。 对于生产工作负载,请在缩放时考虑这些限制。 以下部分提供在 Azure AI Foundry 中适用于 Azure AI 模型推理服务的默认配额和限制的快速指南:

资源限制

限制名称 限制值
每个 Azure 订阅每个区域的 Azure AI Foundry 资源 100
每个资源的最大项目数 250
每个资源的最大部署数 32

速率限制

下表列出了 Foundry 模型针对以下速率的限制:

  • 每分钟标记数
  • 每分钟请求数
  • 并发请求
Models 每分钟标记数 每分钟请求数 并发请求
Azure OpenAI 模型 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制 因模型和 SKU 而异。 请参阅 Azure OpenAI 的限制 不适用
- DeepSeek-R1
- DeepSeek-V3-0324
5,000,000 5,000 300
- Llama 3.3 70B Instruct
- Llama-4-Maverick-17B-128E-Instruct-FP8
- Grok 3
- Grok 3 mini
400,000 1,000 300
- Flux-Pro 1.1
- Flux.1-Kontext Pro
不适用 2 个容量单位(每分钟 6 个请求) 不适用
其余模型 400,000 1,000 300

如要增加配额,请采取以下操作:

由于申请量较大,我们对每项提额请求都会逐一进行评估。

其他限制

限制名称 限制值
API 请求中的最大自定义标头数1 10

1 我们目前的 API 允许设置多达 10 个自定义标头,这些标头将由管道传递并返回。 如果超过此标头计数,请求将导致 HTTP 431 错误。 若要解决此错误,请减少标头量。 未来的 API 版本不再传递自定义标头。 我们不建议你在未来的系统体系结构中依赖自定义标头。

使用级别

全球标准部署使用 Azure 的全球基础结构,将客户流量动态路由到可用性最好的数据中心,以满足客户的推理请求。 这样,对于流量低到中等级别的客户,此基础结构可实现更一致的延迟。 持续使用率较高的客户可能会发现响应延迟的可变性更高。

使用限制决定了使用水平,超过该水平客户可能会看到响应延迟的可变性更高。 客户使用情况按模型定义,是给定租户在所有区域的所有订阅中的所有部署中消耗的总令牌。

请求提高默认限制

可以通过配额增加请求表单提交配额增加请求。 由于需求较高,会接受配额增加请求,并按收到请求的顺序进行填写。 优先考虑使用现有配额分配流量的客户。 如果不符合此条件,可能会拒绝你的请求。

可以 提交服务请求 以获取其他速率限制。

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以使用以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

后续步骤