你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。
配额范围
不会在租户级别强制执行配额和限制。 而是将配额限制的最高级别限定在 Azure 订阅级别。
区域配额分配
每分钟的令牌数(TPM)和每分钟请求数(RPM)的限制被定义为按区域、按订阅以及按模型或部署类型。
例如,如果gpt-4.1列出全局标准模型,配额为 500 万 TPM 和 5,000 RPM,则每个可用模型或部署类型的区域都有自己的专用配额池,每个 Azure 订阅的配额池为该数量。 在单个 Azure 订阅中,只要资源和模型部署分布在多个区域,就可以对给定的模型和部署类型使用更大的 TPM 和 RPM 配额。
配额与限制参考
以下部分提供了适用于 Azure OpenAI 的默认配额和限制的快速指南:
| 限制名称 | 限制值 |
|---|---|
| 每个区域、每个 Azure 订阅的 Azure OpenAI 资源 | 30. |
| 默认 DALL-E 2 配额限制 | 2 个并发请求。 |
| 默认 DALL-E 3 配额限制 | 2 个容量单位(每分钟 6 个请求)。 |
| 默认 GPT-image-1 配额限制 | 2 个容量单位(每分钟 6 个请求)。 |
| 默认 Sora 配额限制 | 每分钟 60 个请求。 |
| 默认Sora 2配额限制 | 2 个并行任务 |
| 默认语音转文本音频 API 配额限制 | 每分钟 3 个请求。 |
| 每个请求的最大提示令牌数 | 每个模型不同。 有关详细信息,请参阅 Azure OpenAI 模型。 |
| 每个资源的最大标准部署数 | 32. |
| 最大微调模型部署 | 5 |
| 每个资源的训练作业总数 | 100. |
| 每个资源可同时运行的训练作业最大数量 | 1. |
| 队列中的最大训练作业数 | 20. |
| 每个资源的最大文件数(优化) | 50. |
| 每个资源的所有文件的总大小(优调) | 1 GB。 |
| 训练作业的最长时间(若超出则作业失败) | 720 小时。 |
最大训练作业大小 (tokens in training file) x (# of epochs) |
20 亿。 |
| 每次上传的所有文件的最大大小(数据上的 Azure OpenAI) | 16 MB。 |
数组中具有 /embeddings 的最大输入数 |
2,048. |
最大消息数/chat/completions |
2,048. |
最大数量的/chat/completions函数 |
128. |
最大工具数/chat completions |
128. |
| 每个部署预配的吞吐量单位数上限 | 100,000. |
| 每个助理或线程的最大文件数 | 使用 API 或 Azure AI Foundry 门户时为 10,000。 |
| 助手和微调的最大文件大小 | 512 MB 通过 Azure AI Foundry 门户 下载 200 MB。 |
| 每个资源的最大文件上传请求数 | 每秒 30 个请求。 |
| 助手的所有上传文件的最大大小 | 200 GB。 |
| 助手令牌限制 | 限制为 2,000,000 个令牌。 |
GPT-4o 以及 GPT-4.1 每个请求的最大图像数(消息数组或对话历史记录中的图像数) |
50. |
GPT-4
vision-preview 和 GPT-4turbo-2024-04-09 默认的最大令牌 |
16. 增加 max_tokens 参数值以避免响应被截断。
GPT-4o 最大令牌默认为 4,096。 |
| API 请求中自定义标头的最大数目1 | 10. |
| 消息字符限制 | 1,048,576. |
| 音频文件的消息大小 | 20 MB。 |
1 我们的当前 API 最多允许 10 个自定义标头,这些标头通过管道传递并返回。 某些客户现在超过此标头计数,这会导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们不会传递自定义标头。 我们建议客户在未来的系统体系结构中不依赖于自定义标头。
注释
配额限制可能会更改。
GPT-5 系列
| 型号 | 全局默认值 每分钟标记数 (TPM) |
Global Enterprise 和 MCA-E 每分钟标记数 (TPM) |
Data Zone Default 每分钟标记数 (TPM) |
Data Zone Enterprise 和 MCA-E 每分钟标记数 (TPM) |
|---|---|---|---|---|
gpt-5 |
1百万 | 10 M | 300 K | 3百万 |
gpt-5-mini |
1百万 | 10 M | 300 K | 3百万 |
gpt-5-nano |
5百万 | 150 M | 2百万 | 50米 |
gpt-5-chat |
1百万 | 5百万 | 无 | 无 |
gpt-5-codex |
1百万 | 10 M | 无 | 无 |
gpt-5-pro |
160 K | 1.6 M | 无 | 无 |
| 型号 | 全局默认值 每分钟请求数 (RPM) |
Global Enterprise 和 MCA-E 每分钟请求数 (RPM) |
Data Zone Default 每分钟请求数 (RPM) |
Data Zone Enterprise 和 MCA-E 每分钟请求数 (RPM) |
|---|---|---|---|---|
gpt-5 |
10 K | 100 K | 3 K | 30 K |
gpt-5-mini |
1 K | 10 K | 300 | 3 K |
gpt-5-nano |
5公里 | 150 K | 2 K | 50K |
gpt-5-chat |
1 K | 5公里 | 无 | 无 |
gpt-5-codex |
1 K | 10 K | 无 | 无 |
gpt-5-pro |
1.6 K | 16 K | 无 | 无 |
批次限制
| 限制名称 | 限制值 |
|---|---|
| 每个资源的最大文件数 | 500 |
| 最大输入文件大小 | 200 MB |
| 每个文件的最大请求数 | 100,000 |
批处理配额
该表展示了批次配额限制。 全局批处理的配额值以入队令牌表示。 提交文件以进行批处理时,将计算文件中的令牌数。 在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。
全局批处理
| 型号 | 企业和 MCA-E | 违约 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
|---|---|---|---|---|---|
gpt-4.1 |
5B | 200M | 50M | 90K | 无 |
gpt-4.1 mini |
15B | 1B | 50M | 90K | 无 |
gpt-4.1-nano |
15B | 1B | 50M | 90K | 无 |
gpt-4o |
5B | 200M | 50M | 90K | 无 |
gpt-4o-mini |
15B | 1B | 50M | 90K | 无 |
gpt-4-turbo |
300MB | 80M | 40M | 90K | 无 |
gpt-4 |
150兆 | 30M | 5M | 100K | 无 |
gpt-35-turbo |
10B | 1B | 100兆字节 | 2M | 50K |
o3-mini |
15B | 1B | 50M | 90K | 无 |
o4-mini |
15B | 1B | 50M | 90K | 无 |
B = 十亿 | M = 百万 | K = 千
数据区域批处理
| 型号 | 企业和 MCA-E | 违约 | 基于信用卡的每月订阅 | MSDN 订阅 | 面向学生的 Azure 免费试用版 |
|---|---|---|---|---|---|
gpt-4.1 |
500M | 30M | 30M | 90K | 无 |
gpt-4.1-mini |
15亿 | 100兆字节 | 50M | 90K | 无 |
gpt-4o |
500M | 30M | 30M | 90K | 无 |
gpt-4o-mini |
15亿 | 100兆字节 | 50M | 90K | 无 |
o3-mini |
15亿 | 100兆字节 | 50M | 90K | 无 |
gpt-oss
| 型号 | 每分钟标记数 (TPM) | 每分钟请求数 (RPM) |
|---|---|---|
gpt-oss-120b |
5百万 | 5公里 |
GPT-4 速率限制
GPT-4.5 全球标准预览版
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4.5 |
企业和 MCA-E | 200K | 200 |
gpt-4.5 |
违约 | 150K | 150 |
GPT-4.1 系列全局标准
| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
企业和 MCA-E | 5M | 5K |
gpt-4.1 (2025-04-14) |
违约 | 一百万 | 1K |
gpt-4.1-nano (2025-04-14) |
企业和 MCA-E | 150兆 | 150K |
gpt-4.1-nano (2025-04-14) |
违约 | 5M | 5K |
gpt-4.1-mini (2025-04-14) |
企业和 MCA-E | 150兆 | 150K |
gpt-4.1-mini (2025-04-14) |
违约 | 5M | 5K |
GPT-4.1 系列数据区域标准版
| 型号 | 层 | 每分钟令牌的配额限制 (TPM) | 每分钟请求数 |
|---|---|---|---|
gpt-4.1 (2025-04-14) |
企业和 MCA-E | 2M | 2K |
gpt-4.1 (2025-04-14) |
违约 | 300K | 300 |
gpt-4.1-nano (2025-04-14) |
企业和 MCA-E | 50M | 50K |
gpt-4.1-nano (2025-04-14) |
违约 | 2M | 2K |
gpt-4.1-mini (2025-04-14) |
企业和 MCA-E | 50M | 50K |
gpt-4.1-mini (2025-04-14) |
违约 | 2M | 2K |
GPT-4 Turbo
gpt-4 (turbo-2024-04-09) 的速率限制层为某些客户类型设定了更高的限制。
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4 (turbo-2024-04-09) |
企业和 MCA-E | 2M | 12K |
gpt-4 (turbo-2024-04-09) |
违约 | 450K | 2.7K |
模型路由器速率限制
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
model-router (2025-05-19) |
企业和 MCA-E | 10M | 10K |
model-router (2025-05-19) |
违约 | 一百万 | 1K |
computer-use-preview 全球标准速率限制
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
computer-use-preview |
企业和 MCA-E | 30M | 300K |
computer-use-preview |
违约 | 450K | 4.5K |
o 系列速率限制
重要
配额每分钟请求数与每分钟令牌的比率可能因模型而异。 在以编程方式部署模型或请求配额增加时,您无法分别对每分钟的令牌数和请求数进行精细的独立控制。 配额按容量单位分配,每分钟有相应的请求量和每分钟令牌数。
| 型号 | 能力 | 每分钟请求数 (RPM) | 每分钟标记数 (TPM) |
|---|---|---|---|
| 较旧的聊天模型 | 1 个单位 | 6 转速 | 每分钟千次(TPM) |
o1 和 o1-preview |
1 个单位 | 1 转速 (RPM) | 6,000 每分钟交易量(TPM) |
o3 |
1 个单位 | 1 转速 (RPM) | 每分钟千次(TPM) |
o4-mini |
1 个单位 | 1 转速 (RPM) | 每分钟千次(TPM) |
o3-mini |
1 个单位 | 1 转速 (RPM) | 10,000 次/分钟交易量 |
o1-mini |
1 个单位 | 1 转速 (RPM) | 10,000 次/分钟交易量 |
o3-pro |
1 个单位 | 1 转速 (RPM) | 10,000 次/分钟交易量 |
此概念对于编程模型部署非常重要,因为 RPM 与 TPM 比率的更改可能会导致意外分配配额错误。
o 系列全局标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
codex-mini |
企业和 MCA-E | 10M | 10K |
o3-pro |
企业和 MCA-E | 16M | 1.6K |
o4-mini |
企业和 MCA-E | 10M | 10K |
o3 |
企业和 MCA-E | 10M | 10K |
o3-mini |
企业和 MCA-E | 50M | 5K |
o1 和 o1-preview |
企业和 MCA-E | 30M | 5K |
o1-mini |
企业和 MCA-E | 50M | 5K |
codex-mini |
违约 | 一百万 | 1K |
o3-pro |
违约 | 160万 | 160 |
o4-mini |
违约 | 一百万 | 1K |
o3 |
违约 | 一百万 | 1K |
o3-mini |
违约 | 5M | 500 |
o1 和 o1-preview |
违约 | 3M | 500 |
o1-mini |
违约 | 5M | 500 |
O 系列数据区标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
o3 |
违约 | 10M | 10K |
o4-mini |
违约 | 10M | 10K |
o3-mini |
企业和 MCA-E | 20M | 2K |
o3-mini |
违约 | 2M | 200 |
o1 |
企业和 MCA-E | 6M | 1K |
o1 |
违约 | 600K | 100 |
o1-preview 和 o1-mini 标准版
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
o1-preview |
企业和 MCA-E | 600K | 100 |
o1-mini |
企业和 MCA-E | 一百万 | 100 |
o1-preview |
违约 | 300K | 50 |
o1-mini |
违约 | 500K | 50 |
gpt-4o 速率限制
gpt-4o 和 gpt-4o-mini 提供对某些客户类型限制更高的速率限制层。
gpt-4o 全局标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o |
企业和 MCA-E | 30M | 18万 |
gpt-4o-mini |
企业和 MCA-E | 150兆 | 150万 |
gpt-4o |
违约 | 450K | 2.7K |
gpt-4o-mini |
违约 | 2M | 12K |
gpt-4o 数据区域标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o |
企业和 MCA-E | 10M | 60K |
gpt-4o-mini |
企业和 MCA-E | 20M | 120K |
gpt-4o |
违约 | 300K | 1.8K |
gpt-4o-mini |
违约 | 一百万 | 6K |
gpt-4o Standard
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o |
企业和 MCA-E | 一百万 | 6K |
gpt-4o-mini |
企业和 MCA-E | 2M | 12K |
gpt-4o |
违约 | 150K | 900 |
gpt-4o-mini |
违约 | 450K | 2.7K |
gpt-4o 音频
在预览期间,每个 gpt-4o 实时模型部署的速率限制至少为每分钟 100,000 个 token 和每分钟 1,000 个请求,即使在 Azure AI Foundry 门户中显示了更低的限制也是如此。
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-4o-audio-preview |
违约 | 450K | 1K |
gpt-4o-realtime-preview |
违约 | 80万 | 1K |
gpt-4o-mini-audio-preview |
违约 | 2M | 1K |
gpt-4o-mini-realtime-preview |
违约 | 80万 | 1K |
gpt-audio |
违约 | 100K | 30 |
gpt-audio-mini |
违约 | 100K | 30 |
gpt-realtime |
违约 | 100K | 30 |
gpt-realtime-mini |
违约 | 100K | 30 |
GPT-image-1 速率限制
GPT-image-1 全球标准
| 型号 | 层 | 每分钟的令牌配额限制 | 每分钟请求数 |
|---|---|---|---|
gpt-image-1 |
企业和 MCA-E | 无 | 20 |
gpt-image-1 |
违约 | 无 | 6 |
gpt-image-1-mini |
Low | 无 | 12 |
gpt-image-1-mini |
中等 | 无 | 36 |
gpt-image-1-mini |
High | 无 | 120 |
使用级别
全局标准部署使用 Azure 的全局基础结构。 他们动态地将客户流量路由到具有最佳可用性的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许使用 Azure 的全局基础结构,以动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 这种实践为流量级别在低至中等的客户提供更为稳定的一致性延迟。 持续高使用量级别的客户可能会发现响应延迟的可变性更大。
使用限制确定使用水平,超过该水平后,客户可能会看到更大的响应延迟变动。 每个模型都定义了客户的使用情况。 它是给定租户在所有区域和所有订阅中的所有部署中消耗的令牌总数。
注释
使用层仅适用于标准、数据区域标准和全局标准部署类型。 使用层不适用于全局批处理和预配的吞吐量部署。
全局标准、数据区标准和标准
| 型号 | 每月使用等级 |
|---|---|
gpt-4
+
gpt-4-32k(所有版本) |
60 亿个令牌 |
gpt-4o |
120 亿个令牌 |
gpt-4o-mini |
850 亿个令牌 |
o3-mini |
500 亿个令牌 |
o1 |
40 亿个令牌 |
o4-mini |
500 亿个令牌 |
o3 |
50 亿个令牌 |
gpt-4.1 |
300 亿个令牌 |
gpt-4.1-mini |
1500 亿个令牌 |
gpt-4.1-nano |
5500 亿个令牌 |
其他套餐类型
如果 Azure 订阅链接到某些 产品/服务类型,则最大配额值低于上表中指示的值。
GPT-5-pro 配额仅适用于 MCA-E 和默认配额订阅。 默认情况下,所有其他产品/服务类型对此模型具有零配额。
对于不享有 MCA-E 或默认配额访问权限的所有提供类型,GPT-5 推理模型配额为 20K TPM 和 200 RPM。 对于 GPT-5-chat,限制为每分钟 50,000 个 token 和每分钟 50 个请求。
某些产品/服务类型仅限于美国东部 2 和瑞典中部地区的全球标准部署。
| 层 | 每分钟的令牌配额限制 |
|---|---|
Azure for Students |
1K (所有模型) 异常 o-series、GPT-4.1 与 GPT 4.5 预览:0 |
MSDN |
GPT-4o-mini:200K GPT 3.5 涡轮增压系列:200K GPT-4 系列:50K computer-use-preview: 8K gpt-4o-realtime-preview: 1K o-series:0 GPT 4.5 预览版:0 GPT-4.1:50K GPT-4.1-nano:200K |
Standard& Pay-as-you-go |
GPT-4o-mini:200K GPT 3.5 涡轮增压系列:200K GPT-4 系列:50K computer-use-preview:30K o-series:0 GPT 4.5 预览版:0 GPT-4.1:50K GPT-4.1-nano:200K |
Azure_MS-AZR-0111P Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
GPT-4o-mini:200K GPT 3.5 涡轮增压系列:200K GPT-4 系列:50K |
CSP Integration Sandbox
*
|
所有模型:0 |
Lightweight trialFree trialsAzure Pass |
所有模型:0 |
*此限制仅适用于少量旧版 CSP 沙盒订阅。 使用以下查询确定与你的订阅关联的 quotaId 值是什么。
若要确定与订阅关联的产品/服务类型,可以检查你的 quotaId 值。 如果此表中未列出你的 quotaId 值,则订阅符合默认配额。
请参阅 API 参考。
az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
-H "Authorization: Bearer $access_token" \
-H "Content-Type: application/json"
输出
{
"authorizationSource": "Legacy",
"displayName": "Pay-As-You-Go",
"id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"state": "Enabled",
"subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
"subscriptionPolicies": {
"locationPlacementId": "Public_2014-09-01",
"quotaId": "PayAsYouGo_2014-09-01",
"spendingLimit": "Off"
}
}
| 配额分配/套餐类型 | 订阅配额 ID |
|---|---|
| 企业和 MCA-E | EnterpriseAgreement_2014-09-01 |
| 即用即付 | PayAsYouGo_2014-09-01 |
| MSDN | MSDN_2014-09-01 |
| CSP 集成沙盒 | CSPDEVTEST_2018-05-01 |
| 面向学生的 Azure | AzureForStudents_2018-01-01 |
| 免费试用 | FreeTrial_2014-09-01 |
| Azure Pass | AzurePass_2014-09-01 |
| Azure_MS-AZR-0111P | AzureInOpen_2014-09-01 |
| Azure_MS-AZR-0150P | LightweightTrial_2016-09-01 |
| Azure_MS-AZR-0035P Azure_MS-AZR-0025P Azure_MS-AZR-0052P |
MPN_2014-09-01 |
| Azure_MS-AZR-0023P Azure_MS-AZR-0060P Azure_MS-AZR-0148P Azure_MS-AZR-0148G |
MSDNDevTest_2014-09-01 |
| 违约 | 此表中未列出的任何配额编号 |
保持在速率限制范围内的一般最佳做法
若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:
- 在应用程序中实现重试逻辑
- 避免工作负载的急剧变化。 逐步增大工作负载。
- 测试不同负载增加模式。
- 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。
请求增加配额
可以通过配额增加请求表单提交配额增加请求。 由于需求较高,会接受配额增加请求,并按收到请求的顺序进行填写。 优先考虑使用现有配额分配流量的客户。 如果不符合此条件,可能会拒绝你的请求。
可以 提交服务请求 以获取其他速率限制。
区域配额容量限制
可以在 Azure AI Foundry 门户中按订阅的区域查看配额可用性。
若要按区域查看特定模型或版本的配额容量,可以查询订阅的 容量 API 。 请提供subscriptionId、model_name和model_version,API将返回该型号在您的订阅中所有区域和部署类型的可用容量。
注释
目前,Azure AI Foundry 门户和容量 API 都返回 已停用 且不再可用的模型的配额/容量信息。
请参阅 API 参考。
import requests
import json
from azure.identity import DefaultAzureCredential
subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o" # Example value, replace with model name
model_version = "2024-08-06" # Example value, replace with model version
token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}
url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
"api-version": "2024-06-01-preview",
"modelFormat": "OpenAI",
"modelName": model_name,
"modelVersion": model_version
}
response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()
print(json.dumps(model_capacity, indent=2))
相关内容
- 探索如何管理 Azure OpenAI 部署的配额。
- 详细了解 支持 Azure OpenAI 的基础模型。