你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure AI Foundry 模型中的 Azure OpenAI 配额和限制

本文包含有关 Azure OpenAI 配额和限制的快速参考和详细说明。

配额范围

不会在租户级别强制执行配额和限制。 而是将配额限制的最高级别限定在 Azure 订阅级别。

区域配额分配

每分钟的令牌数(TPM)和每分钟请求数(RPM)的限制被定义为按区域按订阅以及按模型或部署类型

例如,如果gpt-4.1列出全局标准模型,配额为 500 万 TPM5,000 RPM,则每个可用模型或部署类型的区域都有自己的专用配额池,每个 Azure 订阅的配额池为该数量。 在单个 Azure 订阅中,只要资源和模型部署分布在多个区域,就可以对给定的模型和部署类型使用更大的 TPM 和 RPM 配额。

配额与限制参考

以下部分提供了适用于 Azure OpenAI 的默认配额和限制的快速指南:

限制名称 限制值
每个区域、每个 Azure 订阅的 Azure OpenAI 资源 30.
默认 DALL-E 2 配额限制 2 个并发请求。
默认 DALL-E 3 配额限制 2 个容量单位(每分钟 6 个请求)。
默认 GPT-image-1 配额限制 2 个容量单位(每分钟 6 个请求)。
默认 Sora 配额限制 每分钟 60 个请求。
默认Sora 2配额限制 2 个并行任务
默认语音转文本音频 API 配额限制 每分钟 3 个请求。
每个请求的最大提示令牌数 每个模型不同。 有关详细信息,请参阅 Azure OpenAI 模型
每个资源的最大标准部署数 32.
最大微调模型部署 5
每个资源的训练作业总数 100.
每个资源可同时运行的训练作业最大数量 1.
队列中的最大训练作业数 20.
每个资源的最大文件数(优化) 50.
每个资源的所有文件的总大小(优调) 1 GB。
训练作业的最长时间(若超出则作业失败) 720 小时。
最大训练作业大小 (tokens in training file) x (# of epochs) 20 亿。
每次上传的所有文件的最大大小(数据上的 Azure OpenAI) 16 MB。
数组中具有 /embeddings 的最大输入数 2,048.
最大消息数/chat/completions 2,048.
最大数量的/chat/completions函数 128.
最大工具数/chat completions 128.
每个部署预配的吞吐量单位数上限 100,000.
每个助理或线程的最大文件数 使用 API 或 Azure AI Foundry 门户时为 10,000。
助手和微调的最大文件大小 512 MB

通过 Azure AI Foundry 门户 下载 200 MB。
每个资源的最大文件上传请求数 每秒 30 个请求。
助手的所有上传文件的最大大小 200 GB。
助手令牌限制 限制为 2,000,000 个令牌。
GPT-4o 以及 GPT-4.1 每个请求的最大图像数(消息数组或对话历史记录中的图像数) 50.
GPT-4 vision-previewGPT-4turbo-2024-04-09 默认的最大令牌 16.

增加 max_tokens 参数值以避免响应被截断。 GPT-4o 最大令牌默认为 4,096。
API 请求中自定义标头的最大数目1 10.
消息字符限制 1,048,576.
音频文件的消息大小 20 MB。

1 我们的当前 API 最多允许 10 个自定义标头,这些标头通过管道传递并返回。 某些客户现在超过此标头计数,这会导致 HTTP 431 错误。 除了减少标头量之外,此错误没有其他解决方案。 在未来的 API 版本中,我们不会传递自定义标头。 我们建议客户在未来的系统体系结构中不依赖于自定义标头。

注释

配额限制可能会更改。

GPT-5 系列

型号 全局默认值
每分钟标记数 (TPM)
Global Enterprise 和 MCA-E
每分钟标记数 (TPM)
Data Zone Default
每分钟标记数 (TPM)
Data Zone Enterprise 和 MCA-E
每分钟标记数 (TPM)
gpt-5 1百万 10 M 300 K 3百万
gpt-5-mini 1百万 10 M 300 K 3百万
gpt-5-nano 5百万 150 M 2百万 50米
gpt-5-chat 1百万 5百万
gpt-5-codex 1百万 10 M
gpt-5-pro 160 K 1.6 M
型号 全局默认值
每分钟请求数 (RPM)
Global Enterprise 和 MCA-E
每分钟请求数 (RPM)
Data Zone Default
每分钟请求数 (RPM)
Data Zone Enterprise 和 MCA-E
每分钟请求数 (RPM)
gpt-5 10 K 100 K 3 K 30 K
gpt-5-mini 1 K 10 K 300 3 K
gpt-5-nano 5公里 150 K 2 K 50K
gpt-5-chat 1 K 5公里
gpt-5-codex 1 K 10 K
gpt-5-pro 1.6 K 16 K

批次限制

限制名称 限制值
每个资源的最大文件数 500
最大输入文件大小 200 MB
每个文件的最大请求数 100,000

批处理配额

该表展示了批次配额限制。 全局批处理的配额值以入队令牌表示。 提交文件以进行批处理时,将计算文件中的令牌数。 在批处理作业达到终端状态之前,这些令牌将计入总入队令牌限制。

全局批处理

型号 企业和 MCA-E 违约 基于信用卡的每月订阅 MSDN 订阅 面向学生的 Azure 免费试用版
gpt-4.1 5B 200M 50M 90K
gpt-4.1 mini 15B 1B 50M 90K
gpt-4.1-nano 15B 1B 50M 90K
gpt-4o 5B 200M 50M 90K
gpt-4o-mini 15B 1B 50M 90K
gpt-4-turbo 300MB 80M 40M 90K
gpt-4 150兆 30M 5M 100K
gpt-35-turbo 10B 1B 100兆字节 2M 50K
o3-mini 15B 1B 50M 90K
o4-mini 15B 1B 50M 90K

B = 十亿 | M = 百万 | K = 千

数据区域批处理

型号 企业和 MCA-E 违约 基于信用卡的每月订阅 MSDN 订阅 面向学生的 Azure 免费试用版
gpt-4.1 500M 30M 30M 90K
gpt-4.1-mini 15亿 100兆字节 50M 90K
gpt-4o 500M 30M 30M 90K
gpt-4o-mini 15亿 100兆字节 50M 90K
o3-mini 15亿 100兆字节 50M 90K

gpt-oss

型号 每分钟标记数 (TPM) 每分钟请求数 (RPM)
gpt-oss-120b 5百万 5公里

GPT-4 速率限制

GPT-4.5 全球标准预览版

型号 每分钟的令牌配额限制 每分钟请求数
gpt-4.5 企业和 MCA-E 200K 200
gpt-4.5 违约 150K 150

GPT-4.1 系列全局标准

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4.1 (2025-04-14) 企业和 MCA-E 5M 5K
gpt-4.1 (2025-04-14) 违约 一百万 1K
gpt-4.1-nano (2025-04-14) 企业和 MCA-E 150兆 150K
gpt-4.1-nano (2025-04-14) 违约 5M 5K
gpt-4.1-mini (2025-04-14) 企业和 MCA-E 150兆 150K
gpt-4.1-mini (2025-04-14) 违约 5M 5K

GPT-4.1 系列数据区域标准版

型号 每分钟令牌的配额限制 (TPM) 每分钟请求数
gpt-4.1 (2025-04-14) 企业和 MCA-E 2M 2K
gpt-4.1 (2025-04-14) 违约 300K 300
gpt-4.1-nano (2025-04-14) 企业和 MCA-E 50M 50K
gpt-4.1-nano (2025-04-14) 违约 2M 2K
gpt-4.1-mini (2025-04-14) 企业和 MCA-E 50M 50K
gpt-4.1-mini (2025-04-14) 违约 2M 2K

GPT-4 Turbo

gpt-4turbo-2024-04-09) 的速率限制层为某些客户类型设定了更高的限制。

型号 每分钟的令牌配额限制 每分钟请求数
gpt-4 (turbo-2024-04-09) 企业和 MCA-E 2M 12K
gpt-4 (turbo-2024-04-09) 违约 450K 2.7K

模型路由器速率限制

型号 每分钟的令牌配额限制 每分钟请求数
model-router (2025-05-19) 企业和 MCA-E 10M 10K
model-router (2025-05-19) 违约 一百万 1K

computer-use-preview 全球标准速率限制

型号 每分钟的令牌配额限制 每分钟请求数
computer-use-preview 企业和 MCA-E 30M 300K
computer-use-preview 违约 450K 4.5K

o 系列速率限制

重要

配额每分钟请求数与每分钟令牌的比率可能因模型而异。 在以编程方式部署模型或请求配额增加时,您无法分别对每分钟的令牌数和请求数进行精细的独立控制。 配额按容量单位分配,每分钟有相应的请求量和每分钟令牌数。

型号 能力 每分钟请求数 (RPM) 每分钟标记数 (TPM)
较旧的聊天模型 1 个单位 6 转速 每分钟千次(TPM)
o1o1-preview 1 个单位 1 转速 (RPM) 6,000 每分钟交易量(TPM)
o3 1 个单位 1 转速 (RPM) 每分钟千次(TPM)
o4-mini 1 个单位 1 转速 (RPM) 每分钟千次(TPM)
o3-mini 1 个单位 1 转速 (RPM) 10,000 次/分钟交易量
o1-mini 1 个单位 1 转速 (RPM) 10,000 次/分钟交易量
o3-pro 1 个单位 1 转速 (RPM) 10,000 次/分钟交易量

此概念对于编程模型部署非常重要,因为 RPM 与 TPM 比率的更改可能会导致意外分配配额错误。

o 系列全局标准

型号 每分钟的令牌配额限制 每分钟请求数
codex-mini 企业和 MCA-E 10M 10K
o3-pro 企业和 MCA-E 16M 1.6K
o4-mini 企业和 MCA-E 10M 10K
o3 企业和 MCA-E 10M 10K
o3-mini 企业和 MCA-E 50M 5K
o1o1-preview 企业和 MCA-E 30M 5K
o1-mini 企业和 MCA-E 50M 5K
codex-mini 违约 一百万 1K
o3-pro 违约 160万 160
o4-mini 违约 一百万 1K
o3 违约 一百万 1K
o3-mini 违约 5M 500
o1o1-preview 违约 3M 500
o1-mini 违约 5M 500

O 系列数据区标准

型号 每分钟的令牌配额限制 每分钟请求数
o3 违约 10M 10K
o4-mini 违约 10M 10K
o3-mini 企业和 MCA-E 20M 2K
o3-mini 违约 2M 200
o1 企业和 MCA-E 6M 1K
o1 违约 600K 100

o1-preview 和 o1-mini 标准版

型号 每分钟的令牌配额限制 每分钟请求数
o1-preview 企业和 MCA-E 600K 100
o1-mini 企业和 MCA-E 一百万 100
o1-preview 违约 300K 50
o1-mini 违约 500K 50

gpt-4o 速率限制

gpt-4ogpt-4o-mini 提供对某些客户类型限制更高的速率限制层。

gpt-4o 全局标准

型号 每分钟的令牌配额限制 每分钟请求数
gpt-4o 企业和 MCA-E 30M 18万
gpt-4o-mini 企业和 MCA-E 150兆 150万
gpt-4o 违约 450K 2.7K
gpt-4o-mini 违约 2M 12K

gpt-4o 数据区域标准

型号 每分钟的令牌配额限制 每分钟请求数
gpt-4o 企业和 MCA-E 10M 60K
gpt-4o-mini 企业和 MCA-E 20M 120K
gpt-4o 违约 300K 1.8K
gpt-4o-mini 违约 一百万 6K

gpt-4o Standard

型号 每分钟的令牌配额限制 每分钟请求数
gpt-4o 企业和 MCA-E 一百万 6K
gpt-4o-mini 企业和 MCA-E 2M 12K
gpt-4o 违约 150K 900
gpt-4o-mini 违约 450K 2.7K

gpt-4o 音频

在预览期间,每个 gpt-4o 实时模型部署的速率限制至少为每分钟 100,000 个 token 和每分钟 1,000 个请求,即使在 Azure AI Foundry 门户中显示了更低的限制也是如此。

型号 每分钟的令牌配额限制 每分钟请求数
gpt-4o-audio-preview 违约 450K 1K
gpt-4o-realtime-preview 违约 80万 1K
gpt-4o-mini-audio-preview 违约 2M 1K
gpt-4o-mini-realtime-preview 违约 80万 1K
gpt-audio 违约 100K 30
gpt-audio-mini 违约 100K 30
gpt-realtime 违约 100K 30
gpt-realtime-mini 违约 100K 30

GPT-image-1 速率限制

GPT-image-1 全球标准

型号 每分钟的令牌配额限制 每分钟请求数
gpt-image-1 企业和 MCA-E 20
gpt-image-1 违约 6
gpt-image-1-mini Low 12
gpt-image-1-mini 中等 36
gpt-image-1-mini High 120

使用级别

全局标准部署使用 Azure 的全局基础结构。 他们动态地将客户流量路由到具有最佳可用性的数据中心,以满足客户的推理请求。 同样,数据区域标准部署允许使用 Azure 的全局基础结构,以动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 这种实践为流量级别在低至中等的客户提供更为稳定的一致性延迟。 持续高使用量级别的客户可能会发现响应延迟的可变性更大。

使用限制确定使用水平,超过该水平后,客户可能会看到更大的响应延迟变动。 每个模型都定义了客户的使用情况。 它是给定租户在所有区域和所有订阅中的所有部署中消耗的令牌总数。

注释

使用层仅适用于标准、数据区域标准和全局标准部署类型。 使用层不适用于全局批处理和预配的吞吐量部署。

全局标准、数据区标准和标准

型号 每月使用等级
gpt-4 + gpt-4-32k(所有版本) 60 亿个令牌
gpt-4o 120 亿个令牌
gpt-4o-mini 850 亿个令牌
o3-mini 500 亿个令牌
o1 40 亿个令牌
o4-mini 500 亿个令牌
o3 50 亿个令牌
gpt-4.1 300 亿个令牌
gpt-4.1-mini 1500 亿个令牌
gpt-4.1-nano 5500 亿个令牌

其他套餐类型

如果 Azure 订阅链接到某些 产品/服务类型,则最大配额值低于上表中指示的值。

  • GPT-5-pro 配额仅适用于 MCA-E 和默认配额订阅。 默认情况下,所有其他产品/服务类型对此模型具有零配额。

  • 对于不享有 MCA-E 或默认配额访问权限的所有提供类型,GPT-5 推理模型配额为 20K TPM 和 200 RPM。 对于 GPT-5-chat,限制为每分钟 50,000 个 token 和每分钟 50 个请求。

  • 某些产品/服务类型仅限于美国东部 2 和瑞典中部地区的全球标准部署。

每分钟的令牌配额限制
Azure for Students 1K (所有模型)
异常 o-series、GPT-4.1 与 GPT 4.5 预览:0
MSDN GPT-4o-mini:200K
GPT 3.5 涡轮增压系列:200K
GPT-4 系列:50K
computer-use-preview: 8K
gpt-4o-realtime-preview: 1K
o-series:0
GPT 4.5 预览版:0
GPT-4.1:50K
GPT-4.1-nano:200K
Standard& Pay-as-you-go GPT-4o-mini:200K
GPT 3.5 涡轮增压系列:200K
GPT-4 系列:50K
computer-use-preview:30K
o-series:0
GPT 4.5 预览版:0
GPT-4.1:50K
GPT-4.1-nano:200K
Azure_MS-AZR-0111P
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
GPT-4o-mini:200K
GPT 3.5 涡轮增压系列:200K
GPT-4 系列:50K
CSP Integration Sandbox * 所有模型:0
Lightweight trial
Free trials
Azure Pass
所有模型:0

*此限制仅适用于少量旧版 CSP 沙盒订阅。 使用以下查询确定与你的订阅关联的 quotaId 值是什么。

若要确定与订阅关联的产品/服务类型,可以检查你的 quotaId 值。 如果此表中未列出你的 quotaId 值,则订阅符合默认配额。

请参阅 API 参考

az login
access_token=$(az account get-access-token --query accessToken -o tsv)
curl -X GET "https://management.azure.com/subscriptions/{subscriptionId}?api-version=2020-01-01" \
  -H "Authorization: Bearer $access_token" \
  -H "Content-Type: application/json"

输出

{
  "authorizationSource": "Legacy",
  "displayName": "Pay-As-You-Go",
  "id": "/subscriptions/aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "state": "Enabled",
  "subscriptionId": "aaaaaa-bbbbb-cccc-ddddd-eeeeee",
  "subscriptionPolicies": {
    "locationPlacementId": "Public_2014-09-01",
    "quotaId": "PayAsYouGo_2014-09-01",
    "spendingLimit": "Off"
  }
}
配额分配/套餐类型 订阅配额 ID
企业和 MCA-E EnterpriseAgreement_2014-09-01
即用即付 PayAsYouGo_2014-09-01
MSDN MSDN_2014-09-01
CSP 集成沙盒 CSPDEVTEST_2018-05-01
面向学生的 Azure AzureForStudents_2018-01-01
免费试用 FreeTrial_2014-09-01
Azure Pass AzurePass_2014-09-01
Azure_MS-AZR-0111P AzureInOpen_2014-09-01
Azure_MS-AZR-0150P LightweightTrial_2016-09-01
Azure_MS-AZR-0035P
Azure_MS-AZR-0025P
Azure_MS-AZR-0052P
MPN_2014-09-01
Azure_MS-AZR-0023P
Azure_MS-AZR-0060P
Azure_MS-AZR-0148P
Azure_MS-AZR-0148G
MSDNDevTest_2014-09-01
违约 此表中未列出的任何配额编号

保持在速率限制范围内的一般最佳做法

若要最大程度地减少与速率上限相关的问题,可以遵循以下方法:

  • 在应用程序中实现重试逻辑
  • 避免工作负载的急剧变化。 逐步增大工作负载。
  • 测试不同负载增加模式。
  • 增加分配给部署的配额。 如有必要,从另一个部署中移动配额。

请求增加配额

可以通过配额增加请求表单提交配额增加请求。 由于需求较高,会接受配额增加请求,并按收到请求的顺序进行填写。 优先考虑使用现有配额分配流量的客户。 如果不符合此条件,可能会拒绝你的请求。

可以 提交服务请求 以获取其他速率限制。

区域配额容量限制

可以在 Azure AI Foundry 门户中按订阅的区域查看配额可用性。

若要按区域查看特定模型或版本的配额容量,可以查询订阅的 容量 API 。 请提供subscriptionIdmodel_namemodel_version,API将返回该型号在您的订阅中所有区域和部署类型的可用容量。

注释

目前,Azure AI Foundry 门户和容量 API 都返回 已停用 且不再可用的模型的配额/容量信息。

请参阅 API 参考

import requests
import json
from azure.identity import DefaultAzureCredential

subscriptionId = "Replace with your subscription ID" #replace with your subscription ID
model_name = "gpt-4o"     # Example value, replace with model name
model_version = "2024-08-06"   # Example value, replace with model version

token_credential = DefaultAzureCredential()
token = token_credential.get_token('https://management.azure.com/.default')
headers = {'Authorization': 'Bearer ' + token.token}

url = f"https://management.azure.com/subscriptions/{subscriptionId}/providers/Microsoft.CognitiveServices/modelCapacities"
params = {
    "api-version": "2024-06-01-preview",
    "modelFormat": "OpenAI",
    "modelName": model_name,
    "modelVersion": model_version
}

response = requests.get(url, params=params, headers=headers)
model_capacity = response.json()

print(json.dumps(model_capacity, indent=2))