你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI Foundry 通过使用 Azure AI Foundry 服务(前称为 Azure AI 服务)中的模型部署概念提供模型。 模型部署也是 Azure 资源,创建后,可以在特定配置下授予对给定模型的访问权限。 此类配置包括处理请求所需的基础结构。
Azure AI Foundry 模型为客户提供适合其业务和使用模式的托管结构选择。 这些选项将转换为 Azure AI Foundry 资源中模型部署时可用的不同部署类型(或 SKU)。
该服务提供两种主要类型的部署:标准和预配。 对于给定的部署类型,客户可以将工作负荷与其数据处理要求保持一致。 他们可以选择 Azure 地理(Standard 或 Provisioned-Managed)、Microsoft指定的数据区域(DataZone- Standard 或 DataZone Provisioned-Managed),或者全局(Global-Standard 或 Global Provisioned-Managed)处理选项。
对于微调模型,额外的 Developer 部署类型提供了一种经济高效的自定义模型评估方法,但不支持数据驻留。
所有部署都可以执行完全相同的推理操作,但计费、规模和性能却大不相同。 作为解决方案设计的一部分,需要在两个类别中做出关键决策:
- 数据处理位置
- 呼叫量
Azure AI Foundry 部署数据处理位置
对于标准部署,有三种部署类型选项可供选择:全局、数据区域和 Azure 地理位置。 对于预配的部署,有两种部署类型选项可供选择:全局和 Azure 地理位置。 我们建议以全球标准作为起点。
全局部署
全局部署使用 Azure 的全局基础结构来动态将客户流量路由到数据中心,为客户提供推理请求的最佳可用性。 这意味着,“全局”选项提供最高的初始吞吐量限制和最佳模型可用性,但也仍提供运行时间 SLA 和低延迟。 对于超出标准版和全球标准版指定使用层的大容量工作负荷,您可能会遇到延迟波动增加的情况。 对于需要在大型工作负荷使用量上降低延迟差异的客户,我们建议使用预配的部署类型。
我们的全球部署将是所有新模型和功能的首发地。 根据呼叫量,具有大量和低延迟差异要求的客户应考虑我们的预配部署类型。
数据区域部署
对于标记为“全局”的任何部署类型,可能会在部署相关 Azure AI Foundry 模型的任何地理位置处理提示和响应。 详细了解 模型的区域可用性。
对于标记为 DataZone 的任何部署类型,可以在指定数据区域中的任何地理位置(由Microsoft定义)中处理提示和响应。 如果在位于美国的 Azure AI Foundry 资源中创建 DataZone 部署,可能会在美国的任何位置处理提示和响应。 如果在位于欧盟成员国的 Azure AI Foundry 资源中创建 DataZone 部署,则可能在该或任何其他欧盟成员国中处理提示和响应。
对于 Global 和 DataZone 部署类型,静态存储的任何数据(如上传的数据)都存储在客户指定的地理位置中。 仅当客户在 Azure AI Foundry 资源中使用 全局 或 DataZone 部署类型时,处理位置才会受到影响;Azure 数据处理和合规性承诺仍然适用。
注释
使用全局标准和数据区域标准部署类型时,如果主要区域遇到服务中断,则最初路由到该区域的所有流量都会受到影响。 若要了解详细信息,请参阅 业务连续性和灾难恢复指南。
全局标准
- 代码中的 SKU 名称:
GlobalStandard
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 数据可能会在任何 Azure AI Foundry 地点被处理用于推理。 进一步了解数据存储位置。
全局部署与非全局部署类型相同的 Azure AI Foundry 资源中可用。 但是,它们允许你使用 Azure 的全局基础结构来动态将流量路由到数据中心,并为每个请求提供最佳可用性。 全局标准提供最高的默认配额,无需跨多个资源进行负载均衡。
数据传输量稳定且较大的客户可能会遇到更大的延迟波动。 为每个模型设置阈值。 若要了解详细信息,请参阅配额页。 对于在大型工作负荷使用量上需要较低的延迟差异的应用程序,我们建议购买预配的吞吐量。
全局预配
- 代码中的 SKU 名称:
GlobalProvisionedManaged
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Azure AI Foundry 位置进行处理来用于推断。 进一步了解数据存储位置。
全局部署与非全局部署类型相同的 Azure AI Foundry 资源中可用。 但是,它们允许你使用 Azure 的全局基础结构来动态将流量路由到数据中心,并为每个请求提供最佳可用性。 全局预配部署使用 Azure 全局基础结构为高吞吐量和可预测的吞吐量提供预留模型处理容量。
全局批处理
- 代码中的 SKU 名称:
GlobalBatch
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Azure AI Foundry 位置进行处理来用于推断。 进一步了解数据存储位置。
全局批处理旨在高效地处理大规模大容量的处理任务。 可以以比全球标准低 50% 的成本,使用单独的配额和 24 小时的目标周转时间处理异步请求组。 使用批处理,而不是一次发送一个请求,而是在单个文件中发送大量请求。 全局批处理请求具有单独的入队令牌配额,避免对你的在线工作负载造成任何中断。
关键用例包括:
- 大规模数据处理:快速并行分析广泛的数据集。
- 内容生成:创建大量文本,例如产品说明或文章。
- 文档审阅和摘要:自动审阅和汇总冗长文档。
- 客户支持自动化:同时处理大量查询,以加快响应速度。
- 数据提取和分析:从大量非结构化数据中提取和分析信息。
- 自然语言处理(NLP)任务:对大型数据集执行情绪分析或翻译等任务。
- 营销和个性化:大规模生成个性化内容和建议。
数据区域标准
- 代码中的 SKU 名称:
DataZoneStandard
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会被处理以便在 Microsoft 指定的数据区域中的任何 Azure AI Foundry 位置进行推理。 进一步了解数据存储位置。
数据区域标准部署与所有其他 Azure AI Foundry 部署类型在同一 Azure AI Foundry 资源中可用。 但是,它们允许使用 Azure 的全局基础结构来动态将流量路由到Microsoft定义的数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区域标准版提供的默认配额高于基于 Azure 地理的部署类型。
数据传输量稳定且较大的客户可能会遇到更大的延迟波动。 为每个模型设置阈值。 若要了解详细信息,请参阅 “配额和限制”页。 对于需要大量低延迟差异的工作负荷,我们建议使用预配的部署产品/服务。
数据区域预配
- 代码中的 SKU 名称:
DataZoneProvisionedManaged
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,在 Microsoft 指定的数据区内,数据可能在任意 Azure AI Foundry 位置进行推理处理。 进一步了解数据存储位置。
数据区预配部署在相同的 Azure AI Foundry 资源中可用,与所有其他的 Azure AI Foundry 部署类型一样。 但是,它们允许你使用 Azure 的全局基础结构来动态将流量路由到Microsoft指定数据区域中的数据中心,并为每个请求提供最佳可用性。 数据区预置部署通过使用 Microsoft 指定数据区内的 Azure 基础设施,为实现高且可预测的吞吐量提供预留的模型处理容量。
数据区批处理
- 代码中的 SKU 名称:
DataZoneBatch
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在 Microsoft 指定数据区域内的任何 Azure AI Foundry 位置被处理用于推理。 进一步了解数据存储位置。
数据区域批处理部署提供与 全局 Batch 部署相同的功能。 但是,它们允许使用 Azure 的全局基础设施,将流量动态路由到 Microsoft 定义的数据区中的数据中心,并针对每个请求选择可用性最佳的数据中心。
标准
- 代码中的 SKU 名称:
Standard
标准部署针对所选模型提供按调用付费的计费模型。 此模型是一种快速入门方法,因为只需为使用的内容付费。 每个区域中可用的模型和吞吐量可能会受到限制。
标准部署针对低到中等流量、高突发性的工作负载进行优化。 数据传输量稳定且较大的客户可能会遇到更大的延迟波动。
区域预配
- 代码中的 SKU 名称:
ProvisionedManaged
使用区域预配部署可以指定部署中所需的吞吐量量。 然后该服务会分配必要的模型处理容量,并确保随时可用。 吞吐量根据预配的吞吐量单位进行定义,这是表示部署吞吐量的规范化方式。 每个模型版本对都需要不同的预配吞吐量单位来部署,并为每个预配的吞吐量单位提供不同的吞吐量量。 在 有关预配吞吐量概念的文章中了解详细信息。
禁用您的订阅中的全局部署访问
Azure Policy 有助于强制实施组织标准并大规模评估合规性。 通过合规性仪表板,它提供聚合视图,以评估环境的整体状态,并有能力深入分析到每个资源和每个策略的粒度。 它还通过对现有资源的批量修正以及对新资源的自动修正,帮助资源符合规范。 详细了解适用于 AI 服务的 Azure Policy 和特定的内置控件。
可以使用以下策略来禁用对任何 Azure AI Foundry 部署类型的访问。 若要禁用对特定部署类型的访问,请替换为 GlobalStandard 要禁用访问权限的部署类型的 SKU 名称。
{
"mode": "All",
"policyRule": {
"if": {
"allOf": [
{
"field": "type",
"equals": "Microsoft.CognitiveServices/accounts/deployments"
},
{
"field": "Microsoft.CognitiveServices/accounts/deployments/sku.name",
"equals": "GlobalStandard"
}
]
}
}
}
开发者(针对微调模型)
- 代码中的 SKU 名称:
DeveloperTier
重要
静态存储的数据仍保留在指定的 Azure 地理位置中。 但是,数据可能会在任何 Azure AI Foundry 位置进行处理来用于推断。 进一步了解数据存储位置。
微调模型支持 Developer 部署,该部署旨在支持自定义模型评估。 它不提供数据驻留保证或 SLA。 若要详细了解如何使用 Developer 部署类型,请参阅 微调指南。
部署模型
若要了解如何创建资源和部署模型,请参阅 资源创建指南。