你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

使用即用即付计费将 Azure AI Foundry 模型部署到托管计算

2025-09-24

Azure AI Foundry 模型包括组织成两类的模型的综合目录-由 Azure 直接销售的模型，以及合作伙伴和社区的模型。可以在托管计算上部署的合作伙伴和社区中的模型是开放或受保护的模型。本文介绍如何使用通过 Azure 市场提供的合作伙伴和社区提供的受保护模型，通过即用即付计费在托管计算上进行部署。

先决条件

具有有效付款方式的 Azure 订阅。免费或试用 Azure 订阅不起作用。如果没有 Azure 订阅，请创建一个付费 Azure 帐户以开始使用。
如果您没有该项目，请为 Azure AI Foundry 创建一个中心项目。可以使用中心项目部署到托管计算环境。 Azure AI Foundry 项目无法实现此目的。
您的 Azure 订阅已启用 Azure Marketplace 购买功能。
Azure 基于角色的访问控制（Azure RBAC）允许访问 Azure AI Foundry 门户的操作权限。若要执行本文中的步骤，必须为用户帐户分配具有以下权限的 自定义角色 。为 Azure 订阅分配了 “所有者 ”或 “参与者” 角色的用户帐户还可以创建部署。有关权限详细信息，请参阅 Azure AI Foundry 门户中基于角色的访问控制。
在 Azure 订阅中 - 将工作区/项目订阅到 Azure市场产品/服务：
- Microsoft.MarketplaceOrdering/agreements/offers/plans/read
- Microsoft.MarketplaceOrdering/agreements/offers/plans/sign/action
- Microsoft.MarketplaceOrdering/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.Marketplace/offerTypes/publishers/offers/plans/agreements/read
- Microsoft.SaaS/register/action
在资源组上 - 创建和使用 SaaS 资源：
- Microsoft.SaaS/resources/read
- Microsoft.SaaS/resources/write
在工作区上 - 部署终结点：
- Microsoft.MachineLearningServices/workspaces/marketplaceModelSubscriptions/*
- Microsoft.MachineLearningServices/workspaces/onlineEndpoints/*

Azure 市场套餐的订阅范围和度量单位

在大规模创建和使用专用模型部署时，Azure AI Foundry 为受保护的模型提供无缝订阅和事务体验。在托管计算上部署受保护模型涉及客户在两个维度的即用即付计费：

部署中使用的 Azure 机器学习虚拟机按每小时计费。
模型发布者在 Azure 市场产品/服务中设置的模型附加费计费。

Azure 计算和模型附加费的即用即付计费根据托管联机部署的运行时间按分钟按比例计费。模型的附加费是按每个 GPU 小时计算的价格，由合作伙伴（或模型发布者）在 Azure 市场中设定，适用于在 Azure AI Foundry 托管计算中用于部署模型的所有受支持的 GPU。

用户对 Azure 市场产品/服务的订阅的范围限定为 Azure AI Foundry 中的项目资源。如果项目中已存在针对特定模型的 Azure 市场产品/服务订阅，则会在部署向导中通知用户该项目已存在订阅。

注释

对于 NVIDIA 推理微服务（NIM），多个模型与单个市场产品/服务相关联，因此只需在项目中订阅一次 NIM 产品/服务，才能在 AI Foundry 模型目录中部署 NVIDIA 提供的所有 NIC。如果要将 NIM 部署到没有现有 SaaS 订阅的其他项目中，则需要重新订阅该套餐。

若要查找 Azure 订阅中存在的所有 SaaS 订阅，请执行以下作：

登录到 Azure 门户并转到 Azure 订阅。
选择 “订阅 ”，然后选择 Azure 订阅以打开其概述页。
选择“设置资源”>以查看资源列表。
使用类型筛选器选择 SaaS 资源类型。

基于消耗的附加费将转到关联的 SaaS 订阅，并通过 Azure 市场向用户计费。可以在相应 SaaS 订阅的“ 概述 ”选项卡中查看发票。

小窍门

由于可以在 Azure AI Foundry 门户中自定义左窗格，因此你可能会看到与这些步骤中显示的项不同。如果未看到要查找的内容，请选择 ... 左窗格底部的更多内容。

登录到 Azure AI Foundry。
如果你尚未进入项目，请选择它。
从左窗格中选择 “模型目录 ”。
通过选择所选的集合和模型来筛选模型列表。本文使用受支持模型列表中的Cohere 命令 A 进行说明。
在模型的页面中，选择“ 使用此模型 打开部署向导”。
如果显示购买选项，请选择 “托管计算”。
如果没有专用配额，请选中语句旁边的复选框： 我想使用共享配额，我确认将在 168 小时内删除此终结点。
从模型支持的虚拟机（VM） SKU 之一中进行选择。需要在 Azure 订阅中为该 SKU 设置 Azure 机器学习计算配额。
选择“ 自定义 ”，为实例计数等参数指定部署配置。还可以为部署选择现有终结点或创建新的终结点。对于此示例，请指定实例计数 1 ，并为部署创建新终结点。
选择 “下一步 ”以转到 “定价明细 ”页。
查看与 Azure 市场上模型产品/服务关联的部署、使用条款和许可协议的定价明细。定价明细会告诉你所部署模型的聚合定价是什么，其中模型的附加费是前面步骤中选择的 VM 实例中的 GPU 数的函数。除了模型的适用附加费外，Azure 计算费用也根据部署配置适用。如果有现有的预留或 Azure 节省计划，则计算费用的发票会遵循并反映折扣 VM 定价。
选中复选框以确认你了解并同意使用条款。然后选择“ 部署”。 Azure AI Foundry 将创建市场服务的订阅，然后在托管计算环境上部署模型。部署完成大约需要 15-20 分钟。

使用部署

成功创建部署后，请按照以下步骤使用部署：

在 Azure AI Foundry 项目中选择“我的资产”下的“模型 + 终结点”。
从 “模型部署 ”选项卡中选择部署。
转到“ 测试 ”选项卡，获取对终结点的示例推理。
返回到“ 详细信息 ”选项卡，复制部署的“目标 URI”，可以使用该 URI 通过代码运行推理。
转到部署的消费选项卡，查找用于消费的代码示例。

部署的网络隔离

可以使用工作区托管虚拟网络在隔离网络中的模型目录中部署集合。有关如何配置工作区托管网络的详细信息，请参阅配置托管虚拟网络以允许 Internet 出站。

限度

禁用入口公共网络访问的 Azure AI Foundry 项目只能支持目录中一个受保护模型的单个活动部署。尝试创建更活跃的部署会导致部署创建失败。

支持的模型

以下部分列出了采用即用即付计费的托管计算部署所支持的模型，按集合分组。

Paige AI

型号	任务
Virchow2G	图像特征提取
Virchow2G-Mini	图像特征提取

Cohere

型号	任务
命令 A	聊天补全
嵌入 v4	嵌入
重排序 v3.5	文本分类

NVIDIA

NVIDIA 推理微服务（NIM）是 NVIDIA 为 NVIDIA GPU 上提供的优化预训练和自定义 AI 模型而生成的容器。可以通过 Azure 市场上 NVIDIA NIM SaaS 产品/服务的标准订阅来部署 Azure AI Foundry 模型目录上提供的 NVIDIA NIM。

有关 NIM 的需要注意的一些特殊事项包括：

NIM 包含 90 天的试用期。试用版适用于与特定 SaaS 订阅关联的所有 NIM，并从创建该 SaaS 订阅时开始。
SaaS 订阅范围限定为 Azure AI Foundry 项目。由于多个模型与单个 Azure 市场产品/服务相关联，因此只需在项目中订阅一次 NIM 产品/服务，即可在 AI Foundry 模型目录中部署 NVIDIA 提供的所有 NIC。如果要将 NIM 部署到没有现有 SaaS 订阅的其他项目中，则需要重新订阅该套餐。

型号	任务
Llama-3.3-Nemotron-Super-49B-v1-NIM-microservice	聊天补全
Llama-3.1-Nemotron-Nano-8B-v1-NIM-microservice	聊天补全
Deepseek-R1-Distill-Llama-8B-NIM-microservice	聊天补全
Llama-3.3-70B-Instruct-NIM-microservice	聊天补全
Llama-3.1-8B-Instruct-NIM-microservice	聊天补全
Mistral-7B-Instruct-v0.3-NIM-microservice	聊天补全
Mixtral-8x7B-Instruct-v0.1-NIM-microservice	聊天补全
Llama-3.2-NV-embedqa-1b-v2-NIM-microservice	嵌入
Llama-3.2-NV-rerankqa-1b-v2-NIM-microservice	文本分类
Openfold2-NIM-微服务	蛋白质联结剂
ProteinMPNN-NIM-microservice	蛋白质联结剂
MSA-search-NIM-microservice	蛋白质联结剂
Rfdiffusion-NIM-microservice	蛋白质联结剂

使用 NVIDIA NIM 部署

创建部署后，请按照“使用部署”中的步骤来操作。

Azure AI Foundry 上的 NVIDIA NIM 公开了与 OpenAI 兼容的 API。请参阅 API 参考，了解有关支持的有效负载的详细信息。 Azure AI Foundry 上的 NIM 的 model 参数在容器内设置为默认值，不需要包含在联机终结点的请求有效负载中。 Azure AI Foundry 上的 NIM 部署的“使用”选项卡包含用于推断部署目标 URL 的代码示例。

还可以通过 Azure AI Foundry 模型 SDK 使用 NIM 部署，但存在以下限制：

不支持使用 load_client 创建和验证客户端。
应调用客户端方法 get_model_info 来检索模型信息。

使用 NIM 终结点开发和运行代理

模型目录中以下聊天完成任务类型的 NVIDIA NIM 可用于通过各种支持的工具使用代理服务创建和运行代理，但需满足以下两个附加要求：

使用 NIM 终结点和密钥，为项目创建无服务器连接。连接中 NIM 终结点的目标 URL 应为 https://<endpoint-name>.region.inference.ml.azure.com/v1/。
在创建和运行代理时，将请求正文中的模型参数设置为https://<endpoint>.region.inference.ml.azure.com/v1/@<parameter value per table below>格式。

NVIDIA NIM	`model` 参数值
Llama-3.3-70B-Instruct-NIM-microservice	meta/llama-3.3-70b-instruct
Llama-3.1-8B-Instruct-NIM-microservice	meta/llama-3.1-8b-instruct
Mistral-7B-Instruct-v0.3-NIM-微服务	mistralai/mistral-7b-instruct-v0.3

安全扫描

NVIDIA 通过一流的漏洞扫描、严格的修补管理和透明流程来确保 NVIDIA NIM 容器映像的安全性和可靠性。若要了解有关安全扫描的详细信息，请参阅安全页。 Microsoft与 NVIDIA 合作，获取最新的 NIC 修补程序，以在 Azure AI Foundry 中提供安全、稳定且可靠的生产级软件。

可以在模型的概述页面右窗格中引用 NIM 的 上次更新时间 。您可以重新部署以使用 Azure AI Foundry 上 NVIDIA 提供的 NIM 最新版本。

反馈

此页面是否有帮助？