你当前正在访问 Microsoft Azure Global Edition 技术文档网站。如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站，请访问 https://docs.azure.cn。

Foundry 模型的无服务器 API 推理示例

2025-08-22

Azure AI 模型目录提供来自各种提供商的大量 Azure AI Foundry 模型。您有多种选项可以从模型目录中部署模型。本文列出了无服务器 API 部署的推理示例。

Important

预览版的模型在模型目录中的模型卡上标记为“预览”。

要对模型执行推断，某些模型（如 Nixtla 的 TimeGEN-1 和 Cohere rerank）需要使用模型提供者的自定义 API。其他支持使用模型推理 API 进行推理。可以通过在 Azure AI Foundry 门户的模型目录中查看其模型卡来查找有关各个模型的更多详细信息。

Cohere

Cohere 系列模型包括针对各种用途优化的不同模型，包括重新排序、聊天生成和嵌入模型。

推理示例: Cohere 命令和嵌入

下表提供了有关如何使用 Cohere 模型的示例的链接。

Description	语言	Sample
Web 请求	Bash	Command-R Command-R+ cohere-embed.ipynb
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link
OpenAI SDK（实验性）	Python	Link
LangChain	Python	Link
Cohere SDK	Python	Command Embed
LiteLLM SDK	Python	Link

检索增强生成 (RAG) 和工具使用示例: Cohere 命令和嵌入

Description	Packages	Sample
使用 Cohere 嵌入项创建本地 Facebook AI 相似性搜索 (FAISS) 矢量索引 - Langchain	`langchain`、`langchain_cohere`	cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 根据本地 FAISS 矢量索引中的数据来回答问题 - Langchain	`langchain`、`langchain_cohere`	command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Langchain	`langchain`、`langchain_cohere`	cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Cohere SDK	`cohere`、`azure_search_documents`	cohere-aisearch-rag.ipynb
使用 LangChain 调用 Command R+ 工具/函数	`cohere`、`langchain`、`langchain_cohere`	command_tools-langchain.ipynb

Cohere 重新排序

若要使用 Cohere 重新调整模型执行推理，需要使用 Cohere 的自定义重新调整 API。有关 Cohere 重新排序模型及其功能的详细信息，请参阅 Cohere 重新排序。

Cohere Rerank 模型的定价

查询（不要与用户的查询混淆）是一种定价计量，是指与用作 Cohere Rerank 模型推理输入的令牌关联的成本。 Cohere 将单个搜索单元计为一个查询，最多可为 100 个文档排序。当文档长度加上搜索查询的长度超过 500 个标记(对于 Cohere-rerank-v3.5)或超过 4096 个标记(对于 Cohere-rerank-v3-English 和 Cohere-rerank-v3-multilingual）时，文档会被拆分为多个部分，每个部分计为一个单独的文档。

请参阅 Azure AI Foundry 门户中的 Cohere 模型集合。

Core42

下表提供了有关如何使用 Jais 模型的示例的链接。

Description	语言	Sample
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1 和 DeepSeek-V3-0324。DeepSeek-R1 擅长通过分步训练过程处理推理任务，例如语言、科学推理和编码任务。DeepSeek-V3-0324 是一种专家混合（MoE）语言模型。此外，还有其他模型。

下表提供了有关如何使用 DeepSeek 模型的示例的链接。

Description	语言	Sample
适用于 Python 的 Azure AI 推理包	Python	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 Java 的 Azure AI 推理包	Java	Link

Microsoft

Microsoft模型包括各种模型组，例如 MAI 模型、Phi 模型、医疗保健 AI 模型等。若要查看所有可用的Microsoft模型，请查看 Azure AI Foundry 门户中的Microsoft模型集合。

下表提供了有关如何使用Microsoft模型的示例的链接。

Description	语言	Sample
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link
LangChain	Python	Link
Llama-Index	Python	Link

请参阅 Azure AI Foundry 门户中的Microsoft模型集合。

Mistral人工智能

Mistral AI 提供以下两类模型：

高级模型：这些包括 Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3（25.05）和 Ministral 3B 模型，作为无服务器 API 提供，采用即用即付的令牌计费方式。
开放模型：包括 Mistral-small-2503、Codestral 和 Mistral Nemo（提供为无服务器 API 并采用即用即付的令牌计费方式），以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01（可下载并在自托管的管理终端上运行）。

下表提供了有关如何使用 Mistral 模型的示例的链接。

Description	语言	Sample
CURL 请求	Bash	Link
适用于 C# 的 Azure AI 推理包	C#	Link
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link
Python Web 请求	Python	Link
OpenAI SDK（实验性）	Python	Mistral - OpenAI SDK 示例
LangChain	Python	Mistral - LangChain 示例
Mistral人工智能	Python	Mistral - Mistral AI 示例
LiteLLM	Python	Mistral - LiteLLM 示例

Nixtla

Nixtla 的 TimeGEN-1 是一个用于时序数据的生成预训练模型，能够进行预测和异常检测。 TimeGEN-1 可以在不训练的情况下为新的时序生成准确的预测，仅使用历史值和外生协变量作为输入。

若要执行推理，TimeGEN-1 要求使用 Nixtla 的自定义推理 API。有关 TimeGEN-1 模型及其功能的详细信息，请参阅 Nixtla。

估算所需的标记数

在创建 TimeGEN-1 部署之前，最好是估算你要使用的付费标记数。一个标记对应于输入数据集或输出数据集中的一个数据点。

假设你有以下输入时序数据集：

Unique_id	Timestamp	目标变量	外生变量 1	外生变量 2
BE	2016-10-22 00:00:00	70.00	49593.0	57253.0
BE	2016-10-22 01:00:00	37.10	46073.0	51887.0

若要确定标记数，请将行数（在此示例中为 2）乘以用于预测的列数 - 不包括 unique_id 和 timestamp 列（在此示例中为 3），总共得出 6 个标记。

给定如下输出数据集：

Unique_id	Timestamp	预测的目标变量
BE	2016-10-22 02:00:00	46.57
BE	2016-10-22 03:00:00	48.57

你还可以通过统计数据预测后返回的数据点数来确定标记数。在此示例中，标记数为 2。

根据标记估算定价

有四个定价计量器用于确定支付价格。这些计量器如下：

定价仪表	Description
paygo-inference-input-tokens	当 finetune_steps = 0 时，与用作推理输入的标记关联的成本
paygo-inference-output-tokens	当 finetune_steps = 0 时，与用作推理输出的标记关联的成本
paygo-finetuned-model-inference-input-tokens	当 finetune_steps 0 时，与用作推理输入的标记关联的成本>
paygo-finetuned-model-inference-output-tokens	当 finetune_steps > 0 时，与用作推理输出的标记关联的成本

请参阅 Azure AI Foundry 门户中的 Nixtla 模型集合。

稳定性 AI

通过无服务器 API 部署部署的稳定性 AI 模型在路由 /image/generations 上实现模型推理 API。有关如何使用稳定性 AI 模型的示例，请参阅以下示例：

将 OpenAI SDK 与 Stability AI 模型配合使用，用于进行文本到图像的请求
将 Requests 库与 Stability AI 模型结合使用以处理文本生成图像请求。
将 Requests 库与 Stable Diffusion 3.5 Large 一起使用以发出以图生图请求
完全编码的图像生成响应示例

Gretel Navigator

Gretel Navigator 采用专为合成数据设计的复合 AI 体系结构，将 10 多个行业领域中经过微调的顶级开源小型语言模型 (SLM) 组合起来。这一专门构建的系统可创建各种特定于域的数据集，规模从数百到以百万计。与手动创建数据相比，该系统还保留了复杂的统计关系，并且速度和准确性更高。

Description	语言	Sample
适用于 JavaScript 的 Azure AI 推理包	JavaScript	Link
适用于 Python 的 Azure AI 推理包	Python	Link

反馈

此页面是否有帮助？