你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Foundry 模型的无服务器 API 推理示例

Azure AI 模型目录提供来自各种提供商的大量 Azure AI Foundry 模型。 您有多种选项可以从模型目录中部署模型。 本文列出了无服务器 API 部署的推理示例。

Important

预览版的模型在模型目录中的模型卡上标记为“预览”。

要对模型执行推断,某些模型(如 Nixtla 的 TimeGEN-1Cohere rerank)需要使用模型提供者的自定义 API。 其他支持使用 模型推理 API 进行推理。 可以通过在 Azure AI Foundry 门户的模型目录中查看其模型卡来查找有关各个模型的更多详细信息。

Cohere

Cohere 系列模型包括针对各种用途优化的不同模型,包括重新排序、聊天生成和嵌入模型。

推理示例: Cohere 命令和嵌入

下表提供了有关如何使用 Cohere 模型的示例的链接。

Description 语言 Sample
Web 请求 Bash Command-RCommand-R+
cohere-embed.ipynb
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
OpenAI SDK(实验性) Python Link
LangChain Python Link
Cohere SDK Python Command
Embed
LiteLLM SDK Python Link

检索增强生成 (RAG) 和工具使用示例: Cohere 命令和嵌入

Description Packages Sample
使用 Cohere 嵌入项创建本地 Facebook AI 相似性搜索 (FAISS) 矢量索引 - Langchain langchainlangchain_cohere cohere_faiss_langchain_embed.ipynb
使用 Cohere Command R/R+ 根据本地 FAISS 矢量索引中的数据来回答问题 - Langchain langchainlangchain_cohere command_faiss_langchain.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Langchain langchainlangchain_cohere cohere-aisearch-langchain-rag.ipynb
使用 Cohere Command R/R+ 根据 AI 搜索矢量索引中的数据来回答问题 - Cohere SDK cohereazure_search_documents cohere-aisearch-rag.ipynb
使用 LangChain 调用 Command R+ 工具/函数 coherelangchainlangchain_cohere command_tools-langchain.ipynb

Cohere 重新排序

若要使用 Cohere 重新调整模型执行推理,需要使用 Cohere 的自定义重新调整 API。 有关 Cohere 重新排序模型及其功能的详细信息,请参阅 Cohere 重新排序

Cohere Rerank 模型的定价

查询(不要与用户的查询混淆)是一种定价计量,是指与用作 Cohere Rerank 模型推理输入的令牌关联的成本。 Cohere 将单个搜索单元计为一个查询,最多可为 100 个文档排序。 当文档长度加上搜索查询的长度超过 500 个标记(对于 Cohere-rerank-v3.5)或超过 4096 个标记(对于 Cohere-rerank-v3-English 和 Cohere-rerank-v3-multilingual)时,文档会被拆分为多个部分,每个部分计为一个单独的文档。

请参阅 Azure AI Foundry 门户中的 Cohere 模型集合

Core42

下表提供了有关如何使用 Jais 模型的示例的链接。

Description 语言 Sample
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link

DeepSeek

DeepSeek 系列模型包括 DeepSeek-R1 和 DeepSeek-V3-0324。DeepSeek-R1 擅长通过分步训练过程处理推理任务,例如语言、科学推理和编码任务。DeepSeek-V3-0324 是一种专家混合(MoE)语言模型。此外,还有其他模型。

下表提供了有关如何使用 DeepSeek 模型的示例的链接。

Description 语言 Sample
适用于 Python 的 Azure AI 推理包 Python Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 C# 的 Azure AI 推理包 C# Link
适用于 Java 的 Azure AI 推理包 Java Link

Meta

Meta Llama 模型和工具是预训练和微调的生成式 AI 文本和图像推理模型的集合。 元模型的范围经过调整以包括:

  • 小型语言模型 (SLM),如 1B 和 3B Base 模型,以及用于设备和边缘推理的 Instruct 模型
  • 中等大型语言模型 (LLM),如 7B、8B 和 70B Base 模型和 Instruct 模型
  • 高性能模型(如 Meta Llama 3.1-405B Instruct),用于合成数据生成和蒸馏用例。
  • 高性能的本地化多模态模型 Llama 4 Scout 和 Llama 4 Maverick,利用专家混合体系结构,在文本和图像理解方面提供行业领先的性能。

下表提供了有关如何使用 Meta Llama 模型的示例的链接。

Description 语言 Sample
CURL 请求 Bash Link
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
Python Web 请求 Python Link
OpenAI SDK(实验性) Python Link
LangChain Python Link
LiteLLM Python Link

Microsoft

Microsoft模型包括各种模型组,例如 MAI 模型、Phi 模型、医疗保健 AI 模型等。 若要查看所有可用的Microsoft模型,请查看 Azure AI Foundry 门户中的Microsoft模型集合

下表提供了有关如何使用Microsoft模型的示例的链接。

Description 语言 Sample
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
LangChain Python Link
Llama-Index Python Link

请参阅 Azure AI Foundry 门户中的Microsoft模型集合

Mistral人工智能

Mistral AI 提供以下两类模型:

  • 高级模型:这些包括 Mistral Large、Mistral Small、Mistral-OCR-2503、Mistral Medium 3(25.05)和 Ministral 3B 模型,作为无服务器 API 提供,采用即用即付的令牌计费方式。
  • 开放模型:包括 Mistral-small-2503、Codestral 和 Mistral Nemo(提供为无服务器 API 并采用即用即付的令牌计费方式),以及 Mixtral-8x7B-Instruct-v01、Mixtral-8x7B-v01、Mistral-7B-Instruct-v01 和 Mistral-7B-v01(可下载并在自托管的管理终端上运行)。

下表提供了有关如何使用 Mistral 模型的示例的链接。

Description 语言 Sample
CURL 请求 Bash Link
适用于 C# 的 Azure AI 推理包 C# Link
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link
Python Web 请求 Python Link
OpenAI SDK(实验性) Python Mistral - OpenAI SDK 示例
LangChain Python Mistral - LangChain 示例
Mistral人工智能 Python Mistral - Mistral AI 示例
LiteLLM Python Mistral - LiteLLM 示例

Nixtla

Nixtla 的 TimeGEN-1 是一个用于时序数据的生成预训练模型,能够进行预测和异常检测。 TimeGEN-1 可以在不训练的情况下为新的时序生成准确的预测,仅使用历史值和外生协变量作为输入。

若要执行推理,TimeGEN-1 要求使用 Nixtla 的自定义推理 API。 有关 TimeGEN-1 模型及其功能的详细信息,请参阅 Nixtla

估算所需的标记数

在创建 TimeGEN-1 部署之前,最好是估算你要使用的付费标记数。 一个标记对应于输入数据集或输出数据集中的一个数据点。

假设你有以下输入时序数据集:

Unique_id Timestamp 目标变量 外生变量 1 外生变量 2
BE 2016-10-22 00:00:00 70.00 49593.0 57253.0
BE 2016-10-22 01:00:00 37.10 46073.0 51887.0

若要确定标记数,请将行数(在此示例中为 2)乘以用于预测的列数 - 不包括 unique_id 和 timestamp 列(在此示例中为 3),总共得出 6 个标记。

给定如下输出数据集:

Unique_id Timestamp 预测的目标变量
BE 2016-10-22 02:00:00 46.57
BE 2016-10-22 03:00:00 48.57

你还可以通过统计数据预测后返回的数据点数来确定标记数。 在此示例中,标记数为 2。

根据标记估算定价

有四个定价计量器用于确定支付价格。 这些计量器如下:

定价仪表 Description
paygo-inference-input-tokens 当 finetune_steps = 0 时,与用作推理输入的标记关联的成本
paygo-inference-output-tokens 当 finetune_steps = 0 时,与用作推理输出的标记关联的成本
paygo-finetuned-model-inference-input-tokens 当 finetune_steps 0 时,与用作推理输入的标记关联的成本>
paygo-finetuned-model-inference-output-tokens 当 finetune_steps > 0 时,与用作推理输出的标记关联的成本

请参阅 Azure AI Foundry 门户中的 Nixtla 模型集合

稳定性 AI

通过无服务器 API 部署部署的稳定性 AI 模型在路由 /image/generations 上实现模型推理 API。 有关如何使用稳定性 AI 模型的示例,请参阅以下示例:

Gretel Navigator

Gretel Navigator 采用专为合成数据设计的复合 AI 体系结构,将 10 多个行业领域中经过微调的顶级开源小型语言模型 (SLM) 组合起来。 这一专门构建的系统可创建各种特定于域的数据集,规模从数百到以百万计。 与手动创建数据相比,该系统还保留了复杂的统计关系,并且速度和准确性更高。

Description 语言 Sample
适用于 JavaScript 的 Azure AI 推理包 JavaScript Link
适用于 Python 的 Azure AI 推理包 Python Link