你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI Foundry 的模型路由器是一种可部署的 AI 聊天模型,可选择最佳的大型语言模型 (LLM) 来实时响应提示。 此模型路由器使用不同的现有模型,在一次模型部署中即可实现高性能并节省计算成本。 若要详细了解模型路由器的工作原理、其优点和限制,请参阅模型路由器概念指南。
通过补全 API 使用模型路由器,就像使用单一基础模型(例如 GPT-4)一样。 按照聊天补全指南中的相同步骤操作。
部署模型路由器模型
模型路由器打包为你部署的单个 Azure AI Foundry 模型。 按照 资源部署指南中的步骤作。 在“创建新部署”步骤中,在model-router列表中找到。 选择它,然后完成其余部署步骤。
注释
部署设置适用于模型路由器使用的所有基础聊天模型。
- 不要单独部署基础聊天模型。 模型路由器独立于其他已部署的模型工作。
- 部署模型路由器模型或稍后应用筛选器时,请选择内容筛选器。 内容筛选器适用于传入和传出模型路由器的所有内容;不要为每个基础聊天模型设置内容筛选器。
- “每分钟令牌数速率限制”适用于传入和传出模型路由器的所有活动;不要为每个基础聊天模型设置速率限制。##在聊天中使用模型路由器
可以通过 聊天完成 API 使用模型路由器,就像使用其他 OpenAI 聊天模型一样。 将 model 参数设置为你的模型路由器部署的名称,并将 messages 参数设置为要发送到模型的消息。
在 Azure AI Foundry 门户中,可以在“模型 + 终结点”页上前往你的模型路由器部署,然后选择对应路由器以进入模型操场。 在操场中,输入消息并查看模型的响应。 每个响应会显示路由器选择的基础模型。
重要
可以将和Temperature参数设置为Top_P首选值(请参阅概念指南),但请注意,推理模型(o 系列)不支持这些参数。 如果模型路由器为提示选择推理模型,它将忽略 Temperature 和 Top_P 输入参数。
对于 o 系列模型,参数 stop、presence_penalty、frequency_penalty、logit_bias 和 logprobs 同样被删除,但在其他情况下使用。
重要
模型路由器不支持参数 reasoning_effort (请参阅 推理模型指南)。 如果模型路由器为提示选择推理模型,则它还会根据提示的复杂性选择输入 reasoning_effort 值。
输出格式
从模型路由器模型收到的 JSON 响应与标准聊天完成 API 响应相同。 请注意,该 "model" 字段显示选择了哪个基础模型来响应提示。
{
"choices": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"protected_material_code": {
"detected": "False",
"filtered": "False"
},
"protected_material_text": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"finish_reason": "stop",
"index": 0,
"logprobs": "None",
"message": {
"content": "I'm doing well, thank you! How can I assist you today?",
"refusal": "None",
"role": "assistant"
}
}
],
"created": 1745308617,
"id": "xxxx-yyyy-zzzz",
"model": "gpt-4.1-nano-2025-04-14",
"object": "chat.completion",
"prompt_filter_results": [
{
"content_filter_results": {
"hate": {
"filtered": "False",
"severity": "safe"
},
"jailbreak": {
"detected": "False",
"filtered": "False"
},
"self_harm": {
"filtered": "False",
"severity": "safe"
},
"sexual": {
"filtered": "False",
"severity": "safe"
},
"violence": {
"filtered": "False",
"severity": "safe"
}
},
"prompt_index": 0
}
],
"system_fingerprint": "xxxx",
"usage": {
"completion_tokens": 15,
"completion_tokens_details": {
"accepted_prediction_tokens": 0,
"audio_tokens": 0,
"reasoning_tokens": 0,
"rejected_prediction_tokens": 0
},
"prompt_tokens": 21,
"prompt_tokens_details": {
"audio_tokens": 0,
"cached_tokens": 0
},
"total_tokens": 36
}
}
监视模型路由器指标
监控性能
在 Azure 门户中的 Azure Monitor (AzMon) 中监视模型路由器部署的性能。
- 在 Azure 门户中转到 Azure OpenAI 资源的“监视”>“指标”页。
- 按模型路由器模型的部署名称进行筛选。
- 根据需要按基础模型拆分指标。
监控成本
可以监视模型路由器的成本,这是基础模型产生的成本之和。
- 访问 Azure 门户中 的“资源管理 ->成本分析 ”页。
- 如果需要,请根据 Azure 资源进行筛选。
- 然后,按部署名称进行筛选:按“标记”进行筛选,选择 “部署 ”作为标记的类型,然后选择模型路由器部署名称作为值。