你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

将模型路由器用于 Azure AI Foundry (预览版)

Azure AI Foundry 的模型路由器是一种可部署的 AI 聊天模型,可选择最佳的大型语言模型 (LLM) 来实时响应提示。 此模型路由器使用不同的现有模型,在一次模型部署中即可实现高性能并节省计算成本。 若要详细了解模型路由器的工作原理、其优点和限制,请参阅模型路由器概念指南

通过补全 API 使用模型路由器,就像使用单一基础模型(例如 GPT-4)一样。 按照聊天补全指南中的相同步骤操作。

部署模型路由器模型

模型路由器打包为你部署的单个 Azure AI Foundry 模型。 按照 资源部署指南中的步骤作。 在“创建新部署”步骤中,在model-router列表中找到。 选择它,然后完成其余部署步骤。

注释

部署设置适用于模型路由器使用的所有基础聊天模型。

  • 不要单独部署基础聊天模型。 模型路由器独立于其他已部署的模型工作。
  • 部署模型路由器模型或稍后应用筛选器时,请选择内容筛选器。 内容筛选器适用于传入和传出模型路由器的所有内容;不要为每个基础聊天模型设置内容筛选器。
  • “每分钟令牌数速率限制”适用于传入和传出模型路由器的所有活动;不要为每个基础聊天模型设置速率限制。##在聊天中使用模型路由器

可以通过 聊天完成 API 使用模型路由器,就像使用其他 OpenAI 聊天模型一样。 将 model 参数设置为你的模型路由器部署的名称,并将 messages 参数设置为要发送到模型的消息。

Azure AI Foundry 门户中,可以在“模型 + 终结点”页上前往你的模型路由器部署,然后选择对应路由器以进入模型操场。 在操场中,输入消息并查看模型的响应。 每个响应会显示路由器选择的基础模型。

重要

可以将和Temperature参数设置为Top_P首选值(请参阅概念指南),但请注意,推理模型(o 系列)不支持这些参数。 如果模型路由器为提示选择推理模型,它将忽略 TemperatureTop_P 输入参数。

对于 o 系列模型,参数 stoppresence_penaltyfrequency_penaltylogit_biaslogprobs 同样被删除,但在其他情况下使用。

重要

模型路由器不支持参数 reasoning_effort (请参阅 推理模型指南)。 如果模型路由器为提示选择推理模型,则它还会根据提示的复杂性选择输入 reasoning_effort 值。

输出格式

从模型路由器模型收到的 JSON 响应与标准聊天完成 API 响应相同。 请注意,该 "model" 字段显示选择了哪个基础模型来响应提示。

{
  "choices": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "protected_material_code": {
          "detected": "False",
          "filtered": "False"
        },
        "protected_material_text": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "finish_reason": "stop",
      "index": 0,
      "logprobs": "None",
      "message": {
        "content": "I'm doing well, thank you! How can I assist you today?",
        "refusal": "None",
        "role": "assistant"
      }
    }
  ],
  "created": 1745308617,
  "id": "xxxx-yyyy-zzzz",
  "model": "gpt-4.1-nano-2025-04-14",
  "object": "chat.completion",
  "prompt_filter_results": [
    {
      "content_filter_results": {
        "hate": {
          "filtered": "False",
          "severity": "safe"
        },
        "jailbreak": {
          "detected": "False",
          "filtered": "False"
        },
        "self_harm": {
          "filtered": "False",
          "severity": "safe"
        },
        "sexual": {
          "filtered": "False",
          "severity": "safe"
        },
        "violence": {
          "filtered": "False",
          "severity": "safe"
        }
      },
      "prompt_index": 0
    }
  ],
  "system_fingerprint": "xxxx",
  "usage": {
    "completion_tokens": 15,
    "completion_tokens_details": {
      "accepted_prediction_tokens": 0,
      "audio_tokens": 0,
      "reasoning_tokens": 0,
      "rejected_prediction_tokens": 0
    },
    "prompt_tokens": 21,
    "prompt_tokens_details": {
      "audio_tokens": 0,
      "cached_tokens": 0
    },
    "total_tokens": 36
  }
}

监视模型路由器指标

监控性能

在 Azure 门户中的 Azure Monitor (AzMon) 中监视模型路由器部署的性能。

  1. 在 Azure 门户中转到 Azure OpenAI 资源的“监视”>“指标”页
  2. 按模型路由器模型的部署名称进行筛选。
  3. 根据需要按基础模型拆分指标。

监控成本

可以监视模型路由器的成本,这是基础模型产生的成本之和。

  1. 访问 Azure 门户中 的“资源管理 ->成本分析 ”页。
  2. 如果需要,请根据 Azure 资源进行筛选。
  3. 然后,按部署名称进行筛选:按“标记”进行筛选,选择 “部署 ”作为标记的类型,然后选择模型路由器部署名称作为值。