你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure AI Foundry 门户中的模型排行榜比较和选择模型(预览版)

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Azure 预览版Microsoft补充使用条款

本文介绍如何通过比较 Azure AI Foundry 门户中提供的模型排行榜(预览)中的模型来简化 Azure AI Foundry 模型目录中 的模型选择过程。 此比较可帮助你就哪些模型满足特定用例或应用程序的要求做出明智的决策。 可以通过查看以下排行榜来比较模型:

先决条件

  • 具有有效付款方式的 Azure 订阅。 免费或试用的 Azure 订阅将不起作用。 如果没有 Azure 订阅,请创建一个付费 Azure 帐户以开始。

  • Azure AI Foundry 项目

访问模型排行榜

  1. 登录到 Azure AI Foundry
  2. 如果你尚未进入项目,请先选择它。
  3. 从左窗格中选择 “模型目录 ”。
  1. 转到模型目录的 “模型排行榜 ”部分。 本部分显示按质量成本和性能排名的前三个模型领导者。 可以选择其中任一模型来查看更多详细信息。

    显示模型目录主页上排行榜入口点中所选模型的屏幕截图。

  2. 从模型目录的 “模型排行榜 ”部分,选择“ 浏览 排行榜”转到 模型排行榜登陆页 ,查看可用的排行榜的完整套件。

    显示模型目录入口点到模型排行榜的屏幕截图。

    主页会显示模型选择条件的排行榜突出显示。 质量是模型选择的最常见标准,其次是安全、成本和性能。

    显示质量、成本和性能中突出显示的排行榜的屏幕截图。

比较折衷图表中的模型

利用折衷图表,可以根据你关注的条件比较模型。 假设你更关心成本而不是质量,你发现最高质量的模型不是最便宜的模型,可能需要在质量、成本和性能标准之间进行权衡。 在权衡图表中,您可以一目了然地比较模型在两个指标上的表现。

  1. 选择 “Models selected” 下拉菜单,在折衷图表中添加或删除模型。
  2. 选择 “质量与成本 ”选项卡和“ 质量与吞吐量 ”选项卡以查看所选模型的这些图表。
  3. 选择 “在指标之间进行比较” 以访问每个模型的更详细结果。

显示质量、成本和性能的折衷图表的屏幕截图。

按应用场景查看排行榜

假设你有一个需要某些模型功能的方案。 例如,假设你正在构建一个需要良好问答和推理功能的问答聊天机器人。 你可能会发现比较这些排行榜中受功能特定基准支持的模型很有用。

显示按方案的质量排行榜的屏幕截图。

浏览排行榜后,可以决定要使用的模型。

查看模型卡中的基准

  1. 选择喜欢的模型,然后选择 “模型详细信息”。 可以从其中一个显示的排行榜中选择模型,例如模型排行榜主页顶部的质量排行榜。 对于此示例,请选择 gpt-4o。 此操作将打开模型的概述页面。

  2. 转到“ 基准 ”选项卡,检查模型的基准结果。

    显示 gpt-4o 的基准选项卡的屏幕截图。

  3. 选择与更多型号比较

  4. 切换到 “列表”视图 以访问每个模型的更详细结果。

    显示基准比较视图示例的屏幕截图。

分析基准检验结果

在特定模型的“基准检验”选项卡中时,可以收集大量信息以更好地理解和解释基准检验结果,包括:

  • 高级聚合分数:这些 AI 质量、成本、延迟和吞吐量的分数让你可以快速了解模型性能。

  • 比较图表:这些图表显示模型与相关模型相比的相对情况。

  • 指标比较表:此表显示每个指标的详细结果。

    显示 gpt-4o 基准选项卡的屏幕截图。

默认情况下,Azure AI Foundry 会显示各种指标和数据集的平均指数,让你可以大致了解模型性能。

若要访问特定指标和数据集的基准检验结果,请执行以下操作:

  1. 选择图表上的展开按钮。 弹出式比较图表将显示详细信息,并且能够更灵活地进行比较。

    显示用于选择详细比较图表的展开按钮的屏幕截图。

  2. 根据你的特定场景,选择感兴趣的指标并选择不同的数据集。 有关用于计算结果的公共数据集的指标和说明的更详细定义,请选择“ 阅读详细信息”。

    显示具有特定指标和数据集的比较图表的屏幕截图。

使用你的数据评估基准检验结果

前面的部分显示了 Microsoft 使用公共数据集计算的基准检验结果。 但是,可以尝试使用你的数据重新生成同一组指标。

  1. 返回到模型卡中的 “基准” 选项卡。

  2. 选择“使用自己的数据尝试”以使用你自己的数据评估模型 根据你自己的数据进行评估可帮助你了解模型在特定场景中的表现。

    显示选择用于使用你自己的数据进行评估的按钮的屏幕截图。