你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

使用 Azure AI Foundry 评估生成 AI 模型和应用程序

如果要在应用于大量数据集时彻底评估生成 AI 模型和应用程序的性能,可以启动评估过程。 在此评估期间,模型或应用程序使用给定数据集进行测试,其性能通过基于数学的指标和 AI 辅助指标进行量化度量。 此评估运行提供对应用程序功能和限制的全面见解。

若要进行此评估,可以使用 Azure AI Foundry 门户中的评估功能,这是一个全面的平台,提供用于评估生成 AI 模型性能和安全性的工具和功能。 在 Azure AI Foundry 门户中,可以记录、查看和分析详细的评估指标。

本文介绍如何使用 Azure AI Foundry UI 中的内置评估指标针对模型或测试数据集创建评估运行。 为了提高灵活性,可以建立自定义评估流,并使用自定义评估功能。 还可以使用 自定义评估 功能执行批处理运行,而无需进行任何评估。

先决条件

  • 采用以下格式之一的测试数据集:CSV 或 JSON 行(JSONL)。
  • Azure OpenAI 连接。 其中一种模型的部署:GPT-3.5 模型、GPT-4 模型或 Davinci 模型。 仅在运行 AI 辅助质量评估时是必需的。

使用内置评估指标创建评估

通过评估运行,可以生成测试数据集中每个数据行的指标输出。 可以选择一个或多个评估指标来评估不同方面的输出。 在 Azure AI Foundry 门户中,可以从评估或模型目录页创建评估任务。 此时会出现评估创建向导,并指示您如何设置评估操作。

从评估页

从可折叠的左侧菜单中,选择“ 评估>”创建新的评估

从模型目录页

  1. 从可折叠的左侧菜单中,选择 “模型”目录

  2. 访问模型。

  3. 选择“ 基准 ”选项卡。

  4. 选择“试用自己的数据”。 此选择将打开模型评估面板,可在其中针对所选模型创建评估运行。

    模型目录页的“尝试使用您自己的数据”按钮的屏幕截图。

评估目标

“评估 ”页开始评估时,首先需要选择评估目标。 通过指定适当的评估目标,我们可以根据应用的特定性质定制评估,确保指标的准确性和相关性。 我们支持两种类型的评估目标:

  • 模型:此选项评估所选模型和用户定义的提示生成的输出。
  • 数据集:模型生成的输出已在测试数据集中。

配置测试数据

输入评估创建向导时,可以从预先存在的数据集中进行选择,或上传要评估的新数据集。 测试数据集需要具有要用于评估的模型生成的输出。 测试数据的预览显示在右窗格中。

  • 选择现有数据集:可以从已建立的数据集集合中选择测试数据集。

    创建新评估时选择测试数据的选项的屏幕截图。

  • 添加新数据集:从本地存储上传文件。 仅支持 CSV 和 JSONL 文件格式。 测试数据的预览显示在右窗格中。

    创建新评估时可以使用的上传文件选项的屏幕截图。

配置测试条件

我们支持 Microsoft 特选的三种指标,以便于你全面评估应用程序:

  • AI 质量(AI 辅助):这些指标评估生成的内容的整体质量和一致性。 需要一个模型部署作为判断来运行这些指标。
  • AI 质量(NLP):这些自然语言处理(NLP)指标基于数学,还评估生成的内容的整体质量。 它们通常需要地面真实数据,但不需要模型部署作为判断。
  • 风险和安全指标:这些指标侧重于识别潜在内容风险并确保生成的内容的安全性。

添加测试条件时,将使用不同的指标作为评估的一部分。 可以参考下表,以获取每种场景中支持的指标的完整列表。 有关指标定义及其计算方式的详细信息,请参阅 什么是计算器?

AI 质量(AI 辅助) AI 质量 (NLP) 风险和安全指标
有据性、相关性、连贯性、流畅性、GPT 相似性 F1 分数、ROUGE 分数、BLEU 分数、GLEU 分数、METEOR 分数 自我伤害相关内容、仇恨和不公平内容、暴力内容、性内容、受保护材料、间接攻击

运行 AI 辅助质量评估时,必须为计算/评分过程指定 GPT 模型。

显示 Likert 量表评估器的屏幕截图,其中展示了预设中列出的 AI 质量(AI 辅助)指标。

AI 质量 (NLP) 指标是基于数学的度量值,用于评估应用程序的性能。 它们通常需要真实数据来进行计算。 ROUGE 是一系列指标。 你可以选择 ROUGE 类型来计算分数。 各种类型的 ROUGE 指标提供多种方式来评估所生成文本的质量。 ROUGE-N 度量所生成文本与参考文本之间 n 元语法的重叠程度。

显示与预设中列出的 AI 质量(NLP)指标的文本相似性的屏幕截图。

对于风险和安全指标,无需提供部署。 Azure AI Foundry 门户预配 GPT-4 模型,该模型可生成内容风险严重性分数和推理,使你能够评估应用程序的内容危害。

注释

AI 辅助风险和安全指标由 Azure AI Foundry 安全评估托管,仅在以下区域提供:美国东部 2、法国中部、英国南部、瑞典中部。

显示指标暴力内容的屏幕截图,这是风险和安全指标之一。

谨慎

以前使用 oai.azure.com进行模型部署管理和评估的用户,在迁移到 Azure AI Foundry 开发人员平台后,使用 ai.azure.com时具有以下限制:

  • 这些用户无法查看通过 Azure OpenAI API 创建的评估。 若要查看这些评估,必须返回 oai.azure.com
  • 这些用户无法使用 Azure OpenAI API 在 Azure AI Foundry 中运行评估。 相反,他们应继续使用 oai.azure.com 来完成此任务。 但是,他们可以使用 Azure AI Foundry()中直接提供的 Azure OpenAI 评估器(ai.azure.com)用于创建数据集评估的选项。 如果部署是从 Azure OpenAI 迁移到 Azure AI Foundry,则不支持微调模型评估选项。

对于数据集上传和自带存储的方案,有一些配置要求:

  • 帐户身份验证必须使用 Microsoft Entra ID。
  • 必须将存储添加到帐户。 将其添加到项目会导致服务错误。
  • 用户必须在 Azure 门户中通过访问控制将其项目添加到其存储帐户。

若要详细了解如何在 Azure OpenAI 中心使用 OpenAI 评估评分员创建评估,请参阅如何在 Azure AI Foundry 模型中使用 Azure OpenAI。

数据映射

评估的数据映射:对于添加的每个指标,必须指定数据集中的数据列与评估中所需的输入相对应。 不同的评估指标需要不同类型的数据输入,以进行准确的计算。

在评估期间,根据关键输入评估模型响应,例如:

  • 查询:对所有指标都是必需的。
  • 上下文:可选。
  • 真实数据:可选,AI 质量(NLP)指标需要

这些映射可确保数据完全符合评估条件。

查询、上下文和依据事实映射到评估输入的屏幕截图。

查询和响应指标要求

有关每个指标的特定数据映射要求的指导,请参阅表中提供的信息:

指标 查询 响应 上下文 基本事实
真实性 必需:Str 必需:Str 必需:Str 不适用
一致性 必需:Str 必需:Str 不适用 不适用
流畅度 必需:Str 必需:Str 不适用 不适用
相关性 必需:Str 必需:Str 必需:Str 不适用
GPT 相似性 必需:Str 必需:Str 不适用 必需:Str
F1 分数 不适用 必需:Str 不适用 必需:Str
BLEU 分数 不适用 必需:Str 不适用 必需:Str
GLEU 分数 不适用 必需:Str 不适用 必需:Str
METEOR 分数 不适用 必需:Str 不适用 必需:Str
ROUGE 分数 不适用 必需:Str 不适用 必需:Str
自我伤害相关内容 必需:Str 必需:Str 不适用 不适用
仇恨和不公平内容 必需:Str 必需:Str 不适用 不适用
暴力内容 必需:Str 必需:Str 不适用 不适用
性内容 必需:Str 必需:Str 不适用 不适用
受保护的材料 必需:Str 必需:Str 不适用 不适用
间接攻击 必需:Str 必需:Str 不适用 不适用
  • 查询:查找特定信息的查询。
  • 响应:对模型生成的查询的响应。
  • 上下文:响应所基于的源。 (示例:基础设置文档。)
  • 基本事实:由充当真实答案的人类用户生成的查询响应。

查看和完成

完成所有必需的配置后,可以为评估提供可选名称。 然后,可以查看并选择“提交”以提交评估运行。

模型评估

若要为所选模型部署创建新的评估,可以使用 GPT 模型生成示例问题,也可以从已建立的数据集集合中进行选择。

为模型配置测试数据

设置用于评估的测试数据集。 此数据集将发送到模型以生成评估响应。 有两个选项可用于配置测试数据:

  • 生成示例问题
  • 使用现有数据集(或上传新数据集)
生成示例问题

如果没有现成的数据集,并且想要使用小型示例运行评估,请选择要基于所选主题进行评估的模型部署。 支持 Azure OpenAI 模型和其他与无服务器 API 部署兼容的开放模型,例如 Meta Llama 和 Phi-3 系列模型。

主题可帮助你根据感兴趣的领域定制生成的内容。 查询和响应是实时生成的,你可以根据需要重新生成它们。

使用您的数据集

还可以从已建立的数据集集合中选择,或上传新数据集。

屏幕截图显示“选择数据源”并突出显示使用现有数据集。

选择评估指标

若要配置测试条件,请选择“ 下一步”。 在选择条件时,会添加指标,并且您需要将数据集的列映射到评估所需的字段。 这些映射可确保数据完全符合评估条件。

选择所需的测试条件后,可以查看评估,可以选择更改评估的名称,然后选择 “提交”。 转到评估页以查看结果。

注释

创建评估运行后,生成的数据集将保存到项目的 Blob 存储中。

查看和管理评估器库中的评估器

可以在评估器库的同一界面查看评估器的详细信息和状态。 可以查看和管理 Microsoft 策展的评估器。

评估器库还会启用版本管理。 你可以比较不同的工作版本,根据需要还原以前的版本,并更轻松地与他人协作。

若要在 Azure AI Foundry 门户中使用评估器库,请转到项目的“评估”页面并选择“评估器库”选项卡

可以选择评估器名称以查看更多详细信息。 可以查看名称、说明和参数,并检查与评估器关联的任何文件。 下面是 Microsoft 策展评估器的一些示例:

  • 对于 Microsoft 特选的性能和质量评估器,可以在详细信息页面上查看注释提示。 你可以将这些提示适应你自己的用例。 根据 Azure AI 评估 SDK 中的数据和目标更改参数或条件。 例如,可以选择“Groundedness-评估器”并检查“提示”文件,其中显示了如何计算指标。
  • 对于 Microsoft 特选的风险和安全性评估器,可以查看指标的定义。 例如,可以选择 “自我伤害相关内容-评估程序 ”来了解它的含义,并了解Microsoft如何确定严重性级别。

详细了解如何评估生成式 AI 应用程序: