使用 Copilot 调整功能对模型进行微调,以便在 Microsoft 365 Copilot 预览版中使用。

本文介绍如何使用 Copilot 优化在 Copilot Studio 中创建微调的模型,可与 Microsoft 365 Copilot 的声明性代理配合使用。 微调是一个过程,允许你使用自己的租户数据,将预先训练的模型定制化以完成特定任务。 可以使用这些微调的模型来构建能够胜任领域特定任务的专业代理,并在 Microsoft 365 Copilot 中为它们提供服务。

微调有助于模型更好地执行与组织相关的任务。 经过微调的模型对于具有独特数据或专用要求的组织尤其有用。

本文提供 Copilot Studio 中 Copilot 优化过程的基本概述。 如需获取更详细的任务特定指导,帮助您从组织和任务的微调中获得最佳结果,请参阅 Copilot 优化概述

Copilot 优化的优点

模型微调是一种功能强大的技术,用于根据特定需求定制大型语言模型。 微调补充了其他生成式 AI 优化技术,如检索增强生成(也称为 RAG)和提示优化。 要想精确指导模型的行为,微调是非常合适的方法。

微调通常需要专家数据科学家团队来整理数据集并构建特定任务的数据准备和训练流程。

Copilot Studio 中的 Copilot 优化大大简化了这一过程,使其成为几乎任何主题专家都可以使用的工具。

Copilot Studio 抽象化了该过程的复杂性。 Copilot Studio 的 Copilot 调试过程采用低代码,将微调从复杂且资源密集型的项目,转变为简化的自助服务体验。

由 AI 提供支持的自动化数据准备可以将杂乱的企业内容转化为高质量的训练集,只需很小的工作即可完成。 此自动化通过仅请求模型置信度较低的人工输入来最大程度地减少手动标记的需求。 通过自动化,可以减少数据标记工作量。

最后,此功能可节省创建专用数据处理和训练管道的努力。

安全性

与传统的微调技术相比,Copilot 优化提供了增强的安全性,确保只有具有正确访问控制的用户(由您现有的 Microsoft Entra 安全组定义)才能在构建 Microsoft 365 Copilot 智能体时使用模型。 管理员还可以快速从生产中删除模型,进一步增强安全性。

没有人看到你的数据,即使在训练期间也是如此。 所有训练和推理都发生在租户隔离的环境中。

Copilot 优化可以执行哪些类型的任务?

目前,可以对以下任务使用 Copilot 优化:

  1. 问答:专家问答能够准确回答在复杂知识领域的问题,例如在人力资源和专业服务场景中,仅仅依靠 RAG 是不够的。
  2. 文档生成:文档生成擅长创建复杂结构化文档,这些文档必须遵循特定格式,例如协议、合同和技术文档。
  3. 文档摘要:文档摘要将复杂的信息(如法规或立法分析)精确提取到定制的摘要中。

资格

Copilot 优化是一个抢先体验计划 (EAP)。 有关 EAP 资格的更多详细信息,请参阅 Microsoft 365 Copilot 优化简介

在可以使用 Copilot 优化的组织中,Microsoft 365 管理员控制访问权限。 管理员可以为组织或租户级别激活 Copilot 优化。 管理员还可以限制对组织中的特定用户对此功能的访问权限。

在 Copilot Studio 中访问 Copilot 优化

Microsoft 365 管理员在租户中提供 Copilot 优化并授予模型制作权限后,你将收到一封电子邮件,邀请你开始使用 Microsoft Copilot Studio 生成第一个模型。

若要访问 Copilot 优化,请执行以下操作:

  1. 使用具有 Model Maker 角色的用户帐户登录到 Copilot Studio

  2. 在左侧导航中,选择更多图标(...),然后选择Copilot 调优

    此时会打开 Copilot 优化页面。

    如果未看到此选项,则 Copilot 优化不适用于你的租户,或者你无权创建微调的模型。

创建微调的模型

Copilot 优化是一个多步骤训练过程。 与任何机器学习训练过程一样,训练数据的质量和数量对于模型的成功至关重要。

注释

Copilot 优化目前仅支持 Sharepoint 文件,并且仅限于 Word 文档、PDF 和文本文件。

配置基本模型参数

首先,为希望模型执行的作、其行为方式以及要使用的适当数据源配置高级参数。

  1. 转到 Copilot 优化 页面,然后选择“ 创建新模型”。 你会被带到将模型自定义为您的任务页面。

  2. 为模型输入有意义的名称和说明。

    请以一种便于组织内用户快速理解其如何在工作中帮助他们的方式来描述该模型。

  3. “选择知识源”下,选择“ 添加知识”。

    此时会显示 “向模型添加知识 ”页。

    1. 选择知识类型。 目前,SharePoint 可用。

    2. 选择知识源。 在计算机上浏览 SharePoint 文件或输入源的 URL,然后选择“ 添加”。

    3. 根据需要重复上一步,添加更多知识源。

    4. 添加知识源后,请选择 “添加 ”继续。

  4. “权限”下,指定在模型部署时应有权访问的 Microsoft Entra 安全组。

    Copilot 调试会自动从训练中排除任何你所选安全组无法访问的文件。 Copilot Studio 还自动建议其他安全组,以最大程度地扩大可在模型中安全整合的知识范围。

  5. “任务类型”下,选择所需的任务类型。

  6. 在显示的 “模型说明 ”部分中,按指示回答问题。 按指示输入说明信息。 有关完整详细信息,请参阅 Microsoft 365 Copilot 优化文档中的详细任务特定指南。

    模型说明可帮助 Copilot Studio 识别和准备知识源中最相关的数据。 良好的模型说明为模型提供了有关如何在训练过程中解释数据的提示。

  7. 选择 “保存草稿 ”以保存进度,或者,如果已准备好继续进行微调过程,请选择“ 准备标记数据”。

    Copilot Studio 开始准备用于标记的数据。

    Copilot Studio 会通知你,如果某些所选的知识源不适用于所选安全组。 Copilot Studio 会自动建议其他安全组,以最大程度地扩大可在模型中安全整合的知识范围。

  8. 根据需要调整安全组以扩展覆盖范围,然后选择“ 继续选择”。

    Copilot Studio 将数据准备好以便进行标记。

    重要

    根据数据的大小,准备可能需要长达 24 小时才能完成。 在准备过程中,可以继续在 Copilot Studio 中工作,或关闭浏览器选项卡,稍后返回。 完成此步骤后,你会收到电子邮件通知。 你可以随时通过返回到 Copilot Studio 并刷新模型列表来检查状态。

标记训练示例

处理数据后,Copilot Studio 会发送电子邮件通知,指示数据已准备好进行标记。

Copilot Studio 提供与任务和所提供的数据相关的生成的训练示例。 必须查看示例并提供有关示例质量的反馈。

标签是一个关键步骤,因为它实质上是教模型如何识别理想的训练示例。 确保具有域专业知识的个人执行此任务。 如果你不是域专家,可以通过内置标签管理工作流将标记任务委托给主题专家。

标记过程通常通过多个批处理。 训练模型最多需要四到五批标签。

标记完成后,即可训练模型。 选择 “开始训练 ”以继续。

训练模型

Copilot Studio 使用标记的数据训练模型。 培训是一个完全自动化的过程,无需你进一步输入。

重要

训练过程可能需要长达 24 小时,具体取决于数据的大小。

训练完成后,你会收到电子邮件通知。 还可以随时通过返回到 Copilot Studio 并刷新模型列表来检查状态。

评估模型

在最后阶段,你将在微调模型输出的结果与基线非微调模型的结果之间进行一组并排比较。 若要继续提高模型响应的质量,可以开始新的模型训练运行。

若要改进下一次训练运行中的模型输出,请确保数据集与模型的特定任务完全一致,并且你的数据由域专家标记。

将模型发布到 Microsoft 365 Copilot

对模型的输出感到满意后,请将模型发布到 Microsoft 365 租户目录。

您的模型现在可供您的租户智能体用于 Copilot。

注释

只有在微调过程开始时选择的安全组的成员才能在代理中使用模型。

有关如何在适用于 Copilot 的代理中使用模型的详细信息,请参阅 Microsoft 365 Copilot 文档。

局限和限制

创建微调的模型时,需要注意一些限制和限制:

  • 如果在训练模型后添加知识源,则必须从头开始重启微调过程。
  • Copilot Studio 尚不支持模型版本控制。
  • 如果在训练模型时使用了其数据的用户根据 GDPR(或类似法规)提交有效的删除请求,则必须重新训练模型。
  • 微调模型时,会根据训练数据调整模型权重。 可以随时删除微调的模型。
  • 你负责如何在租户环境中收集、存储和使用数据。
  • 必须确保数据实践符合法律对透明度、同意、访问和删除的要求。
  • 你负责在使用此系统之前验证从此系统生成的任何输出的准确性、适当性和符合性。 验证可能需要与领域专家进行审查。