可训练的分类器入门

Microsoft Purview 可训练分类器是一种工具,你可以通过提供要评估的样本来训练识别各种类型的内容。 经过训练后,可以使用它来标识用于应用 Office 敏感度标签、通信合规性策略和保留标签策略的项目。

实现自定义可训练分类器需要两个步骤:

  1. 提供由人类) 选择的两组示例数据 (。
    1. 一个仅包含属于类别的项的集。
    2. 一个仅包含 不属于 类别的项的集。
  2. 测试分类器检测匹配项的能力。

本文介绍如何创建和测试自定义分类器。

有关不同类型的分类器的详细信息,请参阅 了解可训练分类器

重要

Microsoft Purview 通信合规性仅支持使用提供的Microsoft可训练分类器。 不支持自定义可训练分类器。

先决条件

授权

有关许可的信息,请参阅

权限

若要在以下方案中使用分类器,需要具有以下权限:

应用场景 所需的角色权限
保留标签策略 记录管理
保留管理
敏感度标签策略 安全管理员
合规管理员
合规数据管理员
通信合规性策略 内部风险管理管理员
监督评审管理员

重要

默认情况下,只有创建自定义分类器的用户才能训练它并查看该分类器所做的预测。

准备自定义可训练分类器

在创建自定义可训练分类器之前,了解所涉及的内容很有帮助。

总体工作流

有关创建自定义可训练分类器的总体工作流的详细信息,请参阅 创建自定义可训练分类器的过程流

种子内容

若要确保可训练的分类器能够独立准确地识别某个项是否属于特定类别的内容,必须向它提供该类别中内容类型的许多示例。 这种将样本馈送到可训练分类器称为 种子设定。 人类必须选择种子内容,并且该内容必须包含两组数据:一组仅包含强表示分类器旨在检测) (阳性样本的内容的项目,第二组包含明显不属于 (阴性样本) 的项目。

需要至少 50 个阳性样本 (最多 500) ,需要至少 150 个阴性样本 (最多 1,500) 才能训练分类器。 提供的样本越多,分类器进行的预测就越准确。 可训练的分类器处理最多 2,000 个最近创建的样本, (文件创建的日期/时间戳) 。

提示

为了获得最佳结果,测试示例集中至少有 200 个项目,其中包括至少 50 个阳性示例和至少 150 个负面示例。

创建可训练分类器组

预览版: 以下过程自动测试可训练分类器,并将创建工作流从 12 天缩短到两天。 在某些情况下,此过程可能只需几个小时。

  1. 收集 50 到 500 个种子内容项,这些项强烈表示你希望分类器主动标识为属于该类别的数据。 有关支持的文件类型的列表,请参阅 SharePoint Server 中默认已爬网文件扩展名和分析的文件类型

  2. 收集第 组种子内容, (从 150 项到 1,500 项,) 表示 不属于 该类别的数据。

  3. 将正种子内容和负种子内容放在单独的 SharePoint 文件夹中。 每个文件夹必须专用于仅保存 种子内容。 记下每个集的网站、库和文件夹 URL。

    提示

    如果为种子数据创建新的 SharePoint 网站和文件夹,请在创建使用该种子数据的可训练分类器之前,至少允许该位置编制索引一小时。

  4. 使用合规性管理员或安全管理员角色访问权限登录到 Microsoft Purview 门户 ,并导航到 数据丢失防护>数据分类>分类器

重要

使用的帐户必须有权访问 SharePoint 中的种子内容文件夹。

  1. 选择“ 可训练的分类器 ”选项卡。

  2. 选择 “创建可训练分类器”。

  3. 添加 正面 示例的源:选择分类器应检测的种子内容的 SharePoint 网站、库和文件夹 URL,然后选择“ 下一步”。

  4. 添加 负面 示例的源:选择分类器应忽略的种子内容的 SharePoint 网站、库和文件夹 URL,然后选择“ 下一步”。

  5. 查看设置,然后选择“ 创建可训练分类器”。

  6. 在 24 小时或更短时间内,可训练分类器处理种子数据并生成预测模型。 分类器状态正在 处理 种子数据。 分类器处理完种子数据后,状态将更改为 “训练完成”,并且已测试项

  7. 训练完成且自动 (项) 测试时,通过选择“ 发布”以使用来发布分类器。

发布分类器后,该分类器在 Office 自动标记(敏感度标签)、 基于条件的自动应用保留标签策略通信合规性中可用作条件。

测试分类器

在可训练分类器处理足够的正样本和负样本以生成预测模型后,测试其做出的预测。 测试分类器时,可以验证其预测是否正确。 分类器处理所有数据后,可以浏览结果以验证每个预测是否正确、不正确或不确定。 Microsoft聚合使用此反馈来改进预测模型。

另请参阅