你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义文本分类的用例

重要

仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。

Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

自定义文本分类简介

自定义文本分类 是一种基于云的 API 服务,它应用机器学习智能,使你可以为文本分类任务生成自定义模型。

自定义文本分类支持两种类型的项目:

  • 单个标签分类:仅为数据集中的每个文件分配一个标签。 例如,如果文件是电影脚本,则只能将其归类为“动作”、“惊悚片”或“浪漫”。
  • 多个标签分类:为数据集中的每个文件分配多个标签。 例如,如果文件是电影脚本,则可将其归类为“Action”或“Action”和“惊悚片”。

自定义文本分类的基础知识

自定义文本分类作为 Azure AI 语言中的自定义功能的一部分提供。 此功能允许用户生成自定义 AI 模型,将文本分类为用户预定义的自定义类别。 通过创建自定义文本分类项目,开发人员可以在使数据可供使用之前以迭代方式标记数据并训练、评估和改进模型性能。 标记数据的质量极大地影响模型性能。

为了简化模型生成和自定义,该服务提供了一个可通过 Language Studio 访问的自定义 Web 门户。 可以按照此快速入门中的步骤轻松开始使用该服务。

自定义文本分类术语

自定义文本分类中通常使用以下术语:

术语 定义
项目 项目是一个基于数据构建自定义 AI 模型的工作区。 你的项目只能由你和对正在使用的 Azure 资源具有参与者访问权限的其他人访问。 在项目中,可以根据需要标记数据、生成模型、评估和改进它们,并最终部署模型以供使用。 可以在同一数据集的项目中生成多个模型。
型号 模型是经过训练以执行特定任务的对象。 对于此系统,模型对文本进行分类。 通过学习标记数据来训练模型。
班级 类是一个用户定义的类别,指示文本的整体分类。 开发人员先使用分配的类标记数据,然后再将其传递给模型进行训练。

自定义文本分类的示例用例

自定义文本分类可用于各种行业的多个方案。 一些示例包括:

  • 自动电子邮件或票证会审: 所有类型的支持中心接收大量包含非结构化、自由格式文本和附件的电子邮件或票证。 及时查看、确认并转交给内部团队中的主题专家至关重要。 这种规模的电子邮件会审要求人们审阅材料,并将其转交给适当的部门,这需要时间和资源。 自定义文本分类可用于分析传入的文本,对内容进行会审和分类,以便自动将其转交给相关部门以执行进一步操作。

  • 用于增强和扩充语义搜索的知识挖掘: 搜索是向用户显示文本内容的任何应用的基础。 常见方案包括目录或文档搜索、零售产品搜索或数据科学知识挖掘。 各行各业的许多企业都希望针对专用的异构内容(包括结构化和非结构化文档)构建丰富的搜索体验。 在管道中,开发人员可使用自定义文本分类将其文本划分到与其行业相关的类。 可以使用这些预测的类来丰富文件的索引,以获得更加个性化的自定义搜索体验。

选择用例时的注意事项

  • 避免对可能具有严重不利影响的决策使用自定义文本分类。 包括对可能对个人产生严重影响的决定进行人工审查。 例如,根据用户对事件的说明确定是接受还是拒绝保险索赔。

  • 避免创建不明确且不具有代表性的类。 设计架构时,请避免设计过于相似的类,以至于难以区分。 例如,如果要对电影脚本进行分类,请避免为浪漫、喜剧和 rom-com 创建类。 相反,请考虑将多标签分类模型与浪漫和喜剧类结合使用。 然后,对于浪漫喜剧电影,分配这两个类别。

  • 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并未设计为按适用服务条款和相关行为准则禁止的方式使用,也不得按这类方式使用。

后续步骤