你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义命名实体识别的常见问题解答

查找与 Azure AI 语言中的自定义 NER 相关的概念和场景的常见问题解答。

如何开始使用该服务?

有关详细信息,请参阅快速入门如何创建项目

有哪些服务限制?

有关详细信息,请参阅服务限制

需要多少个标记文件?

通常,如果标记是以精确、一致且完整的状态完成的,则不同且具有代表性的标记数据可带来更好的结果。 要使模型表现良好,没有固定数量的标记实例。 性能高度依赖于架构,以及架构的不确定性。 不明确的实体类型需要更多的标记。 性能还取决于标记的质量。 建议每个实体的标记实例数为 50。

训练模型需要多长时间?

训练过程可能需要很长时间。 大致估计,对于合并长度为 12800000 个字符的文件,预期的训练时间为 6 小时。

如何以编程方式构建自定义模型?

注意

目前只能使用 REST API 或 Language Studio 来构建模型。

可以使用 REST API 构建自定义模型。 按照此快速入门开始创建项目并通过 API 创建模型,该快速入门提供了有关如何调用创作 API 的示例。

准备好开始使用模型进行预测时,可以使用 REST API 或客户端库。

下面是在 Azure AI Foundry 中可以执行的操作列表:

  • 在单个项目中的同一数据集上训练多个模型。
  • 查看模型的性能。
  • 部署和测试模型,并从数据中添加或删除标签。
  • 选择数据集拆分为训练集和测试集的方式。

数据可以随机拆分为训练集和测试集,但这意味着模型评估可能不基于相同的测试集,从而使结果不可比拟。 我们建议你开发自己的测试集,并使用它来评估这两个模型以准确度量改进。

请务必查看服务限制,以了解每个项目允许的最大训练模型数。

模型分数低(或高)是否一定意味着生产环境中的性能不佳(或良好)?

模型评估可能并不总是全面的。 范围取决于以下因素:

  • 测试集的大小。 如果测试集太小,则好/差分数不代表模型的实际性能。 此外,如果测试集中缺少或未表示特定实体类型,则会影响模型性能。
  • 数据的多样性。 如果您的数据仅包含有限数量的场景或生产中预期文本的示例,则您的模型可能不会遇到所有可能的情况。 因此,当遇到不熟悉的方案时,模型的性能可能会很差。
  • 数据中的表示形式。 如果用于训练模型的数据集不代表将引入到生产中的模型的数据,模型性能将受到很大影响。

有关详细信息, 请参阅数据选择和架构设计

如何提高模型性能?

  • 查看模型混淆矩阵。 如果你注意到某一实体类型经常无法被正确预测,请考虑为此类添加更多标记实例。

当两种不同的实体类型经常被预测为彼此时,它表示架构缺乏明确性。 为了提高性能,应考虑将这两种实体类型合并为单个统一类型。 如果在预测期间两个实体类型一直被误认为对方,则此结果表明架构中存在歧义。 将它们合并到一个实体类型有助于提高整体模型准确性。

  • 查看测试集预测。 如果其中一个实体类型具有的标记实例远远多于其他类型,则模型可能会偏向于这种类型。 将更多数据添加到其他实体类型或从占主导地位的类型中删除示例。

  • 详细了解数据选择和架构设计

  • 查看测试集。 查看与标记实体一起预测的实体,并更清楚地了解模型的准确性。 此比较有助于确定是否需要调整架构或标记集。

在重新训练模型时,为什么会获得不同的结果?

  • 训练模型时,可以确定是否希望数据随机拆分为训练集和测试集。 如果选择继续,则不能保证对同一测试集执行模型评估,这意味着结果可能不能直接比较。 通过这样做,你可能会评估不同测试集上的模型,从而使无法可靠地比较结果。

  • 如果要重新训练同一模型,则测试集是相同的,但你可能会注意到模型做出的预测略有变化。 出现此问题的原因是已训练的模型缺乏足够的可靠性。 此结果取决于数据表示不同方案的方式、数据点的不同程度以及数据标记的整体质量。 几个因素会影响模型的性能。 模型的可靠性、数据集的独特性和多样性,以及分配给数据的标记的精度和统一性都起着重要作用。 若要获得最佳结果,必须确保数据集不仅准确表示目标域,而且还提供唯一的示例,并且所有标记都在整个数据中都应用了一致性和准确性。

如何获得不同语言的预测?

首先,需要在创建项目时启用多语言选项,也可稍后从项目设置页启用它。 在训练和部署模型之后,便能够开始以多种语言查询它。 可能会获得不同语言的不同结果。 若要提高任何语言的准确度,请以该语言将更多标记实例添加到项目,以将经过训练的模型引入到该语言的更多语法。

我训练了模型,但无法测试它

需要部署模型,然后才能测试它。

如何使用经训练的模型进行预测?

部署模型后,可以使用 REST API客户端库调用预测 API

数据隐私和安全性

你的数据仅存储在你的 Azure 存储帐户中。 自定义 NER 仅在训练期间有权从其中进行读取。 自定义 NER 用户完全控制通过 Azure AI Foundry 查看、导出或删除任何用户内容,或使用 REST API 以编程方式查看、导出或删除任何用户内容。 有关详细信息, 请参阅Azure AI 语言的数据、隐私和安全性

如何克隆我的项目?

若要克隆项目,需要使用导出 API 导出项目资产,然后将其导入到新项目中。 请参阅 REST API 参考以获取这两项操作的参考信息。

后续步骤