你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
通过本文了解在使用自定义 NER 时可能会遇到的一些定义和术语。
实体
实体是指示特定类型信息的文本范围。 文本范围可包含一个或多个单词。 在自定义 NER 的范围内,实体表示用户希望从文本中提取的信息。 开发人员先使用所需的实体标记其数据中的实体,然后再将其传递给模型进行训练。 例如,“发票号”、“开始日期”、“发货号”、“出生地”、“源城市”、“供应商名称”或“客户端地址”。
例如,在“John 从 Fred 处借了 25,000 美元”这句话中,实体可能如下:
| 实体名称/类型 | 实体 |
|---|---|
| 借款人姓名 | John |
| 贷款人姓名 | Fred |
| 贷款金额 | 25,000 美元 |
F1 分数
当你在 精确率 和 召回率之间寻求平衡时,需要使用 F1 分数。
模型
模型是经过训练来执行特定任务的对象,在此示例中为自定义实体识别。 将通过提供要从中进行学习的带标记数据来训练模型,以便以后可以将其用于识别任务。
- 模型训练指的是指导你的模型根据带标记数据提取相关内容的过程。
- 模型评估是一种在训练后立即进行的过程,可了解模型的性能情况。
- 部署指的是将模型分配到部署以便通过预测 API 使用它的过程。
Precision
度量模型的精确度/准确度。 它是正确识别的正值(真正)与所有识别出的正值之间的比率。 精准率指标指示正确标记了多少个预测类。
Project
项目是一个工作区,用于基于你的数据构建自定义 ML 模型。 你的项目只能由你和有权访问正在使用的 Azure 资源的其他人员访问。
作为创建自定义实体提取项目的先决条件,在创建新项目时,必须将资源连接到包含数据集的存储帐户。 你的项目自动包含容器中所有可用的 .txt 文件。
下面是您可以采取的一些操作:
- 标记数据:对你的数据进行标记,以便在训练模型时模型可了解你要提取的内容。
- 构建和训练模型:项目的核心步骤,模型在此步骤中将开始从带标记数据中进行学习。
- 查看模型评估详细信息:查看模型性能,以确定是否有改进空间,或者你对结果感到满意。
- 部署:查看模型的性能并决定可以在环境中使用它后,需要将其分配给部署才能使用它。 将模型分配给部署会使其可通过预测 API 使用。
- 测试模型:部署模型后,在 Azure AI Foundry 中测试部署,以了解它在生产环境中的表现。
召回率
度量模型预测实际正类的能力。 它是预测的真正值与标记的结果之间的比率。 召回率指标显示正确的预测类的数量。