你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
本文提供有关自定义命名实体识别(NER)如何处理数据的一些高级详细信息。 你负责你如何使用和实施这项技术,包括遵守适用于你的所有法律和法规。 例如,你有责任:
了解自定义 NER 服务处理和存储数据的位置,以满足应用程序的法规义务。
请确保你对数据集中用作构建自定义 NER 模型的基础和用于在生产环境中部署或使用自定义 NER 时评估的内容,拥有所有必要的许可证、专有权利或其他权限。
自定义 NER 处理哪些数据?
自定义 NER 处理以下数据:
用户的数据集和标记文件: 作为创建自定义 NER 项目的先决条件,用户需要将其数据集上传到其 Azure Blob 存储容器。 标记文件是一个 JSON 格式的文件,其中包含对用户的标记实体的引用。 用户的数据集包括训练集和测试集,开发人员可以在标记文件中预定义这些集,也可以在训练期间随机选择这些集。 训练集和标记文件在训练期间进行处理,以创建自定义 NER 模型。 测试集稍后由训练的模型进行处理,以评估其性能。
自定义 NER 模型: 根据用户训练模型的请求,自定义 NER 处理提供的标记数据以输出已训练的模型。 用户可以选择训练新模型或覆盖现有模型。 然后,训练的模型存储在服务端,用于处理模型评估。 开发人员对模型性能感到满意后,请求将模型部署以供使用。 部署的模型也将存储在服务端,用于处理用户通过分析 API 进行预测的请求。
发送用于提取的数据: 这是用户的文本,通过 Analyze API 从客户端应用程序发送,供自定义 NER 模型进行实体提取处理。 已处理数据的输出包含提取的实体及其置信度分数。 这会返回到客户端的应用程序,以执行操作来响应用户请求。
上传用于训练、测试或提取的用户数据是客户数据。 自定义 NER 不使用客户数据来改进其常规机器学习模型,以实现产品改进目的。 我们使用聚合遥测数据,例如使用哪些 API 以及来自每个订阅和资源进行服务监视的调用次数。
自定义 NER 如何处理数据?
下图演示了数据的处理方式。
如何保留数据,以及哪些客户控件可用?
就 GDPR 目的而言,自定义 NER 是数据处理器。 根据 GDPR 策略,自定义 NER 用户可以完全控制查看、导出或删除任何客户数据。 用户可以通过 Language Studio 或通过语言 API 以编程方式执行这些作。
数据仅存储在 Azure 存储帐户中。 自定义 NER 仅在训练和评估期间有权从中读取数据。 自定义 NER 不会记录或存储客户发送的任何数据,以便通过预测 API 提取任务。
客户控制包括:
用户提供的标记数据作为定型模型的先决条件,保存在在创建过程中连接到项目的客户的 Azure 存储帐户中。 客户可以随时通过语言工作室编辑或删除标记。
自定义 NER 项目元数据存储在服务端,直到客户删除该项目。 创建项目时,可以填写元数据字段,例如项目名称、说明、语言、连接的 Blob 容器的名称和标记文件位置。
经过训练的自定义 NER 模型存储在服务的 Azure 存储帐户中,直到客户将其删除。 每次用户重新训练模型时,都会覆盖模型。
部署的自定义 NER 模型将保留在服务的 Azure 存储帐户中,直到客户删除部署或删除模型本身。 每次用户部署到相同的部署名称时,都会覆盖模型。
客户数据的安全性
Azure 服务在维护适当的技术和组织措施以保护云中的客户数据的同时实现。
若要了解Microsoft的安全承诺,请参阅 Microsoft信任中心。