本主题介绍如何将数据质量知识库中的域/复合域附加到 Azure 市场中引用数据服务,以针对高质量引用数据生成知识。 每个引用数据服务都包含一个架构(数据列)。 将域或复合域附加到引用数据服务后,必须将附加域或附加复合域中的各个域映射到引用数据服务架构中的相应列。 将复合域附加到引用数据服务使你只需将一个域附加到引用数据服务,然后将复合域中的各个域映射到引用数据服务架构中的相应列。
警告
附加到引用数据服务的复合域在域下拉列表中可用,同时将域映射到引用数据服务架构中的列。 不要将复合域映射到引用数据服务架构中的列;只能将复合域中的各个域映射到引用数据服务架构中的相应列。 否则,将导致错误。
如果选择使用引用数据服务,则其架构可以包含一个必需列,该列必须与适当的域进行映射。 引用数据架构中的必需列在列名旁以“(M)”标识。 例如, AddressLine 是 Melissa Data - Address Data 和 CompanyName 中的必需架构列,是 Digital Trowel Inc. 中的必需架构列 - 美国公司和 SQL 用户的专业数据。
在本主题中,我们将创建四个域: 地址行、 城市、 州和 Zip,在复合域下, 地址验证将复合域附加到 Melissa Data - Address Check 引用数据服务,然后将复合域中的各个域映射到引用数据服务架构中的相应列。
在您开始之前
先决条件
您必须已将数据质量服务(DQS)配置为使用参考数据服务。 请参阅 配置 DQS 以使用引用数据。
安全
权限
必须在DQS_MAIN数据库上具有dqs_kb_editor角色,才能将域映射到引用数据。
映射域以引用 Melissa Data 中的数据
启动数据质量客户端。 有关执行此作的信息,请参阅 “运行数据质量客户端应用程序”。
在“数据质量客户端主屏幕”的 “知识库管理”下,单击“ 新建知识库”。
在 “新建知识库 ”屏幕中,键入新知识库的名称,单击 “域管理 ”活动,然后单击“ 创建”。
在 “域管理 ”屏幕中,单击“ 创建域 ”图标以创建域。 创建以下四个域: 地址行、 城市、 州和 Zip。
单击“ 创建复合域 ”图标以创建复合域。 在“创建复合域”对话框中,在“复合域名”框中键入地址验证,并在复合域中包括步骤 3 中创建的所有域。 单击 “确定” 。
在左侧的“ 域 ”窗格中,单击“ 地址验证”选择复合域,然后单击右侧的“ 引用数据 ”选项卡。
单击 “浏览” 图标。
在 “联机参考数据提供程序目录” 对话框中:
在 DataMarket Data Quality Services 下,选中 “Melissa Data - 地址检查选项” 。
将 Melissa Data - 地址检查引用数据服务的列与相应的域(地址行、城市、州和邮政编码)进行映射。 通过在 RDS 架构 列中选择引用数据服务列,然后在 “域 ”列中选择相应的域来映射列。 若要在表中添加更多行,请单击“ 添加架构条目 ”图标。
单击“ 确定 ”保存更改,然后关闭“ 联机引用数据提供程序目录 ”对话框。
注释
- 在“ 联机引用数据提供程序目录 ”对话框中, DataMarket Data Quality Services 节点显示已在 Azure 市场中订阅的所有引用数据服务提供程序。 如果在 DQS 中配置了直接联机第三方引用数据服务提供商,它们将显示在名为 第三方直接联机联机提供程序 的另一个节点下(目前不可用,因为 DQS 中未配置直接联机第三方引用数据服务提供商)。
将返回到“ 引用数据 ”选项卡。在 “提供程序设置” 区域中,根据需要更改以下框中的值:
自动更正阈值:来自参考数据服务的更正,当其置信度高于此阈值时,将自动完成。 在相应百分比值的十进制表示法中输入一个值。 例如,输入 0.9 以表示 90%。
建议候选人:要从参考数据服务显示的建议候选人数。
最小置信度:将忽略低于此值的引用数据服务的建议。 在相应百分比值的十进制表示法中输入一个值。 例如,输入 0.6 来表示 60%。
单击“ 完成 ”以发布知识库。 成功发布知识库后会显示一条确认消息。
现在,可以使用此知识库清理数据质量项目中的活动,根据 Melissa Data 通过 Azure 市场提供的知识标准化和清理源数据中的美国地址。
后续步骤:将域映射到引用数据后
创建数据质量项目,并通过将其与本主题中创建的知识库进行比较,对包含美国地址的源数据运行清理活动。 请参阅 使用引用数据(外部)知识清理数据。