清理复合域中的数据

本主题提供有关在 Data Quality Services (DQS) 中清理复合域的信息。 复合域由两个或更多个单一域组成,映射到包含多个相关术语的数据字段。 复合域中的各个域必须具有一个共同的知识领域。 有关复合域的详细信息,请参阅 管理复合域

将复合域映射到源数据

可通过两种方式将源数据映射到复合域:

  • 源数据是一个字段(假设全名),它映射到复合域。

    • 如果复合域映射到引用数据服务,则源数据将按原样发送到引用数据服务以更正和分析。

    • 如果未将复合域映射到引用数据服务,将根据为复合域定义的分析方法进行分析。 有关为复合域指定分析方法的详细信息,请参阅“创建复合域

  • 源数据由多个字段(假设名字、中间名称和姓氏)组成,这些字段映射到复合域中的各个域。

有关如何将复合域映射到源数据的示例,请参阅 “将域或复合域附加到引用数据”。

使用明确的跨域规则进行数据更正

使用复合域中的跨域规则可以创建指示复合域中各个域之间的关系的规则。 在涉及复合域的源数据上运行清理活动时,将考虑跨域规则。 除了仅仅让你了解跨域规则的有效性外,最终的Then跨域规则值等于还会在数据清理活动中更正数据。

请考虑以下示例:有一个复合域,Product,其中包含三个单个域:ProductName、CompanyName 和 ProductVersion。 创建以下明确的跨域规则:

如果域“CompanyName”的值包含Microsoft,并且域“ProductName”的值等于Office,且“ProductVersion”的值等于2010,那么域“ProductName”的值等于Microsoft Office 2010

当此跨域规则运行时,源数据(ProductName)会在清理活动后更正为以下内容:

源数据

ProductName 公司名称 产品版本
办公室 Microsoft公司 2010

输出数据

ProductName 公司名称 产品版本
Microsoft Office 2010 Microsoft公司 2010

测试最终的域规则值等于时,测试复合域规则对话框包含一个新列更正为,其中显示了正确的数据。 在清理数据质量项目中,此明确的跨域规则会更改具有 100% 置信度的数据,原因列将显示以下消息:由规则“跨域规则名称>”<更正。 有关跨域规则的详细信息,请参阅 “创建跨域规则”。

注释

明确的跨域规则不适用于附加到引用数据服务的复合域。

复合域的数据分析

DQS 分析提供两个数据质量维度: 完整性 (数据存在的程度)和 准确性 (数据可用于其预期用途的程度)在清理活动期间。 分析可能无法为复合域提供可靠的完整性统计信息。 如果需要完整性统计信息,请使用单个域而不是复合域。 如果要使用复合域,可能需要创建一个知识库,其中包含用于分析的单个域,以确定完整性,并使用复合域创建另一个域进行清理活动。 例如,分析可能会显示使用复合域的地址记录的 95 个% 完整性,但其中一列的不完整程度可能更高,例如邮政(zip)代码列。 在此示例中,你可能想要使用单个域测量邮政编码列的完整性。

分析可能会为复合域提供可靠的准确性统计信息,因为可以同时测量多个列的准确性。 此数据的值位于复合聚合中,因此可能需要使用复合域来测量准确性。

有关清理活动期间数据分析的详细信息,请参阅分析器统计信息使用 DQS(内部)知识清理数据