创建基于字词的关系

本主题介绍如何在 Data Quality Services(DQS)中为域创建基于术语的关系。 使用基于术语的关系(TBR)可以对属于域中值的一部分的术语进行更正。 它能够将多个值视为相同的同义词,除了常见部分的拼写不同之外。 例如,可以设置一个基于术语的关系,将术语“Inc.”更改为“Incorporated”。 “Inc.”一词将在每次出现在域名中时被更改。 “Contoso, Inc.”的实例将更改为“Contoso, Incorporated”,这两个值将被视为确切的同义词。

若要使用基于术语的关系,请生成值/更正对列表,例如“Inc.”和“Incorporated”或“高级”和“Sr.”。 使用基于术语的关系可以在整个域中更改术语,而无需手动将单个域值设置为同义词。 即使知识发现以前未发现该值,您也可以指定更正该值。 如果基于字词的关系转换导致两个值相同,则 DQS 将在它们之间(在知识发现中)、它们之间的更正关系(在数据更正中)或完全匹配(匹配)之间创建同义词关系。

基于术语的关系转换和符号转换(其中特殊字符由空格或 null 替换)在分析之前在预处理阶段完成。 如果请求复合域分析,它将在两个转换之前执行,因为分隔符分析需要符号。 其他作(如域规则和域值更改)将在转换后执行。 对于匹配,无论是否运行清理,在匹配操作之前,都会对源数据应用基于术语的关联。

Term-Based 关系和域管理

在域管理中应用基于术语的关系时,DQS 将应用知识发现、清理或匹配过程中的更改;但是,DQS 不会更改域值本身,以符合基于术语的关系。 换句话说,如果在“域管理”页的“Term-Based 关系”选项卡中输入并接受基于术语的关系,将不会在同一页的“域值”选项卡中进行更改。 这使你能够随后更改 TBR。

Term-Based 关系和数据清理

当在域中应用术语为基础的关系并运行数据清洗过程时,DQS在清洗期间应用更改,但不会将这些更改应用到知识库中的术语。

  • 如果基于术语的关系更改的值位于域中,但不是同义词,则会在“管理和查看结果”页的“更正”选项卡下的列中显示,原因设置为基于术语的关系。

  • 如果基于术语关系更改的值不在域内,并且 DQS 找到了匹配值,则该值将被更正为找到的匹配值,并根据置信度显示在“更正”选项卡或“建议”选项卡中。 如果未找到匹配项,该值将显示在“新建”下,并显示 TBR 更正。 这样做是因为即使更正了 TBR,也不表示值正确。

  • 如果一个值因术语关系的改变位于域中,并且该值是Error/Invalid且已有更正,那么该值和更正原因“域值”将出现在“更正”选项卡下。

  • 如果一个通过术语关系更改后的值在域中,但该值为错误或无效且未进行更正,则该值将显示在“无效”选项卡下,原因是域值。

Term-Based 关系和知识发现

应用基于术语的关系,然后运行知识发现过程时,符合 TBR 的任何值将保持不变,并将标识为正确的值。 TBR 更改的任何值都将被作为正确值导入,并被视为符合 TBR 的值的同义词。

Term-Based 关系与导入清理值到域

如果将在清理过程中收集的数据质量知识导入到域中,则被 TBR 更改的值将作为正确值导入。

在您开始之前

先决条件

若要创建基于术语的关系,必须在域管理活动中打开域。

安全

权限

您必须在 DQS_MAIN 数据库上具有 dqs_kb_editor 或 dqs_administrator 角色才能创建基于术语的关系。

创建基于字词的关系

  1. 启动数据质量客户端。 有关执行此作的信息,请参阅 “运行数据质量客户端应用程序”。

  2. 在数据质量客户端主屏幕中,打开或创建知识库。 选择 “域管理 ”作为活动,然后单击“ 打开 ”或“ 创建”。 有关详细信息,请参阅 “创建知识库 ”或 “打开知识库”。

    注释

    域管理在 Data Quality Service 客户端的页面中执行,其中包含五个选项卡用于单独的域管理作。 它不是向导驱动的过程;任何管理作业可以单独执行。

  3. 从“ 管理”页上的“ 域” 列表中,选择要为其创建域规则的域,或创建新域。 如果必须创建新域,请参阅 “创建域”。

  4. 单击 “Term-Based 关系 ”选项卡。

  5. 创建基于术语的关系,如下所示:

    1. 单击“ 添加新关系 ”,将行添加到“关系”表。

    2. 在所添加行的 “值” 列中,输入一个术语,以便每次它出现在所选领域的值中时进行更改。

      注释

      如果术语作为域中的整个值存在,或者该术语已作为域中的更正值存在,则会出现错误。

    3. 在“更改为”列中,输入要将“”列中的术语更改为的术语。

    4. 再次单击“ 添加新关系 ”以添加另一个基于术语的关系。

    5. 单击“ 删除所选关系 ”可从“关系”表中删除一行或多行。 可以通过按 Ctrl 按钮并单击未选择的行来选择多个行。

    6. 通过在 “查找 ”文本框中输入一个或多个数字,在“关系”表中查找值。 字符串中的匹配项将被高亮显示。 使用向上和向下箭头移动到表中字符串的不同实例。

    7. 拼写检查器:如果值或“更正为”列中的值具有波浪红色下划线,则拼写检查器会建议对值进行更正。 右键单击带有下划线的值,然后选择拼写检查器建议的值之一。 或者,可以在快捷菜单中单击“ 添加 ”,继续执行原始值。 有关详细信息,请参阅使用 DQS 拼写检查器和设置域属性

      注释

      若要使用拼写检查器,可以在“域属性”页中启用它。如果它在“域属性”页中被禁用,您可以在“Term-Based 关系”页上单击“启用/禁用拼写检查器”图标以在此页启用它。

  6. 单击“ 应用更改 ”,将基于术语的关系应用于域。

  7. 单击“ 完成 ”以完成域管理活动,如 “结束域管理活动”中所述。

后续处理:创建 Term-Based 关系后

创建基于术语的关系后,可以对域执行其他域管理任务,执行知识发现以将知识添加到域,也可以向域添加匹配策略。 有关详细信息,请参阅 “执行知识发现”、“ 管理域”或 “创建匹配策略”。