任务 1:定义匹配策略

在此任务中,你将创建一个匹配策略,其中包含一个规则。 该规则将具有一个先决条件:供应商 ID,这意味着在使用该规则中的其他域之前, 供应商 ID 必须匹配。 该规则使用另外两个领域:设置相似值为70%供应商名称和设置相似值为30%联系人电子邮件

  1. DQS 客户端的主页中,单击供应商知识库旁边的右箭头,然后选择“匹配策略”。

    主页上的“匹配策略菜单”

  2. 映射页面上,选择Excel 文件作为数据源

  3. 单击“ 浏览”,确保筛选器设置为 Excel 工作簿,然后选择执行清理活动后导出 的“已清理供应商”List.xls 文件。

    注释

    在此活动结束时,无法导出结果,因为此活动主要侧重于定义匹配策略。 你将为匹配活动创建一个数据质量项目,并运行它,以便在下一课中使用此匹配策略从供应商列表中删除重复项。

  4. SupplierID 列映射到 供应商 ID 域,将 “供应商名称 ”列映射到 “供应商名称 ”域, 将 ContactEmailAddress 列映射到 “联系人电子邮件 ”域。 只需将源列映射到要在定义匹配策略时使用的域。 在这种情况下,你正在使供应商 ID、供应商名称和联系人电子邮件域可用于匹配策略活动。

    匹配策略定义流程的映射页

  5. 单击“ 下一步 ”移动到 “匹配策略 ”页,你将在其中定义包含一条规则的匹配策略。

  6. 单击工具栏上的“ 创建匹配规则 ”按钮,在策略中创建规则。

    创建匹配规则工具栏按钮

  7. 在右侧 的“规则详细信息 ”窗格中,输入“ 删除重复供应商 ”以获取 规则名称

  8. 单击右窗格中工具栏中的 “添加新域”元素

    规则详细信息 - 添加新域元素按钮

  9. 选择供应商 ID,然后选择“先决条件”复选框。 请注意, 相似性 自动设置为 “精确”。 通过将 供应商 ID 设置为 “先决条件”,可以指定两条记录中此字段的值必须返回 100% 匹配项,否则不会将记录视为匹配项,并且规则中的其他子句将被忽略。

    删除重复的供应商规则定义

  10. 再次单击工具栏中的 “添加新域元素 ”。

  11. 选择供应商名称域,为相似性选择相似,然后为权重键入70。 在这里,你指定供应商名称不需要完全相同,对于被视为匹配的记录来说,只需相似即可。 权重指示此字段分数对整体匹配分数的贡献。

  12. 重复前面两个步骤,为联系人电子邮件域添加权重30

  13. 请注意,最小匹配分数设置为 80%,这是在 DQS 管理“配置”页的“常规”选项卡中看到的值。 此处只能将此分数提高到此阈值以上。

  14. 请注意,已选择 “重叠群集 ”选项。 使用此选项,记录可以显示在多个群集中。 如果将设置更改为“非重叠群集”,则具有常见记录的群集将合并为一个群集。

  15. 此页上的 “开始 ”按钮允许单独测试策略中的每个规则,而下一页中的“开始”按钮允许测试整个策略(策略中的所有规则)。

  16. 单击“ 下一步 ”切换到 “匹配结果 ”页。

下一步

任务 2:测试和发布匹配策略