任务 2:测试和发布匹配策略

在此任务中,你将测试和发布 “删除重复供应商 ”匹配策略。

  1. “匹配结果 ”页中,单击“ 开始” 以测试整个策略。 在这种情况下,策略中只有规则,因此测试规则和策略的结果应相同。

  2. 在列表框中查看所有匹配的记录及其匹配分数。 具有与之关联的 绿色 图标的记录是其前面数据透视记录的副本。 下面是几个示例:

    1. 记录 记录 ID: 1000005记录 ID: 1000004 相匹配,分数:100%,因为这两条记录在 供应商ID(先决条件)供应商名称联系邮箱地址列的值相同。 DQS 随机选取记录作为数据群集的枢轴记录。

    2. 记录 1000023 是记录 1000022 匹配分数的匹配项:93%,因为两条记录的 供应商 ID(先决条件)供应商名称 列具有相同的值,但 ContactEmailAddress 列的值不同。

    3. 滚动到列表底部,查看包含记录 ID 的两条记录: 10000511000052。 记录 1000052 被视为匹配分数 为 91% 的匹配项,因为两条记录的 供应商 IDContactEmailAddress 列的值相同,但 供应商名称 列的值不同。

    策略定义 - 策略结果

  3. 右键单击任何匹配的记录(带有绿色图标),然后单击“ 查看详细信息 ”以查看有关匹配的更多详细信息,例如每个字段分数对整体匹配分数的贡献。

    “匹配分数详细信息”对话框

  4. 单击“ 关闭 ”以关闭 “匹配分数详细信息 ”对话框。

  5. 单击页面底部的“ 匹配结果 ”选项卡。 此选项卡提供详细信息,例如匹配记录数、不匹配记录数、具有匹配记录的群集数、平均群集大小、最小群集大小和最大群集大小。 有关更多详细信息 ,请参阅“创建匹配策略 ”。 无法从此活动导出结果。 你正在通过使用示例数据来测试规则和策略以定义匹配策略。

    “匹配结果”选项卡

  6. 单击“ 完成 ”以完成创建匹配策略。

    注释

    你在此处定义了匹配策略;因此,无法将结果导出到输出文件。 你基本上使用了示例输入文件、创建的规则,并针对示例数据测试规则和策略,目的是定义策略。

  7. 在“SQL Server Data Quality Services”对话框中,单击“ 发布 ”,然后单击消息框上的“ 确定 ”。 现在,定义的匹配策略将发布到 供应商 知识库中。 可以使用知识库针对输入文件运行匹配过程,以识别和删除重复项。

下一步

任务 3:创建并运行用于匹配的数据质量项目