第 3 课:匹配数据以从供应商列表中删除重复项

通过在知识库中创建匹配策略,为执行匹配活动准备知识库。 知识库中只能有一个匹配策略。 匹配策略由一个或多个匹配规则组成。 规则标识匹配过程中涉及的域,并指定每个域值在匹配判断中承载的权重。 在规则中指定域值是完全匹配还是可能相似,以及相似程度。 还可以指定域匹配是否是匹配过程的先决条件。 可以单独测试每个规则,并针对示例数据测试整个策略。 测试过程显示其匹配分数大于群集 (组) 中 DQS 配置中指定的 最小记录分数 阈值的记录。 可以继续调整策略中的规则,直到满足。

定义策略后,将创建一个数据质量项目来运行匹配活动。 匹配项目将匹配策略中的匹配规则应用于要评估的数据源。 此过程评估任何两行匹配的可能性。 当 DQS 执行匹配分析时,它会创建 DQS 认为匹配的记录群集。 DQS 将其中一条记录随机标识为枢轴记录。 可以验证并拒绝任何与群集不匹配的记录。 有关更多详细信息 ,请参阅“创建匹配策略 ”主题。

在本课中,你将执行匹配活动以从供应商列表中删除重复项。 首先,创建一个匹配策略,其中包含一个规则来标识供应商列表中的重复项,并将策略发布到知识库。 接下来,创建并运行数据质量项目进行匹配。 最后,将结果从匹配活动导出到 Excel 文件,稍后在将数据上传到 Master Data Services (MDS) 时使用。

下一步

任务 1:定义匹配策略