在本课中,你将使用你在第一课中创建的 供应商 知识库清理 Excel 文件中的供应商数据。 DQS 中的数据清理包括一个 计算机辅助过程 ,用于分析数据如何符合知识库中的知识,以及一个 交互式过程 ,使你能够查看和修改计算机辅助进程的结果。 数据清理功能标识数据源中不正确的数据,然后更正或建议对不正确的数据进行更正。 它还使用域值、同义词的前导值、域规则、基于术语的关系和引用数据来标准化和丰富客户数据。 你可以以交互方式批准或拒绝计算机辅助过程提出的更改。 有关更多详细信息,请参阅 数据清理 。
计算机辅助进程使用以下阈值,可以使用 DQS 客户端主页上的“配置”选项进行配置。
建议的最小分数: DQS 用于建议替换值的最小分数或置信度。
自动更正的最小分数: DQS 用于自动更正值的最小分数或置信度。
有关如何配置这些设置的详细信息,请参阅 “为清理和匹配配置阈值 ”。
在本课中,你将执行以下任务,以使用供应商知识库清理输入数据。
创建用于清理的数据质量项目,选择“供应商”知识库作为知识库,以分析和清理 Excel 文件中的源数据,然后选择“清理”活动。
将要清理的 Excel 列映射到知识库中的相应 DQS 域/复合域。
执行计算机辅助清理活动。 计算机辅助进程在数据质量客户端中显示数据质量信息,可用于以交互方式清理数据。
查看和管理清理活动的结果。 可以查看计算机辅助进程发现的值:正确、不正确但已纠正、不正确但建议更改或无效。 可以使用“更正为”字段以交互方式批准或拒绝更改,从而纠正或替代计算机辅助程序中的建议。
将清理过程的结果导出到 Excel 文件。
将清理项目中的值导入域,以使用新的规则、值、更正等增强知识库中的知识...