设置域属性

本主题介绍如何在 Data Quality Services (DQS) 中设置域属性。

在您开始之前

先决条件

若要设置域的属性,必须已创建知识库和域。

安全

权限

必须在DQS_MAIN数据库上具有dqs_kb_editor或dqs_administrator角色才能设置域的属性。

设置域属性

  1. 通过在域管理活动中打开知识库来设置现有域的属性(请参阅 “打开知识库”),然后在 “域 ”列表中选择相应的域。 默认情况下,将显示“域属性”页。

  2. 根据 “创建域”中所述,在创建新域后设置属性。

  3. 单击“ 完成 ”以完成域管理活动,如 “结束域管理活动”中所述。

接下来的步骤:设置域属性后

设置域属性后,可以对域执行其他域管理任务,执行知识发现以将知识添加到域,也可以向域添加匹配策略。 有关详细信息,请参阅 “执行知识发现”、“ 管理域”或 “创建匹配策略”。

域属性

域名和说明

创建域后,可以更改域名或说明。 域名对于知识库必须是唯一的。 说明最多可以有 256 个字符。

数据类型

创建域时,请为域中的值选择以下数据类型之一: 字符串 (默认值)、 日期整数十进制。 创建域后,可以查看数据类型,但无法更改它。 为域选择的数据类型定义可以映射到域的源数据类型。 有关 DQS 中四种域数据类型中每个支持的数据类型的信息,请参阅 DQS 域支持的 SQL Server 和 SSIS 数据类型

使用前导值

选中此复选框可指定一组同义词中的前导值将输出,而不是作为同义词的值。 取消勾选 “使用前导值” 以便每个同义词值以其正确或修正过的形式输出,而不会被替换为其组的前导值。

规范化字符串

如果数据类型为 String,请单击以忽略源数据中的特殊字符,从而通过 DQS 进行数据质量处理。 当数据加载到域中时,DQS 在内部将特殊字符替换为 null 或空格。 冒号、连字符、句点、双引号或分号被空格替换。 单个引号将替换为空值。 使用 null 将字符串的两个部分组合在一起。

忽略字符串值中的特殊字符可以提高匹配准确性。 通过将特殊字符替换为 null 或空格,可以增加两个字符串之间的相似性分数。 标点符号或其他符号在不同字符串中很容易不同。 在内部替换特殊字符可以使分数超过 DQS 中的最小匹配阈值,导致两个字符串被视为匹配项(否则不会如此)。 但是,是否选择忽略特殊字符可能取决于要对其执行匹配的数据的类型。 例如,在使用英制单位系统处理数据时,忽视产品数据中的双引号和单引号可能会导致误报,尤其是在双引号代表一英寸而单引号代表一英尺的情况下。

在发现、匹配策略、匹配项目和清理项目活动的数据处理阶段加载和索引数据时,将执行规范化。 如果启用,则规范化和基于术语的关系转换在分析之前在预处理阶段完成。 在应用计算字符串之间的相似性的任何算法之前,它们都会在每个域中执行。 如果请求复合域分析,它将在规范化和基于术语的关系转换之前执行,因为分隔符分析需要符号。 其他作(如域规则和域值更改)将在转换后执行。 DQS 中特殊字符的内部替换不会更改生成的数据。

将输出格式设置为

选择将应用于域中数据值输出时的格式。 格式特定于所选数据类型,如以下列表所示。 选择 “无” 表示列表中不会应用任何格式。

  • 对于字符串值,可以指定将字符串输出为大写、小写或大写。

  • 对于日期值,可以指定日、月和年的格式。

  • 对于整数值,可以指定要应用的格式掩码的类型。

  • 对于十进制值,可以指定要应用的格式掩码的准确性和类型。

语言

如果数据类型为 String,请选择要将域与拼写检查器作相关联的语言。 此选择仅适用于拼写检查器,因为拼写检查器结果取决于所使用的语言。 选择仅适用于数据类型为字符串的单个域。 语言属性与复合域无关。 复合域的每个部分的语言由相关的单一域确定。

英语是默认语言。 将 Language 属性设置为 “其他 ”会禁用域的拼写检查器。

小窍门

如果语言未在 “语言 ”下拉列表中列出,则必须选择 “其他”。 这可确保 DQS 根据域中的可用知识(域规则、域值、TBR、匹配规则)清理和消除未列出的语言数据的重复项。

启用拼写检查器

如果数据类型为 String,请单击以启用域的 DQS 拼写检查器。 拼写检查器仅适用于数据类型为字符串的域。 “ 启用拼写检查器 ”复选框仅对与复选框关联的单个域启用拼写检查器。 该复选框不适用于复合域。

拼写检查器建议对域中的值进行语法和验证更正。 有关详细信息,请参阅 使用 DQS 拼写检查器

禁用语法错误算法

如果数据类型为 String,请选择不让 DQS 在清理期间标识域中的语法错误。 标识该域的语法错误时,请选中此复选框。 例如,标识语法错误对于序列号可能无关紧要。 此控件仅适用于字符串数据类型。 DQS 不会检查非字符串数据类型是否存在语法错误。