可以使用 “模糊分组转换编辑器” 对话框的 “列” 选项卡,指定用于对带有重复值的行进行分组的列。
若要详细了解模糊分组转换,请参阅 模糊分组转换。
选项
可用输入列
从此列表中选择用于对带有重复值的行进行分组的输入列。
名称
查看可用输入列的名称。
传递
选择是否在转换的输出中包含输入列。 用于分组的所有列将自动复制到输出中。 通过选中此列可以包含其他列。
输入列
选择先前在“可用输入列”列表中选中的一个输入列。
输出别名
为相应的输出列输入一个描述性名称。 默认情况下,输出列名称与输入列名称相同。
组输出别名
为包含分组重复项的规范值的列输入一个描述性名称。 此输出列的默认名称是在输入列名称后面追加 _clean。
匹配类型
选择模糊匹配或完全匹配。 在指定了模糊匹配类型的所有列中,如果某些行足够相似,则会将这些行视为重复。 如果还对某些列指定了完全匹配,则只会将在完全匹配列中包含相同值的行视为可能重复。 因此,如果知道特定列中没有错误或不存在不一致的情况,则可以对该列指定完全匹配以提高其他列模糊匹配的准确性。
最低相似性
使用滑块在联接级别设置相似性阈值。 该值越接近 1,查找值与源值的相似性必须越接近,才能视为匹配。 由于需要考虑的候选记录更少,因此增加阈值可以提高匹配的速度。
相似性输出别名
为包含所选联接相似性得分的新输出列指定名称。 如果将该值保留为空,将不会创建输出列。
数字
指定比较列数据时前导数字和尾随数字的重要性。 例如,如果前导数字重要,则“123 Main Street”将不会与“456 Main Street”分组在一起。
| 价值 | DESCRIPTION |
|---|---|
| 两者均未选中 | 前导数字和尾随数字都不重要。 |
| 领先 | 只有前导数字重要。 |
| 尾随 | 只有尾随数字重要。 |
| LeadingAndTrailing | 前导数字和尾随数字都重要。 |
比较标志
有关字符串比较选项的信息,请参阅 比较字符串数据。