导出基于完全数据匹配的敏感信息类型的源数据

适用对象

敏感数据表是一个文本文件,其中包含值行,根据这些行比较文档中的内容以标识敏感数据。 这些值可能是想要在内容中检测和保护的文本形式的个人身份信息、产品记录或其他敏感数据。

以) 支持的格式之一 (导出表中的数据后,可以创建 EDM 架构。

定义 EDM 敏感类型

定义 EDM 敏感类型时,最关键的决策之一是定义哪些字段是主字段。 主字段需要遵循可检测模式,并将其定义为 EDM 架构中 (列) 的可搜索字段。 辅助字段不需要遵循任何模式,因为它们将与主要字段匹配的所有文本进行比较。

使用这些规则可帮助你确定应将哪些列用作主字段:

  • 如果必须基于是否存在与敏感数据表中字段匹配的单个值来检测敏感数据,则不管它周围是否存在任何其他敏感数据,都必须将该列定义为 EDM SIT 的主要元素。
  • 如果必须在内容中检测到敏感数据表中不同字段的多个组合,请确定大多数此类组合所共有的列,并将其指定为主元素。 将其他字段的组合指定为辅助元素。
  • 如果要用作主要元素的列不遵循可检测的模式,例如 any text string 或遵循大部分文档或电子邮件中某个位置存在的可检测模式,请选择其他结构更好的列作为主要元素。

例如,如果有列 full namedate of birthaccount number、 和 Social Security Number,即使名字和姓氏是要检测的不同数据组合所共有的列,则此类字符串不会遵循易于识别且可能难以定义为敏感信息类型的模式。 这有多种原因:

  • 某些名称可能不会以大写字符开头
  • 有些可能由两个、三个或更多个单词/字符串组成
  • 有些可能包含数字或其他非字母字符。 可以更轻松地确定出生日期,但由于每封电子邮件和大多数文档都会包含至少一个 DateOfBirth 日期,因此字段也不是一个很好的候选项。 请改用社会保险号码和帐号等字段,这些字段非常适合用于主要字段。

示例文件模板

为了更轻松地选择主字段,我们汇总了一些示例文件模板,用于:

这些是逗号分隔值 (.csv) 文件,这些文件中的垂直行业最常用的值作为列标题,以及行中Microsoft生成的合成值。 使用列标题来帮助你确定主字段。 最佳做法是仅导出所需的源数据。 列标题建议最相关的字段。

若要了解如何使用示例文件模板,请参阅 如何使用示例文件模板

.csv.tsv管道分隔 格式保存敏感数据

  1. 确定要使用的敏感信息。 将数据导出到 Microsoft Excel 等应用,并将该文件另存为文本文件。 该文件可以采用以下任一格式保存: .csv (逗号分隔值) 、 .tsv (制表符分隔值) 或 (|) (管道分隔) 格式。 如果数据值可能包含逗号,例如街道地址,则建议使用 .tsv 格式。 数据文件最多可包括以下内容:

    • 高达 1 亿行的敏感数据
    • 每个数据源最多 32 列(字段)
    • 最多 10 列 (字段) 标记为可搜索
  2. 构造 .csv 或 .tsv 文件中的敏感数据,以便第一行包含用于基于 EDM 的分类的字段的名称。 在文件中,你可能具有字段名称,例如“ssn”、“birthdate”、“firstname”、“lastname”。 列标题名称不能包含空格或下划线。 例如,本文中使用的示例 .csv 文件名为PatientRecords.csv,其中包含PatientIDMRNLastNameFirstNameSSN 等列。

  3. 注意敏感数据字段的格式;具体而言,其内容中可能包含逗号的字段。 例如,.csv 如果选中了“西雅图, WA”值,则包含值“Seattle, WA”的街道地址将被分析为两个单独的字段。 若要避免这种情况,请使用 .tsv 格式或用包含敏感数据表中双引号的值的逗号括起来。 如果包含值的逗号还包含空格,则需要创建与相应格式匹配的自定义 SIT。 例如,一个 SIT,它检测包含逗号和空格的多字字符串。

后续步骤

另请参阅