创建交叉验证报告

本主题介绍如何使用数据挖掘设计器中的“准确性图表”选项卡创建交叉验证报表。 有关交叉验证报表的外观及其包含的统计度量值的一般信息,请参阅交叉验证(Analysis Services - 数据挖掘)。

交叉验证报表与精确度图表有所不同,例如提升图或分类矩阵。

  • 交叉验证评估模型或结构中使用的数据的总体分布;因此,不指定测试数据集。 交叉验证始终仅使用用于训练模型或挖掘结构的原始数据。

  • 交叉验证只能针对单个可预测结果执行。 如果结构支持具有不同可预测属性的模型,则必须为每个可预测输出创建单独的报表。

  • 只有与当前所选结构相关的模型可用于交叉验证。

  • 如果当前选择的结构支持聚类分析和非聚类分析模型的组合,则单击“ 获取结果”时,交叉验证存储过程将自动加载具有相同预测列的模型,并忽略不共享相同可预测属性的聚类分析模型。

  • 仅当挖掘结构不支持任何其他可预测属性时,才能针对没有可预测属性的聚类分析模型创建交叉验证报告。

选择挖掘结构

  1. 在 SQL Server Data Tools(SSDT)中打开数据挖掘设计器。

  2. 在解决方案资源管理器中,打开包含要为其创建报表的结构或模型的数据库。

  3. 双击挖掘结构以在数据挖掘设计器中打开结构及其相关模型。

  4. 单击“ 挖掘准确性图表 ”选项卡。

  5. 单击“ 交叉验证 ”选项卡。

设置交叉验证选项

  1. “交叉验证 ”选项卡上的 “折叠计数”中,单击向下箭头以选择介于 1 和 10 之间的数字。 默认值为 10。

    分割次数表示将在原始数据集中创建的分区数。 如果将折叠计数设置为 1,则训练集将不使用分区。

  2. 对于 目标属性,请单击向下箭头,然后从列表中选择一列。 如果模型是聚类分析模型,请选择 #Cluster 以指示模型没有可预测属性。 请注意,仅当挖掘结构不支持其他类型的可预测属性时,值 #Cluster 才可用。

    每个报表只能选择一个可预测属性。 默认情况下,报表中包含具有相同可预测属性的所有相关模型。

  3. 对于 Max Cases,键入一个足够大的数字,以便在指定折叠数之间拆分数据时提供具有代表性的数据样本。 如果数字大于模型训练集中的案例数量,将使用所有案例。

    如果训练数据集非常大,则设置 Max Cases 的值会限制处理事例的总数,并使报表更快地完成。 但是,不应将 Max Cases 设置得太低,或者可能没有足够的数据进行交叉验证。

  4. (可选)对于 目标状态,键入要建模的可预测属性的值。 例如,如果列 [Bike Buyer] 有两个可能的值(1(是)和 2(否),则可以输入值 1 以仅评估所需结果的模型的准确性。

    注释

    如果未输入值,“目标阈值”选项不可用,并且会针对可预测属性的所有可能值评估模型。

  5. (可选)对于 目标阈值,请键入介于 0 和 1 之间的小数,以指定预测必须计算为准确的最小概率。

    有关如何设置概率阈值的其他提示,请参阅 交叉验证报告中的度量值

  6. 单击“ 获取结果”。

  1. 右键单击 “交叉验证 ”选项卡上的已完成报表。

  2. 在快捷菜单中,选择“ 打印 ”或“ 打印预览 ”以首先查看报表。

在 Microsoft Excel 中创建报表的副本

  1. 右键单击 “交叉验证 ”选项卡上的已完成报表。

  2. 在快捷菜单中,选择“ 全选”。

  3. 右键单击所选文本,然后选择“ 复制”。

  4. 将所选内容粘贴到打开的 Excel 工作簿中。 如果使用 “粘贴” 选项,报表将粘贴到 Excel 中作为 HTML,这将保留行和列格式。 如果使用文本或 Unicode 文本的 “选择性粘贴 ”选项粘贴报表,报表将采用以行分隔格式粘贴。

另请参阅

交叉验证报表中的度量值