创建交叉验证报告

2017-06-13

本主题介绍如何使用数据挖掘设计器中的“准确性图表”选项卡创建交叉验证报表。有关交叉验证报表的外观及其包含的统计度量值的一般信息，请参阅交叉验证（Analysis Services - 数据挖掘）。

交叉验证报表与精确度图表有所不同，例如提升图或分类矩阵。

交叉验证评估模型或结构中使用的数据的总体分布;因此，不指定测试数据集。交叉验证始终仅使用用于训练模型或挖掘结构的原始数据。
交叉验证只能针对单个可预测结果执行。如果结构支持具有不同可预测属性的模型，则必须为每个可预测输出创建单独的报表。
只有与当前所选结构相关的模型可用于交叉验证。
如果当前选择的结构支持聚类分析和非聚类分析模型的组合，则单击“ 获取结果”时，交叉验证存储过程将自动加载具有相同预测列的模型，并忽略不共享相同可预测属性的聚类分析模型。
仅当挖掘结构不支持任何其他可预测属性时，才能针对没有可预测属性的聚类分析模型创建交叉验证报告。

选择挖掘结构

在 SQL Server Data Tools（SSDT）中打开数据挖掘设计器。
在解决方案资源管理器中，打开包含要为其创建报表的结构或模型的数据库。
双击挖掘结构以在数据挖掘设计器中打开结构及其相关模型。
单击“ 挖掘准确性图表 ”选项卡。
单击“ 交叉验证 ”选项卡。

设置交叉验证选项

在 “交叉验证 ”选项卡上的 “折叠计数”中，单击向下箭头以选择介于 1 和 10 之间的数字。默认值为 10。

分割次数表示将在原始数据集中创建的分区数。如果将折叠计数设置为 1，则训练集将不使用分区。
对于 目标属性，请单击向下箭头，然后从列表中选择一列。如果模型是聚类分析模型，请选择 #Cluster 以指示模型没有可预测属性。请注意，仅当挖掘结构不支持其他类型的可预测属性时，值 #Cluster 才可用。

每个报表只能选择一个可预测属性。默认情况下，报表中包含具有相同可预测属性的所有相关模型。
对于 Max Cases，键入一个足够大的数字，以便在指定折叠数之间拆分数据时提供具有代表性的数据样本。如果数字大于模型训练集中的案例数量，将使用所有案例。

如果训练数据集非常大，则设置 Max Cases 的值会限制处理事例的总数，并使报表更快地完成。但是，不应将 Max Cases 设置得太低，或者可能没有足够的数据进行交叉验证。
（可选）对于 目标状态，键入要建模的可预测属性的值。例如，如果列 [Bike Buyer] 有两个可能的值（1（是）和 2（否），则可以输入值 1 以仅评估所需结果的模型的准确性。

注释

如果未输入值，“目标阈值”选项不可用，并且会针对可预测属性的所有可能值评估模型。
（可选）对于 目标阈值，请键入介于 0 和 1 之间的小数，以指定预测必须计算为准确的最小概率。

有关如何设置概率阈值的其他提示，请参阅交叉验证报告中的度量值。
单击“ 获取结果”。

打印交叉验证报告

右键单击 “交叉验证 ”选项卡上的已完成报表。
在快捷菜单中，选择“ 打印 ”或“ 打印预览 ”以首先查看报表。

在 Microsoft Excel 中创建报表的副本

右键单击 “交叉验证 ”选项卡上的已完成报表。
在快捷菜单中，选择“ 全选”。
右键单击所选文本，然后选择“ 复制”。
将所选内容粘贴到打开的 Excel 工作簿中。如果使用 “粘贴” 选项，报表将粘贴到 Excel 中作为 HTML，这将保留行和列格式。如果使用文本或 Unicode 文本的 “选择性粘贴 ”选项粘贴报表，报表将采用以行分隔格式粘贴。

另请参阅

交叉验证报表中的度量值

通过

创建交叉验证报告

选择挖掘结构

设置交叉验证选项

打印交叉验证报告

在 Microsoft Excel 中创建报表的副本

另请参阅

其他资源