本主题介绍如何使用数据挖掘设计器中的“准确性图表”选项卡创建交叉验证报表。 有关交叉验证报表的外观及其包含的统计度量值的一般信息,请参阅交叉验证(Analysis Services - 数据挖掘)。
交叉验证报表与精确度图表有所不同,例如提升图或分类矩阵。
交叉验证评估模型或结构中使用的数据的总体分布;因此,不指定测试数据集。 交叉验证始终仅使用用于训练模型或挖掘结构的原始数据。
交叉验证只能针对单个可预测结果执行。 如果结构支持具有不同可预测属性的模型,则必须为每个可预测输出创建单独的报表。
只有与当前所选结构相关的模型可用于交叉验证。
如果当前选择的结构支持聚类分析和非聚类分析模型的组合,则单击“ 获取结果”时,交叉验证存储过程将自动加载具有相同预测列的模型,并忽略不共享相同可预测属性的聚类分析模型。
仅当挖掘结构不支持任何其他可预测属性时,才能针对没有可预测属性的聚类分析模型创建交叉验证报告。
选择挖掘结构
在 SQL Server Data Tools(SSDT)中打开数据挖掘设计器。
在解决方案资源管理器中,打开包含要为其创建报表的结构或模型的数据库。
双击挖掘结构以在数据挖掘设计器中打开结构及其相关模型。
单击“ 挖掘准确性图表 ”选项卡。
单击“ 交叉验证 ”选项卡。
设置交叉验证选项
在 “交叉验证 ”选项卡上的 “折叠计数”中,单击向下箭头以选择介于 1 和 10 之间的数字。 默认值为 10。
分割次数表示将在原始数据集中创建的分区数。 如果将折叠计数设置为 1,则训练集将不使用分区。
对于 目标属性,请单击向下箭头,然后从列表中选择一列。 如果模型是聚类分析模型,请选择 #Cluster 以指示模型没有可预测属性。 请注意,仅当挖掘结构不支持其他类型的可预测属性时,值 #Cluster 才可用。
每个报表只能选择一个可预测属性。 默认情况下,报表中包含具有相同可预测属性的所有相关模型。
对于 Max Cases,键入一个足够大的数字,以便在指定折叠数之间拆分数据时提供具有代表性的数据样本。 如果数字大于模型训练集中的案例数量,将使用所有案例。
如果训练数据集非常大,则设置 Max Cases 的值会限制处理事例的总数,并使报表更快地完成。 但是,不应将 Max Cases 设置得太低,或者可能没有足够的数据进行交叉验证。
(可选)对于 目标状态,键入要建模的可预测属性的值。 例如,如果列 [Bike Buyer] 有两个可能的值(1(是)和 2(否),则可以输入值 1 以仅评估所需结果的模型的准确性。
注释
如果未输入值,“目标阈值”选项不可用,并且会针对可预测属性的所有可能值评估模型。
(可选)对于 目标阈值,请键入介于 0 和 1 之间的小数,以指定预测必须计算为准确的最小概率。
有关如何设置概率阈值的其他提示,请参阅 交叉验证报告中的度量值。
单击“ 获取结果”。
打印交叉验证报告
右键单击 “交叉验证 ”选项卡上的已完成报表。
在快捷菜单中,选择“ 打印 ”或“ 打印预览 ”以首先查看报表。
在 Microsoft Excel 中创建报表的副本
右键单击 “交叉验证 ”选项卡上的已完成报表。
在快捷菜单中,选择“ 全选”。
右键单击所选文本,然后选择“ 复制”。
将所选内容粘贴到打开的 Excel 工作簿中。 如果使用 “粘贴” 选项,报表将粘贴到 Excel 中作为 HTML,这将保留行和列格式。 如果使用文本或 Unicode 文本的 “选择性粘贴 ”选项粘贴报表,报表将采用以行分隔格式粘贴。