使用提升图测试准确性 (基本数据挖掘教程)

在数据挖掘设计器的 “挖掘准确性图表 ”选项卡上,可以计算每个模型做出预测的方式,并将每个模型的结果直接与其他模型的结果进行比较。 这种比较方法称为 提升图。 通常,挖掘模型的预测准确性通过提升度或分类准确性来测量。 在本教程中,我们将仅使用提升图表。

在本主题中,你将执行以下任务:

选择输入数据

测试挖掘模型准确性的第一步是选择要用于测试的数据源。 你将测试模型对测试数据的性能,然后将模型与外部数据一起使用。

选择数据集

  1. 切换到 SQL Server Data Tools(SSDT)中的数据挖掘设计器中的 “挖掘准确性图表 ”选项卡,然后选择“ 输入选择 ”选项卡。

  2. “选择要用于准确性图表的数据集”组框中,选择“使用挖掘结构测试用例”。 这是在创建挖掘结构时预留的测试数据。

    有关其他选项的详细信息,请参阅 “选择准确性图表类型”和“设置图表选项”。

设置准确性图表参数

若要创建准确性图表,必须定义以下三项:

  • 应将哪些模型包含在准确性图表中?

  • 要度量哪些可预测属性? 某些模型可能有多个目标,但每个图表一次只能测量一个结果。

    若要将列用作准确性图表中的 可预测列名 ,列必须具有使用类型 PredictPredict Only。 此外,目标列的内容类型必须是 DiscreteDiscretized 之一。 换句话说,你不能使用提升图来根据连续数值输出衡量精确度。

  • 是否要测量模型的一般准确性,或预测特定值(如 [Bike Buyer] = 'Yes') 的准确度

创建提升图

  1. 在数据挖掘设计器的“输入选择”选项卡的“选择可预测挖掘模型列以显示在提升图中”下,选中“同步预测列和值”复选框。

  2. “可预测列名称” 列中,验证是否为每个模型选择了 “自行车购买者 ”。

  3. “显示 ”列中,选择每个模型。

    默认情况下,选择挖掘结构中的所有模型。 你可以决定不包括模型,但对于本教程,请将所有模型保留为选定状态。

  4. 在“ 预测值 ”列中,选择 1。 对于具有相同可预测列的每个模型,会自动填充相同的值。

  5. 选择提升图选项卡。

    单击该选项卡时,将执行预测查询以获取测试数据的预测,结果与已知值进行比较。 结果绘制在图形上。

    如果使用 “预测值 ”选项指定了特定目标结果,则提升图将绘制随机猜测的结果和理想模型的结果。

    • 模型在不使用任何数据来告知其预测时的准确性可通过随机猜测的结果来表示:即两个结果之间 50-50 的分配。 提升图表可帮助你直观展示模型性能提升了多少,相比于随机猜测。

    • 理想模型线代表精确度的最大极限。 它显示模型始终准确预测时可能实现的最大好处。

    创建的挖掘模型通常介于这两个极端之间。 对随机猜测的任何改进都被视为提升

  6. 使用图例查找表示理想模型和随机猜测模型的彩色线条。

    你会注意到,TM_Decision_Tree模型提供了最大的提升,优于聚类模型和朴素贝叶斯模型。

有关与本课程中创建的提升图类似的提升图的深入说明,请参阅提升图(Analysis Services - 数据挖掘)。

课程中的下一个任务

测试筛选模型 (基本数据挖掘教程)

另请参阅

增益图(Analysis Services - 数据挖掘)
提升图表选项卡 (数据挖掘准确性图表视图)