探索决策树模型(基本数据挖掘教程)

Microsoft决策树算法预测哪些列会影响购买自行车的决定,该决定是基于训练集中其他列的信息做出的。

“决策树”选项卡

在“ 决策树 ”选项卡上,可以查看数据集中每个可预测属性的决策树。

在这种情况下,模型仅预测一列“购买自行车的人”,所以只有一棵树可供查看。 如果有更多的树,则可以使用 框选择另一棵树。

在决策树查看器中查看 TM_Decision_Tree 模型时,可以在图表左侧看到最重要的属性。 “最重要的”意味着这些属性对结果的影响最大。 树中较低层次的属性(图表右侧)的影响越来越小。

在此示例中,年龄是预测自行车购买中最重要的因素。 模型按年龄对客户进行分组,然后显示每个年龄组的下一个更重要属性。 例如,在 34 至 40 岁的客户组中,拥有的汽车数量是年龄后最具预测性的指标。

在“决策树”选项卡中浏览模型

  1. 数据挖掘设计器中选择“挖掘模型查看器”选项卡。

    默认情况下,设计器将打开添加到结构中的第一个模型,在本例中为 TM_Decision_Tree

  2. 使用放大镜按钮调整树显示的大小。

    默认情况下,Microsoft树查看器仅显示树的前三个级别。 如果树包含的级别少于三个,则查看器仅显示现有级别。 可以使用 “显示级别 ”滑块或 默认扩展 列表查看更多级别。

  3. 将幻灯片显示级别调整到第四个滑块。

  4. Background 值更改为 1.

    通过更改 背景 设置,可以快速查看每个节点中具有 1 目标值的 [Bike Buyer] 案例数量。 请记住,在此特定方案中,每个案例都代表一个客户。 该值 1 指示客户以前购买了自行车;值 0 表示客户尚未购买自行车。 节点底纹越暗,具有目标值的节点中事例的百分比越高。

  5. 将光标置于标记为 “全部”的节点上。 工具提示将显示以下信息:

    • 事例总数

    • 非买自行车者案例数

    • 自行车购买者案例数

    • [Bike Buyer] 缺失值的案例数量

    或者,将光标放在树中的任意节点上,以查看从前一个节点到达该节点所需的条件。 还可以在 挖掘图例中查看相同的信息。

  6. 单击 Age >=34 和 < 41 的节点。 直方图显示为穿过节点的一条细水平条,表示此年龄范围内客户的分布,这些客户此前曾经购买过自行车的用粉红色表示,而未购买的则用蓝色表示。 查看器向我们表明,年龄在34至40岁之间,有一辆或没有汽车的客户可能会购买自行车。 更进一步,我们发现,如果客户实际年龄在38至40岁,购买自行车的可能性会增加。

由于在创建结构和模型时启用了钻取,因此可以从模型事例和挖掘结构中检索详细信息,包括挖掘模型中未包含的列(例如 emailAddress、FirstName)。

有关详细信息,请参阅钻取查询(数据挖掘)。

钻取到案例数据

  1. 右键单击节点,然后选择“ 钻取 ”,然后选择 “仅模型列”。

    每个训练事例的详细信息以电子表格格式显示。 这些详细信息来自在生成挖掘结构时选择为事例表的 vTargetMail 视图。

  2. 右键单击节点,选择钻取,然后选择模型列结构列

    同一电子表格显示,结构列追加到末尾。

“依赖关系网络”选项卡

依赖关系网络 ”选项卡显示导致挖掘模型的预测能力的属性之间的关系。 依赖关系网络查看器强化了我们的发现,即年龄和地区是预测自行车购买的重要因素。

在“依赖关系网络”选项卡中探索模型
  1. Bike Buyer单击节点以标识其依赖项。

    依赖项网络 Bike Buyer的中心节点表示挖掘模型中的可预测属性。 该图突出显示任何对可预测属性产生影响的连接节点。

  2. 调整 “所有链接” 滑块以识别最具影响力的属性。

    在向下拖动滑块时,将从图形中删除仅对 [Bike Buyer] 列产生弱效果的属性。 通过调整滑块,可以发现年龄和区域是预测某人是否是自行车购买者的最大因素。

请参阅这些主题,以使用其他类型的模型浏览数据。

课程中的下一个任务

探索聚类分析模型(基本数据挖掘教程)

另请参阅

挖掘模型查看器任务与操作指南
决策树选项卡 (挖掘模型查看器)
依赖关系网络选项卡 (挖掘模型查看器)
使用Microsoft树查看器浏览模型