Microsoft决策树算法预测哪些列会影响购买自行车的决定,该决定是基于训练集中其他列的信息做出的。
“决策树”选项卡
在“ 决策树 ”选项卡上,可以查看数据集中每个可预测属性的决策树。
在这种情况下,模型仅预测一列“购买自行车的人”,所以只有一棵树可供查看。 如果有更多的树,则可以使用 树 框选择另一棵树。
在决策树查看器中查看 TM_Decision_Tree 模型时,可以在图表左侧看到最重要的属性。 “最重要的”意味着这些属性对结果的影响最大。 树中较低层次的属性(图表右侧)的影响越来越小。
在此示例中,年龄是预测自行车购买中最重要的因素。 模型按年龄对客户进行分组,然后显示每个年龄组的下一个更重要属性。 例如,在 34 至 40 岁的客户组中,拥有的汽车数量是年龄后最具预测性的指标。
在“决策树”选项卡中浏览模型
在数据挖掘设计器中选择“挖掘模型查看器”选项卡。
默认情况下,设计器将打开添加到结构中的第一个模型,在本例中为
TM_Decision_Tree。使用放大镜按钮调整树显示的大小。
默认情况下,Microsoft树查看器仅显示树的前三个级别。 如果树包含的级别少于三个,则查看器仅显示现有级别。 可以使用 “显示级别 ”滑块或 默认扩展 列表查看更多级别。
将幻灯片显示级别调整到第四个滑块。
将 Background 值更改为
1.通过更改 背景 设置,可以快速查看每个节点中具有
1目标值的 [Bike Buyer] 案例数量。 请记住,在此特定方案中,每个案例都代表一个客户。 该值1指示客户以前购买了自行车;值 0 表示客户尚未购买自行车。 节点底纹越暗,具有目标值的节点中事例的百分比越高。将光标置于标记为 “全部”的节点上。 工具提示将显示以下信息:
事例总数
非买自行车者案例数
自行车购买者案例数
[Bike Buyer] 缺失值的案例数量
或者,将光标放在树中的任意节点上,以查看从前一个节点到达该节点所需的条件。 还可以在 挖掘图例中查看相同的信息。
单击 Age >=34 和 < 41 的节点。 直方图显示为穿过节点的一条细水平条,表示此年龄范围内客户的分布,这些客户此前曾经购买过自行车的用粉红色表示,而未购买的则用蓝色表示。 查看器向我们表明,年龄在34至40岁之间,有一辆或没有汽车的客户可能会购买自行车。 更进一步,我们发现,如果客户实际年龄在38至40岁,购买自行车的可能性会增加。
由于在创建结构和模型时启用了钻取,因此可以从模型事例和挖掘结构中检索详细信息,包括挖掘模型中未包含的列(例如 emailAddress、FirstName)。
有关详细信息,请参阅钻取查询(数据挖掘)。
钻取到案例数据
右键单击节点,然后选择“ 钻取 ”,然后选择 “仅模型列”。
每个训练事例的详细信息以电子表格格式显示。 这些详细信息来自在生成挖掘结构时选择为事例表的 vTargetMail 视图。
右键单击节点,选择钻取,然后选择模型列和结构列。
同一电子表格显示,结构列追加到末尾。
“依赖关系网络”选项卡
“ 依赖关系网络 ”选项卡显示导致挖掘模型的预测能力的属性之间的关系。 依赖关系网络查看器强化了我们的发现,即年龄和地区是预测自行车购买的重要因素。
在“依赖关系网络”选项卡中探索模型
Bike Buyer单击节点以标识其依赖项。依赖项网络
Bike Buyer的中心节点表示挖掘模型中的可预测属性。 该图突出显示任何对可预测属性产生影响的连接节点。调整 “所有链接” 滑块以识别最具影响力的属性。
在向下拖动滑块时,将从图形中删除仅对 [Bike Buyer] 列产生弱效果的属性。 通过调整滑块,可以发现年龄和区域是预测某人是否是自行车购买者的最大因素。
相关任务
请参阅这些主题,以使用其他类型的模型浏览数据。
课程中的下一个任务
另请参阅
              挖掘模型查看器任务与操作指南
              决策树选项卡 (挖掘模型查看器)
              依赖关系网络选项卡 (挖掘模型查看器)
              使用Microsoft树查看器浏览模型