探索聚类分析模型（基本数据挖掘教程）

2017-04-27

Microsoft聚类分析算法将事例分组到包含类似特征的分类中。这些分组可用于浏览数据、识别数据中的异常以及创建预测。

Microsoft群集查看器提供以下选项卡用于浏览聚类分析挖掘模型：

“群集关系图”选项卡

“分类图”选项卡显示挖掘模型中的所有分类。分类之间的线条表示“接近度”，并基于分类的相似程度进行着色。每个分类的实际颜色表示变量的频率和分类中的状态。

在“聚类图”选项卡中探索模型

使用挖掘模型查看器选项卡顶部的挖掘模型列表切换到TM_Clustering模型。
在 查看器 列表中，选择 Microsoft群集查看器。
在 “底纹变量 ”框中，选择“ 自行车购买者”。

默认变量为 Population，但你可以将此更改为模型中的任何属性，以发现哪些群集包含具有所需属性的成员。
在“州”框中选择 1，浏览购买自行车的情况。

密度图例描述了着色变量和状态中选择的属性状态对的密度。在此示例中，它告诉我们，最暗底纹的群集具有自行车购买者的最高百分比。
将鼠标悬停在最深底纹的群集上。

工具提示显示具有属性 Bike Buyer = 1的事例百分比。
选择密度最大的集群，右键单击该集群，选择重命名集群，然后输入“高级自行车购买者”以便后续识别。单击 “确定” 。
查找具有最浅底纹（和最低密度）的群集。右键单击群集，选择重命名群集，然后键入Bike Buyers Low。单击 “确定” 。
单击 “自行车买家高”群集并将其拖动到窗格中一个区域，这样你就可以清楚地看到它与其他群集的连接。

选择群集时，突出显示了将此群集连接到其他群集的行，以便可以轻松查看此群集的所有关系。当群集未被选择时，你可以通过图中线条的深浅来判断所有群集之间关系的强弱。如果底纹为浅色或不存在，则群集并不非常相似。
使用网络左侧的滑块筛选出较弱的链接，并查找具有最接近关系的群集。 Adventure Works Cycles 营销部门在确定传递目标邮件的最佳方法时，可能需要将类似的群集组合在一起。

“群集配置文件”选项卡

群集概况选项卡提供TM_Clustering模型的总体视图。 “ 分类配置文件 ”选项卡包含模型中每个分类的列。第一列列出与至少一个群集关联的属性。查看器的其余部分包含每个群集的属性状态的分布。离散变量的分布显示为彩色条形，条数的最大值在直方图条列表中显示。连续属性以菱形图显示，表示每个分类中的平均值和标准偏差。

在“群集配置文件”选项卡中探索模型

将 直方图 条设置为 5。

在我们的模型中，5 是任意一个变量的最大状态数。
如果挖掘图例挡住了属性简介的显示，请将其移开。
选择 “自行车购买者高 ”列，并将其拖到 “人口 ”列的右侧。
选择 “自行车购买者低 ”列，并将其拖到 “自行车购买者高 ”列的右侧。
单击“ 自行车购买者高位 ”列。

“ 变量 ”列按分类的重要性顺序排序。滚动浏览“高价值自行车购买者群体”的列并查看其特征。例如，他们更有可能有一个较短的通勤距离。
双击“自行车购买者高”列中的“年龄”单元格。

挖掘图例显示更详细的视图，可以查看这些客户的年龄范围以及平均年龄。
右键单击“ 自行车购买者低 ”列，然后选择“ 隐藏列”。

“群集特征”选项卡

使用 “分类特征 ”选项卡，可以更详细地检查构成群集的特征。可以一次浏览一个群集，而不是比较所有群集的特征（如“群集配置文件”选项卡中所示）。例如，如果从群集列表中选择高购买力自行车顾客，则可以查看此群集中的顾客特征。虽然显示与群集配置文件查看器不同，但发现结果相同。

注释

除非为 holdoutseed 设置初始值，否则每次处理模型时，结果都会有所不同。有关详细信息，请参阅 HoldoutSeed 元素

“分类歧视”选项卡

使用 “分类歧视 ”选项卡，可以浏览区分一个分类与另一个分类的特征。选择两个群集后，一个来自 群集 1 列表，一个来自 群集 2 列表，查看器将计算群集之间的差异，并显示最区分群集的属性列表。

在“聚类区分”选项卡中探索模型

在 “群集 1 ”框中，选择“ 自行车购买者高”。
在 “群集 2 ”框中，选择“ 自行车购买者低”。
单击“ 变量 ”按字母顺序排序。

自行车购买者低和自行车购买者高群集的客户之间的一些更实质性的差异包括年龄、汽车所有权、儿童数量和区域。

请参阅以下主题，了解其他挖掘模型。

课程中的下一个任务

探索 Naive Bayes 模型（基本数据挖掘教程）

课程中的上一个任务

探索决策树模型（基本数据挖掘教程）

另请参阅

使用Microsoft群集查看器浏览模型
 “分类歧视”选项卡（挖掘模型查看器）
“群集配置文件”选项卡（挖掘模型查看器）
“分类特征”选项卡（挖掘模型查看器）
“分类图”选项卡（挖掘模型查看器）

通过