分析 Power BI 中的数据
分析数据是指了解数据的细微差别:确定异常、检查并开发基本数据结构以及查询数据统计信息,例如行计数、值分布、最小值和最大值,以及平均值等。 此概念很重要,因为它使您能够对数据进行调整和组织,以便实现轻松地与数据交互和识别数据的分布,这有助于在几乎毫不费力的情况下在前端处理数据来编制报表元素。
假设您正在为组织的销售团队编制报表。 您不确定数据的结构化方式以及数据是如何包含在表中的,因此,需要在开发视觉对象之前在幕后分析数据。 Power BI 具有固有的功能,因此这些任务对用户友好且简单明了。
检查数据结构
开始在 Power Query 编辑器中检查数据之前,您应首先了解用于组织该数据的基础数据结构。 您可以在 Power BI Desktop 上的模型选项卡下查看当前语义模型。
在模型选项卡上,您可以通过选择表或列来编辑特定的列和表属性,并且可以通过使用转换数据按钮来转换数据,该按钮会将您转到 Power Query 编辑器。 此外,可以使用功能区上的管理关系来管理、创建、编辑和删除不同表之间的关系。
查找数据异常和数据统计信息
创建与数据源的连接并选择转换数据后,系统将您引入 Power Query 编辑器,您可以在其中确定数据中是否存在异常。 数据异常是指数据中存在离群值。 确定存在哪些异常有助于确定数据的正常分布情况,以及是否存在需要进一步调查的特定数据点。 Power Query 编辑器使用列分布功能确定数据异常。
选择功能区上的视图,在数据预览下,您可以从多个选项中进行选择。 若要了解数据异常和统计信息,请选择列分布、列质量和列分析选项。 下图显示了出现的统计信息。
列质量和列分布显示在数据列上方的图形中。 列质量显示有效数据、错误数据和空数据的百分比。 在理想情况下,您希望全部数据都是有效数据。
注意
默认情况下,Power Query 检查数据集的前 1000 行。 若要更改此项,请在状态栏中选择分析状态,然后选择基于整个数据集的列分析。 ]
列分布显示数据在列内的分布情况以及明确和唯一值的计数,这两者都可以指示出数据计数的详细信息。 不同值是列中的所有不同值,包括重复值和 null 值,而唯一值不包括重复项或 null 值。 因此,此表中的 distinct 指明总共出现多少个值,而 unique 则指明这些值中有多少只出现了一次。
通过列分析,您可以更深入地调查列中前 1,000 行数据的统计信息。 此列提供了若干个不同的值,包括行计数,这在验证数据是否已成功导入时非常重要。 例如,如果原始数据库有 100 行,则可以使用此行计数来验证是否存在 100 行,如果是,则表示已正确导入。 此外,此行计数将显示 Power BI 识别为离群值、空行和字符串的行数,以及最小值和最大值,这将分别显示列中的最小值和最大值。 这种区别对于数值数据尤为重要,因为如果您的最大值超出了您的企业标识的“最大值”,它将立即通知您。此值会引起您对这些值的注意,这意味着您可以集中精力深入研究数据。 如果数据位于文本列中(如上图所示),在数据按字母顺序排序时,最小值是第一个值,而最大值是最后一个值。
此外,值分布图还会指示该特定列中每个不同值的计数。 查看上图中的图形时,请注意值分布指示“Anthony Gross”在 SalesPerson 列中的出现次数最多,而“Lily Code”出现的次数最少。 此信息十分重要,因为它可以标识离群值。 如果某个值远远大于列中的其他值,通过值分布功能,可以确定开始调查出现此情况原因的位置。
在数值列上,列统计信息还将包含存在多少个零和 null 值,以及列中的平均值、列中值的标准偏差以及列中的偶数和奇数值的数量。 这些统计信息使您能够了解数据在列中的分布情况,并且十分重要,因为它们会在列中汇总数据并充当确定离群值的起点。
例如,在查看发票数据时,您注意到值分布图显示 SalesPerson 列中的几个销售人员在数据中出现的次数相同。 此外,您还注意到 Profit 列以及其他一些表中也出现了相同的情况。 在调查过程中,您会发现您使用的数据是错误的,需要刷新,因此您应立即进行刷新。 如果不查看此图,您可能不会如此快速地看到此错误,因此,“值分布”是必不可少的功能。
在 Power Query 编辑器中完成编辑并准备好开始生成视觉对象后,请返回到 Power Query 编辑器功能区上的主页。 选择关闭并应用,这将使您返回到 Power BI Desktop,也将应用任何列编辑/转换。
现在,您已经确定了构成 Power BI 中的分析数据的元素,其中包括加载 Power BI 中的数据、查询列属性以了解列中数据的类型和格式并对其进行进一步编辑、查找数据异常以及查看 Power Query 编辑器中的数据统计信息。 掌握此知识后,您可以在您的工具包中包含能够有效且高效研究数据的功能。
 
              
              