使用 Microsoft Fabric 浏览和处理数据
数据是数据科学的基石,尤其是在旨在训练机器学习模型以实现人工智能时。 通常,随着训练数据集大小的增加,模型表现出增强的性能。 除了数据数量外,数据的质量同样重要。
为了保证数据的质量和数量,使用 Microsoft Fabric 可靠的数据引入和处理引擎是值得的。 在建立基本数据引入、探索和转换管道时,你可以灵活地选择低代码或代码优先方法。
将数据引入到 Microsoft Fabric 中
若要在 Microsoft Fabric 中使用数据,首先需要引入数据。 可以从多个源(本地数据源和云数据源)引入数据。 例如,可以从本地计算机或 Azure Data Lake Storage(Gen2)中存储的 CSV 文件引入数据。
小窍门
详细了解如何使用 Microsoft Fabric 引入和协调来自各种源的数据。
连接到数据源后,可以将数据保存到 Microsoft Fabric lakehouse 中。 可以使用 Lakehouse 作为中心位置来存储任何结构化、半结构化和非结构化文件。 然后,每当想要访问数据进行浏览或转换时,你都可以轻松连接到该湖屋。
浏览和转换数据
作为数据科学家,你可能最熟悉在 笔记本中编写和执行代码。 Microsoft Fabric 提供由 Spark 计算提供支持的熟悉笔记本体验。
Apache Spark 是用于大规模数据处理和分析的开源并行处理框架。
笔记本会自动附加到 Spark 计算。 首次在笔记本中运行单元格时,将启动新的 Spark 会话。 运行后续单元格时,会话将保持不变。 Spark 会话将在一段时间处于非活动状态后自动停止,以节省成本。 还可以手动停止会话。
在笔记本中工作时,可以选择要使用的语言。 对于数据科学工作负载,你可能使用 PySpark(Python)或 SparkR(R)。
在笔记本中,可以使用首选库或任何内置可视化选项浏览数据。 如有必要,可以通过将数据写回到 Lakehouse 来转换数据并保存处理的数据。
使用 Data Wrangler 准备数据
为了帮助你更快地浏览和转换数据,Microsoft Fabric 提供了易于使用 的 Data Wrangler。
启动 Data Wrangler 后,你将获得正在使用的数据的描述性概述。 可以查看数据的摘要统计信息,以查找缺失值等任何问题。
若要清理数据,可以选择任何内置数据清理作。 选择作时,将自动生成结果预览和关联的代码。 选择所有必要作后,可以将转换导出到代码,并在数据上执行它。