使用 Microsoft Fabric 浏览和处理数据

数据是数据科学的基石，尤其是在旨在训练机器学习模型以实现人工智能时。通常，随着训练数据集大小的增加，模型表现出增强的性能。除了数据数量外，数据的质量同样重要。

为了保证数据的质量和数量，使用 Microsoft Fabric 可靠的数据引入和处理引擎是值得的。在建立基本数据引入、探索和转换管道时，你可以灵活地选择低代码或代码优先方法。

将数据引入到 Microsoft Fabric 中

若要在 Microsoft Fabric 中使用数据，首先需要引入数据。可以从多个源（本地数据源和云数据源）引入数据。例如，可以从本地计算机或 Azure Data Lake Storage（Gen2）中存储的 CSV 文件引入数据。

小窍门

连接到数据源后，可以将数据保存到 Microsoft Fabric lakehouse 中。可以使用 Lakehouse 作为中心位置来存储任何结构化、半结构化和非结构化文件。然后，每当想要访问数据进行浏览或转换时，你都可以轻松连接到该湖屋。

作为数据科学家，你可能最熟悉在 笔记本中编写和执行代码。 Microsoft Fabric 提供由 Spark 计算提供支持的熟悉笔记本体验。

Apache Spark 是用于大规模数据处理和分析的开源并行处理框架。

笔记本会自动附加到 Spark 计算。首次在笔记本中运行单元格时，将启动新的 Spark 会话。运行后续单元格时，会话将保持不变。 Spark 会话将在一段时间处于非活动状态后自动停止，以节省成本。还可以手动停止会话。

在笔记本中工作时，可以选择要使用的语言。对于数据科学工作负载，你可能使用 PySpark（Python）或 SparkR（R）。

Microsoft Fabric 中笔记本的屏幕截图。

在笔记本中，可以使用首选库或任何内置可视化选项浏览数据。如有必要，可以通过将数据写回到 Lakehouse 来转换数据并保存处理的数据。

为了帮助你更快地浏览和转换数据，Microsoft Fabric 提供了易于使用 的 Data Wrangler。

启动 Data Wrangler 后，你将获得正在使用的数据的描述性概述。可以查看数据的摘要统计信息，以查找缺失值等任何问题。

若要清理数据，可以选择任何内置数据清理作。选择作时，将自动生成结果预览和关联的代码。选择所有必要作后，可以将转换导出到代码，并在数据上执行它。

此页面是否有帮助？