Fabric 环境中的 Spark 计算配置设置

Microsoft Fabric 数据工程和数据科学体验在完全托管的 Spark 计算平台上运行。 该平台经过设计,可提供无与伦比的速度和效率。 它包括初学者池和自定义池。

Fabric 环境包含配置集合,包括 Spark 计算属性,可用于在将 Spark 会话附加到笔记本和 Spark 作业后对其进行配置。 借助环境,你可以灵活自定义用于运行 Spark 作业的计算配置。

设置配置

作为工作区管理员,可以启用或禁用计算自定义。

  1. “工作区设置 ”窗格中,选择 “数据工程/科学 ”部分。

  2. 选项卡上,将为项目自定义计算配置切换为打开

    还可以通过启用此设置来委托成员和参与者来更改 Fabric 环境中的默认会话级计算配置。

    显示工作区设置中的项级计算自定义选项的屏幕截图。

    如果在 “工作区设置 ”窗格中禁用此选项,则会禁用环境的 “计算 ”部分。 工作区的默认池计算配置用于运行 Spark 作业。

自定义环境中的会话级计算属性

作为用户,您可以从 Fabric 工作区中的可用池列表中为环境选择一个池。 Fabric 工作区管理员创建默认初学者池和自定义池。

显示“环境计算”部分选择池的位置的屏幕截图。

“计算 ”部分选择池后,可以在所选池的节点大小和限制的边界内优化执行程序的核心和内存。 有关 Spark 计算大小及其核心或内存选项的详细信息,请参阅 Fabric 中的 Spark 计算。 使用 “计算 ”部分配置 Spark 会话级属性,以根据工作负荷要求自定义执行器的内存和核心。 通过 spark.conf.set 控制应用程序级参数设置的 Spark 属性与环境变量无关。

例如,假设要选择具有大型节点大小的自定义池,即 16 个 Spark vCore 作为环境池。

  1. 在“ 计算 ”部分的环境 下,使用 Spark 驱动程序核心 下拉列表根据作业级别要求选择 4816

  2. 若要将内存分配给驱动程序和执行程序,请在 Spark 执行程序内存下选择 28 g56 g112 g。 所有节点都处于大型节点内存限制的边界内。

    显示在“环境计算”部分选择核心数的位置的屏幕截图。