为管道中的 Fabric 笔记本配置高并发模式

在管道内执行笔记本步骤时,将启动 Apache Spark 会话并用于运行从笔记本提交的查询。 为管道启用高并发模式时,笔记本将自动打包到现有的 Spark 会话中。

这使你能够在单一用户边界内的所有笔记本之间共享会话。 系统会自动打包现有高并发会话中的所有笔记本。

显示笔记本高并发会话的动画。

注意

高并发模式的会话共享始终位于单一用户边界内。 若要共享单个 Spark 会话,笔记本必须具有匹配的 Spark 配置,它们应该属于同一工作区的一部分,并共享相同的默认湖屋和库。

会话共享条件

若要让笔记本共享单个 Spark 会话,笔记本必须符合以下条件:

  • 由同一用户运行。
  • 具有相同的默认 Lakehouse。 没有默认 Lakehouse 的笔记本可以与同样没有默认 Lakehouse 的其他笔记本共享会话。
  • 具有相同的 Spark 计算配置。
  • 具有相同的库包。 可以将不同的内联库安装作为笔记本单元格的一部分,并且仍与具有不同库依赖项的笔记本共享会话。

配置高并发模式

Fabric 工作区管理员可以使用工作区设置为管道启用高并发模式。 使用以下步骤配置高并发功能:

  1. 在 Fabric 工作区中选择 “工作区设置” 选项。

  2. 导航到 “数据工程/科学 ”部分 >Spark 设置>高并发性

  3. 高并发部分中,启用用于运行多个笔记本的管道设置

    显示工作区设置中的高并发部分的屏幕截图。

  4. “启用高并发”选项允许管道触发的所有笔记本会话作为高并发会话。

  5. 系统会自动将传入的笔记本会话打包到活动的高并发会话中。 如果没有活动的高并发会话,则会创建一个新的高并发会话,并将提交的并发笔记本打包到新会话中。

使用笔记本中的会话标签对共享会话进行分组

  1. 导航到工作区,选择“ 新建项 ”按钮,然后创建新的 管道

  2. 导航到菜单功能区中的“活动”选项卡并添加“笔记本”活动。

  3. 从“高级设置”中,为“会话标签”属性指定任何字符串值。

  4. 添加会话标签后,笔记本共享将使用此标签作为匹配条件,将所有具有相同会话标签的笔记本捆绑在一起。

    显示在笔记本菜单中启动新的高并发会话选项的屏幕截图。

注意

为了优化性能,单个高并发会话可以跨同一会话标记标识的最多 5 个笔记本共享资源。 使用同一标记提交超过 5 个笔记本时,系统将自动创建新的高并发会话来托管后续笔记本步骤。 这允许通过跨多个会话分配工作负荷来实现高效的缩放和负载均衡。

监视和调试由管道触发的笔记本

当共享会话中运行了多个笔记本时,监控和调试可能具有挑战性。 高并发模式提供日志分离功能,使你能够跟踪每个笔记本的 Spark 事件日志。

  1. 会话正在进行或处于已完成状态时,可以通过导航到 “运行 ”菜单并选择“ 所有运行 ”选项来查看会话状态。

  2. 这会打开笔记本的运行历史记录,其中包含当前活动会话和历史 Spark 会话的列表。

    显示高并发会话中笔记本的所有运行页面的屏幕截图。

  3. 通过选择会话,可以访问监视详细信息视图,该视图显示该会话中执行的所有 Spark 作业的列表。

  4. 对于高并发会话,可以使用“相关笔记本”选项卡从不同的笔记本中识别作业及其关联的日志,该选项卡还会显示运行该作业的笔记本

    显示监视详细视图中与高并发会话相关的所有笔记本的屏幕截图。