笔记本计算资源

本文介绍乐笔记本计算资源的选项。 可以在通用计算资源、无服务器计算上运行笔记本;对于 SQL 命令,可以使用 SQL 仓库(一种针对 SQL 分析进行优化的计算类型)。 有关计算类型的详细信息,请参阅计算

笔记本的无服务器计算

无服务器计算使你能够快速将笔记本连接到按需计算资源。

若要附加到无服务器计算,请单击笔记本中的“连接”下拉菜单,然后选择“无服务器”

有关详细信息,请参阅适用于笔记本的无服务器计算

无服务器笔记本的自动会话还原

无服务器计算的空闲终止可能会导致笔记本中正在进行的工作(如 Python 变量值)丢失。 为避免这种情况, 请为无服务器笔记本启用自动会话还原

  1. 单击工作区右上角的用户名,然后单击下拉列表中的 “设置 ”。
  2. 在“设置”边栏中,选择“开发人员”。
  3. 实验性功能 下,切换打开 无服务器笔记本的自动会话还原 设置。

启用此设置后,Databricks 可以在空闲终止之前快照无服务器笔记本的内存状态。 在空闲断开连接后返回到笔记本时,页面顶部会显示一个横幅。 单击“ 重新连接 ”以还原工作状态。

重新连接时,Databricks 将恢复整个工作环境,包括:

  • Python 变量、函数和类定义:将保留笔记本的 Python 端,因此无需重新导入或重新声明。
  • Spark 数据帧、缓存视图和临时视图:您已加载、转换或缓存的数据(包括临时视图)将被保留,从而避免了高昂的重新加载或重算成本。
  • Spark 会话状态:保存所有 Spark 级别配置设置、临时视图、目录修改和用户定义的函数(UDF),因此无需重置它们。

此功能有限制,不支持还原以下内容:

  • Spark 状态存在时间超过 4 天
  • Spark 状态信息大于 50 MB
  • SQL 脚本相关的数据
  • 文件句柄
  • 锁和其他并发基元
  • 网络连接

将笔记本附加到通用计算资源

若要将笔记本附加到通用计算资源,需要对计算资源具有 CAN ATTACH TO 权限

重要说明

只要笔记本电脑连接到计算资源,对笔记本具有 CAN RUN 权限的任何用户都有访问计算资源的隐式权限。

若要将笔记本附加到某计算资源,请单击笔记本工具栏中的计算选择器,然后从下拉菜单中选择该资源。

该菜单显示了你最近使用过或当前正在运行的通用计算和 SQL 仓库的选择。

附加笔记本

若要从所有可用计算中进行选择,请单击“更多...”。 从可用的通用计算或 SQL 仓库中进行选择。

“更多群集”对话框

还可以通过从下拉菜单中选择“新建资源...”来创建新的通用计算资源

重要说明

附加的笔记本定义了以下 Apache Spark 变量。

变量名
SparkContext sc
SQLContext/HiveContext sqlContext
SparkSession (Spark 2.x) spark

请勿创建 SparkSessionSparkContextSQLContext。 这样做会导致行为不一致。

将笔记本与 SQL 仓库配合使用

将笔记本附加到 SQL 仓库时,可以运行 SQL 和 Markdown 单元格。 使用任何其他语言(如 Python 或 R)运行单元格都会引发错误。 在 SQL 仓库上执行的 SQL 单元显示在 SQL 仓库的查询历史记录中。 运行查询的用户可以通过单击输出底部的运行时间从笔记本查看查询配置文件

运行笔记本需要专业版或无服务器 SQL 仓库。 你必须有权访问工作区和 SQL 仓库。

若要将笔记本附加到 SQL 仓库,请执行以下操作:

  1. 单击笔记本工具栏中的计算选择器。 下拉菜单会显示当前正在运行的或最近使用的计算资源。 SQL 仓库带有 SQL 仓库标签

  2. 从菜单中选择一个 SQL 仓库。

    若要查看所有可用的 SQL 仓库,请从下拉菜单中选择“更多...”。 此时会出现一个对话框,其中显示了笔记本可用的计算资源。 选择“SQL 仓库”,选择要使用的仓库,然后单击“附加”。

    选择了 SQL 仓库的更多群集对话框

创建工作流或计划作业时,还可以选择 SQL 仓库作为 SQL 笔记本的计算资源。

SQL 仓库限制

有关详细信息,请参阅 Databricks 笔记本的已知限制