注意
本文介绍适用于 Databricks Runtime 13.3 LTS 及更高版本的 Databricks Connect。
本文介绍如何安装或更新适用于 Python 的 Databricks Connect。 请参阅什么是 Databricks Connect?。
要求
安装 Databricks Connect 之前,请确保工作区和本地环境满足要求。 请参阅 Databricks Connect 使用情况要求。
激活 Python 虚拟环境
Databricks 强烈建议为与 Databricks Connect 配合使用的每个 Python 版本激活 Python 虚拟环境。 Python 虚拟环境有助于确保将正确版本的 Python 和 Databricks Connect 一起使用。 有关这些工具及其激活方式的详细信息,请参阅venv或Poetry。
安装 Databricks Connect 客户端
本部分介绍如何使用 venv 或诗歌安装 Databricks Connect 客户端。
注意
如果已安装用于 Visual Studio Code 的 Databricks 扩展,则可以使用扩展安装 Databricks Connect for Databricks Runtime 13.3 LTS 及更高版本。 请参阅使用 Databricks Connect 调试适用于 Visual Studio Code 的 Databricks 扩展代码。
使用 vnev 安装 Databricks Connect 客户端
激活虚拟环境后,运行
uninstall命令卸载 PySpark(如果已安装)。 这是必需的,因为databricks-connect包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行show命令。# Is PySpark already installed? pip3 show pyspark # Uninstall PySpark pip3 uninstall pyspark在虚拟环境仍处于激活状态的情况下,运行
install命令安装 Databricks Connect 客户端。 使用--upgrade选项将任何现有客户端安装升级到指定的版本。pip3 install --upgrade "databricks-connect==16.4.*" # Or X.Y.* to match your cluster version.注意
Databricks 建议追加“.*”符号来指定
databricks-connect==X.Y.*,而不是databricks-connect=X.Y,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。
使用 Poetry 安装 Databricks Connect 客户端
激活虚拟环境后,运行
remove命令卸载 PySpark(如果已安装)。 这是必需的,因为databricks-connect包与 PySpark 冲突。 有关详细信息,请参阅 PySpark 安装存在冲突。 若要检查是否已安装 PySpark,请运行show命令。# Is PySpark already installed? poetry show pyspark # Uninstall PySpark poetry remove pyspark在虚拟环境仍处于激活状态的情况下,运行
add命令安装 Databricks Connect 客户端。poetry add databricks-connect@~16.4 # Or X.Y to match your cluster version.注意
Databricks 建议使用“at-tilde”表示法来指定
databricks-connect@~16.4而不是databricks-connect==16.4,以确保安装最新的包。 虽然并不要求如此,但这样有助于确保为该群集使用最新的受支持功能。