配置与 Azure Databricks 的后端专用连接

使用 Azure 专用链接为 Azure Databricks 工作区创建安全的 后端连接 。 此连接可保护经典计算平面上的群集与 Azure Databricks 控制平面上的核心服务之间的流量。

为何仅选择后端连接?

配置后端专用链接连接可为数据处理环境提供关键的安全性和符合性优势:

  • 增强安全性:防止 Azure Databricks 群集通过公共 Internet 与控制平面通信,将数据工作负载与公用网络隔离开来。
  • 符合性要求:帮助满足严格的法规和公司合规性要求,这些要求所有内部云流量都保留在专用网络上。
  • 数据外泄控制:通过保护计算平面的连接,该平面是数据主动处理的地方,可以添加一个强大的保护层,防止数据外泄。
  • 消除公共 IP 地址:与安全群集连接配合使用,以启用完全专用的计算环境,群集上没有公共 IP 地址。

体系结构概述

在后端专用链接设置中,直接在工作区 VNet(虚拟网络)中部署专用终结点。 此终结点为 Azure Databricks 群集提供专用的安全路由,以便与控制平面服务(例如安全群集连接中继)通信。 所有流量都流经Microsoft主干网络,永远不会接触公共 Internet。

Azure 专用链接网络体系结构。

要求

  • 工作区必须在高级方案中。
  • 已使用 VNet 注入部署 Azure Databricks 工作区。
  • 必须具有 Azure 权限才能创建专用终结点和管理 DNS 记录。

网络配置

  • 为以下内容配置的中转 VNet:
    • 它充当连接到 Azure 网络的所有用户/客户端流量的主要传输点。
    • 它为本地或其他外部网络提供集中式连接。
    • 它管理共享服务,并包含出站 Internet 流量的主要路由(出口)。
  • 专用子网必须存在于您的工作区 VNet 中,专用于私有终结点。 如果不存在,请创建它。
  • 专用 DNS 区域由 Azure DNS 管理。

最佳做法

Azure Databricks 建议采用以下方法来实现一个可复原且易于管理的设置:

  • 体系结构:网络必须遵循Microsoft推荐的中心辐射型体系结构。 请参阅 Azure 中的中心辐射型网络拓扑
  • 独立身份验证工作区:为了提高复原能力,请在传输 VNet 中创建单独的浏览器身份验证工作区。 此专用工作区托管 browser_authentication 专用终结点,并在删除其他工作区时阻止单一故障点。

配置路径

选择与方案匹配的路径:

选项 1:为新工作区配置

选项 1:为新工作区配置

按照以下步骤使用后端专用链接连接部署新的 Azure Databricks 工作区。

步骤 1:创建资源组

  1. 在 Azure 门户中,选择 资源组 并单击“ 创建”。
  2. 为资源组命名。 验证 区域 是否与部署 VNet 的区域匹配。

步骤 2:创建 VNet

在自己的 Azure 订阅中创建客户管理的 VNet 或工作区 VNet。 选择 VNet 注入时,Azure Databricks 会将其计算资源直接部署到你拥有的专用安全网络中。 在步骤 3 中需要此 VNet。

  1. 转到 虚拟网络 并单击“ 创建”。
  2. 将其分配给刚刚创建的资源组,并提供描述性名称。
  3. 选择要托管 Azure Databricks 工作区的区域。
  4. 定义 VNet 的 IP 地址空间,例如 10.10.0.0/16。 系统会提示创建具有其自己的范围的初始子网,例如 10.10.1.0/24
  5. 单击“查看 + 创建”,然后单击“创建”

步骤 3:创建新工作区

  1. 在 Azure 门户中,搜索并选择 Azure Databricks。 单击 “创建”
  2. 选择刚刚创建的资源组。 验证 区域 是否与资源组和 VNet 匹配。
  3. Azure Databricks 建议在 托管资源组 名称中添加“managed”作为前缀。
  4. 在“ 网络 ”选项卡上,配置以下内容:
    1. 使用安全群集连接(无公共 IP)部署 Azure Databricks 工作区:选择“ ”。
    2. 在自己的虚拟网络(VNet)中部署 Azure Databricks 工作区:选择“ ”。
    3. 选择之前创建的工作区 VNet。
    4. 为工作区创建两个子网。 Azure Databricks 建议为每个子网命名一些易于识别的内容,例如 private-worker-subnetpublic-host-subnet
    5. 允许公用网络访问:选择 “已启用”。
    6. 所需的 NSG 规则:请选择 无 Azure Databricks 规则
    7. 使用 NAT 网关部署 Azure Databricks 工作区:选择 “否”。

注意

仅为后端连接选择 “无 Azure Databricks 规则 ”。

步骤 4:创建专用终结点

  1. 转到 专用终结点
    1. “专用终结点”下,单击“ 添加”。
  2. 配置databricks_ui_api的终结点:
    1. 名字: 输入描述性名称,例如 private-endpoint-front-end-ui
    2. 目标子资源: 选择 databricks_ui_api
    3. 虚拟网络: 选择工作区 VNet。
      • 工作区 VNet 及其专用终结点子网提供安全且直接的网络路径,允许工作区私密地访问其后端服务。
    4. 地区: 验证区域是否与 Azure Databricks 工作区匹配。

部署后,继续执行 共享步骤

选项 2:配置现有工作区

选项 2:配置现有工作区

重要说明

在开始之前,请停止工作区中的所有计算资源,例如群集和 SQL 仓库。 如果运行任何计算资源,更新将失败。

步骤 1:更新工作区网络设置

  1. 在 Azure 门户中转到你的 Azure Databricks 工作区。
  2. “设置”下,单击“ 网络”。
  3. 确认 安全群集连接(无公共 IP) 设置为 “是”。
  4. 将所需的 NSG 规则更改为 NoAzureDatabricksRules
  5. 单击“ 保存”。 网络更新可能需要 15 分钟才能完成。

步骤 2:在工作区 VNet 上创建专用终结点

  1. 在工作区的 “网络 ”选项卡中,选择 “专用终结点连接”。
  2. 单击 “加号”图标。专用终结点
  3. 选择终结点的资源组,提供一个名称,例如my-workspace-fe-pe,并验证地区是否与您的工作区相匹配。
  4. 在“ 资源 ”选项卡上,将 “目标”子资源 设置为 databricks_ui_api
  5. 选择与工作区关联的 VNet。
  6. 选择您的专用终结点子网。
  7. 验证 是否将“与专用 DNS 区域集成 ”设置为 “是”。 Azure 会自动选择 privatelink.azuredatabricks.net 区域。 如果尚不存在,Azure 会显示一个新 privatelink.azuredatabricks.net 区域。

共享步骤

步骤 1:验证 DNS

如果使用内置的 Azure 专用 DNS 集成,Azure 会自动为工作区创建 DNS 地址记录。

  1. 验证专用 DNS 区域记录:
    1. 在 Azure 门户中,搜索并导航到名为privatelink.azuredatabricks.net
    2. 验证是否存在以下 A 记录,并指向终结点的专用 IP 地址:
      1. 工作区 UI/API 记录
        • 名称:唯一的工作区 ID,例如 adb-xxxxxxxxxxxxxxxx.x
        • :专用终结点的 databricks_ui_api 专用 IP 地址。
      2. 浏览器身份验证记录
        • 名称:选择描述性名称,例如 pl-auth.<your_region>
        • :专用终结点的 browser_authentication 专用 IP 地址。

步骤 2:验证后端连接

通过启动群集来验证后端连接。

  1. 登录到 Azure Databricks 工作区。
  2. 转到边栏中的 “计算 ”。
  3. 单击“ 创建计算”,为其命名,然后单击“ 创建”。

群集启动可能需要几分钟时间。 成功的群集启动是一个很好的第一次检查,但必须运行简单的查询或笔记本命令才能完全确认连接是否正常工作。

  • 如果群集在 10-15 分钟后无法启动,并且群集事件日志显示类似 Cluster terminated. Reason: Control Plane Request Failure错误,则专用链接设置配置错误。 查看此页上的步骤以排查该问题。