在 Microsoft Fabric 中迁移到 Apache Airflow 作业

注意

Apache Airflow 作业由 Apache Airflow 提供支持。

Apache Airflow 作业(作为 Microsoft Fabric 中的一项转型功能)重新定义了构建和管理管道的方法。 Apache Airflow 作业由 Apache Airflow 运行时提供技术支持,它提供了一个基于云的集成平台,用于开发、计划和监视基于 Python 的 DAG(有向无环图)。 它提供软件即服务(SaaS)体验,用于使用 Apache Airflow 进行管道开发和管理。 这使得 Apache Airflow 运行时易于访问,从而允许创建和操作 Airflow DAG。

Apache Airflow 作业中的重要概念

  • 即时 Apache Airflow 运行时预配:启动新的数据工作流,并立即访问 Apache Airflow 运行时,以运行、调试和操作 DAG。
  • 基于云的多功能创作 (IDE):除了使用现有开发工具制作 Apache Airflow DAG 外,还可以利用 Apache Airflow 作业提供的基于云的创作环境,获得真正的云原生和 SaaS 优化的创作和调试体验。
  • 动态自动缩放:利用我们的自动缩放功能,同时执行数百个 Apache Airflow 任务,该功能旨在减少作业排队并提高性能。
  • 智能自动暂停:在数据工作流中,使 Apache·Airflow·运行时处于非活动状态数分钟后自动暂停,可优化容量使用情况,尤其是在不需要连续运行时的开发阶段,从而实现成本效益。
  • 增强内置安全性:与 Microsoft Fabric 集成后,Apache Airflow 运行时支持 Microsoft Entra ID,从而在与 Apache Airflow UI 交互时提供单一登录 (SSO) 体验。 此外,它还整合了 Microsoft Fabric 工作区角色,以提高安全措施的可靠性。
  • 支持 Apache Airflow 插件和库:由于数据工作流由 Apache Airflow 提供支持,因此它支持 Apache Airflow 的所有功能、插件和库,提供了相当的可扩展性。
  • 自定义池提高灵活性:创建新的数据工作流时,使用的默认池是入门池。 此池立即可用并经过优化,提供无服务器的 Apache Airflow 运行时体验。 它还会在不使用时关闭以节省成本,非常适合开发场景。 如果需要对池进行更多控制,可以创建自定义池。 此池允许您指定大小、自动缩放配置等。 以这种方式设置用于生产的数据工作流,可以实现无人值守的操作,并始终保持 Apache Airflow 运行时,支持 Apache Airflow 计划功能。 可使用工作区设置创建自定义池,确保工作流符合您的特定需求。

从 Azure 工作流编排管理器迁移

先决条件

若要使客户能够从 Azure 工作流编排管理器升级到 Microsoft Fabric 的 Apache Airflow 作业,请考虑以下两种场景:

场景 1:您正在 Azure 工作流编排管理器中使用 BLOB 存储。

在此场景中,我们建议使用 Visual Studio Code 进行直接迁移。 在 Visual Studio Code 中打开工作流文件,然后将其复制粘贴到 Fabric 托管存储中。 此方法可确保轻松转换并快速访问数据工作流的强大功能。

场景 2:您正在 Azure 工作流编排管理器中使用 Git 同步存储

在此方案中,使用 Apache Airflow 作业的 Git 同步功能无缝同步 GitHub 存储库。 与 Azure 工作流编排管理器类似,此功能可确保 GitHub 存储库保持同步,使您能够立即开始开发。 若要开始,请按照教程:在 Apache Airflow 作业中同步 GitHub 存储库操作。