你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

数据应用程序(源同步)

如果选择不实现数据无关引擎来一次性从运营源引入数据,或者数据无关引擎中不支持复杂连接,则应该创建与源对齐的数据应用程序。 当从外部数据源引入数据时,它应遵循与数据无关引擎相同的流。

概述

应用程序资源组仅负责从外部源(例如遥测、财务或 CRM)引入和扩充数据。 此层可以实时、批处理和微批处理运行。

本部分介绍为数据登陆区域中的每个数据应用程序(源对齐)资源组部署的基础结构。

小窍门

对于数据网格,可以选择为每个源或每个域部署其中一个。 数据标准化、数据质量和数据世系的原则仍必须遵循。 数据平台运营团队可以开发标准代码片段,并调用它们来实现此目的。

对于数据登陆区域中的每个数据应用程序(源对齐)资源组,都应创建:

  • 一个 Azure Key Vault
  • Azure 数据工厂是用于运行已开发工程管道,进而将数据从原始状态转化为丰富数据的工具。
  • 数据应用程序(源对齐)使用的服务主体,用于将引入作业部署到 Azure Databricks(仅当使用 Azure Databricks 时)

还可以创建其他服务的实例,例如 Azure 事件中心、Azure IoT 中心、Azure 流分析和 Azure 机器学习。

Azure Key Vault

尽可能使用 Azure Key Vault 功能在 Azure 中存储机密。

每个数据应用程序(源对齐)资源组或数据域(如果网格)都有一个 Azure Key Vault 可用于:

  • 确保加密密钥、机密和证书派生满足环境要求
  • 允许更好地分离管理职责
  • 降低将不同分类的密钥、集成和机密混淆的风险

与您的数据应用相关的所有密钥(源代码对齐)都应存储在 Azure 密钥保管库中。

重要

数据应用程序(与源数据保持一致)密钥保管库应遵循最低特权模型,并应避免交易规模限制和在不同环境间共享机密数据。

Azure 数据工厂

部署 Azure 数据工厂,以允许数据应用程序团队编写的管道从原始管道获取数据,并使用开发的管道进行扩充。 使用映射数据流进行转换,并拆分为使用 Azure Databricks 或 Microsoft Fabric 进行复杂转换。

应将 Azure 数据工厂连接到数据应用程序(源对齐)存储库的 DevOps 实例。 此连接允许 CI/CD 部署。

事件中心

如果数据应用程序(源对齐)需要流式传输数据,则可以在数据应用程序(源对齐)资源组中部署下游事件中心。

后续步骤

数据应用程序引用模式