你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
如果选择不实现数据无关引擎来一次性从运营源引入数据,或者数据无关引擎中不支持复杂连接,则应该创建与源对齐的数据应用程序。 当从外部数据源引入数据时,它应遵循与数据无关引擎相同的流。
概述
应用程序资源组仅负责从外部源(例如遥测、财务或 CRM)引入和扩充数据。 此层可以实时、批处理和微批处理运行。
本部分介绍为数据登陆区域中的每个数据应用程序(源对齐)资源组部署的基础结构。
小窍门
对于数据网格,可以选择为每个源或每个域部署其中一个。 数据标准化、数据质量和数据世系的原则仍必须遵循。 数据平台运营团队可以开发标准代码片段,并调用它们来实现此目的。
对于数据登陆区域中的每个数据应用程序(源对齐)资源组,都应创建:
- 一个 Azure Key Vault
- Azure 数据工厂是用于运行已开发工程管道,进而将数据从原始状态转化为丰富数据的工具。
- 数据应用程序(源对齐)使用的服务主体,用于将引入作业部署到 Azure Databricks(仅当使用 Azure Databricks 时)
还可以创建其他服务的实例,例如 Azure 事件中心、Azure IoT 中心、Azure 流分析和 Azure 机器学习。
Azure Key Vault
尽可能使用 Azure Key Vault 功能在 Azure 中存储机密。
每个数据应用程序(源对齐)资源组或数据域(如果网格)都有一个 Azure Key Vault 可用于:
- 确保加密密钥、机密和证书派生满足环境要求
- 允许更好地分离管理职责
- 降低将不同分类的密钥、集成和机密混淆的风险
与您的数据应用相关的所有密钥(源代码对齐)都应存储在 Azure 密钥保管库中。
重要
数据应用程序(与源数据保持一致)密钥保管库应遵循最低特权模型,并应避免交易规模限制和在不同环境间共享机密数据。
Azure 数据工厂
部署 Azure 数据工厂,以允许数据应用程序团队编写的管道从原始管道获取数据,并使用开发的管道进行扩充。 使用映射数据流进行转换,并拆分为使用 Azure Databricks 或 Microsoft Fabric 进行复杂转换。
应将 Azure 数据工厂连接到数据应用程序(源对齐)存储库的 DevOps 实例。 此连接允许 CI/CD 部署。
事件中心
如果数据应用程序(源对齐)需要流式传输数据,则可以在数据应用程序(源对齐)资源组中部署下游事件中心。