你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
数据登陆区域通过虚拟网络对等互连或专用终结点连接到数据管理登陆区域。 每个数据登陆区都被视为与 Azure 登陆区架构相关的登陆区。
重要
在预配数据登陆区域之前,请确保 DevOps 和持续集成和持续交付(CI/CD)作模型已到位,并部署数据管理登陆区域。
每个数据登陆区域都有多个层,可实现服务数据集成及其包含的数据应用程序的敏捷性。 可以使用一组标准服务部署新的数据登陆区域,使数据登陆区域能够引入和分析数据。
下表显示了与数据登陆区域关联的典型 Azure 订阅的结构。
| 层 | 必选 | 资源组 |
|---|---|---|
| 平台服务层 | 是的 | |
| 核心服务 | 是的 | |
| 数据应用程序 | 可选 |
|
| 报告和可视化 | 可选 |
注释
核心服务层被标记为必需,但本文中包含的所有资源组和服务未必都对您的数据落地区域是必要的。
数据登陆域体系结构
以下数据登陆区域体系结构说明了每个资源组包含的层、资源组和服务。 该体系结构概述了与数据登陆区域关联的所有组和角色,以及它们对控件和数据平面的访问范围。 该体系结构还说明了每一层如何与运营模型职责一致。
小窍门
在部署数据登陆区域之前,请确保 考虑要部署的初始数据登陆区域数。
平台服务
在云规模分析上下文中,平台服务层包含为数据登陆区域提供连接性和可观测性所需的各项服务。 下表列出了建议的资源组。
| 资源组 | 必选 | DESCRIPTION |
|---|---|---|
network-rg |
是的 | 网络 |
security-rg |
是的 | 安全性和监视 |
网络
网络资源组包含连接服务,包括 Azure 虚拟网络、 网络安全组和 路由表。 所有这些服务都部署到单个资源组中。
数据登陆区域的虚拟网络会自动与数据管理登陆区域的虚拟网络和连接订阅的虚拟网络对等互连。
安全性和监视
安全和监视资源组包括 Azure Monitor 和 Microsoft Defender for Cloud ,用于收集服务遥测数据、定义监视条件和警报,以及将策略和扫描应用到服务。
核心服务
在云规模分析上下文中,核心服务层包括支持数据登陆区域所需的基础服务。 下表列出了在部署的每个数据登陆区域中提供标准可用服务的资源组。
| 资源组 | 必选 | DESCRIPTION |
|---|---|---|
storage-rg |
是的 | Data Lake 服务 |
runtimes-rg |
是的 | 共享 IR |
mgmt-rg |
是的 | CI/CD 代理 |
external-data-rg |
是的 | 外部数据存储 |
data-ingestion-rg |
可选 | 共享数据引入服务 |
shared-applications-rg |
可选 | 共享应用程序 (Azure Databricks) |
存储
上图显示了在单个 Data Lake 服务资源组中预配的三个 Azure Data Lake Storage Gen2 帐户。 不同阶段转换的数据被保存在您的数据着陆区中的某个数据湖。 数据可供分析、数据科学和可视化团队使用。
Data Lake 层根据技术和供应商使用不同的术语。 下表提供有关如何应用云规模分析术语的指导:
| 云规模分析 | Delta Lake | 其他术语 | DESCRIPTION |
|---|---|---|---|
| 原始 | 青铜 | 着陆和一致性 | 引入表 |
| 扩充 | 银 | 标准化区域 | 优化后的表。 存储了来自记录系统的完整实体和可供使用的记录集。 |
| 精选 | 金 | 产品区域 | 特征表或聚合表。 应用程序、团队和用户使用数据产品的主要区域。 |
| 开发 | -- | 开发区 | 数据工程师和科学家的位置,其中包括分析沙盒和产品开发区域。 |
注释
在上图中,每个数据登陆区域都有三个 Data Lake 存储帐户。 根据你的要求,可以选择将原始层、扩充层和特选层合并到一个存储帐户中,并维护另一个名为 工作区 的存储帐户,供数据使用者引入其他有用的数据产品。
有关详细信息,请参见:
- 用于云规模分析的 Azure Data Lake Storage 概述
- 数据标准化
- 数据湖区域和容器
- Data Lake Storage 的关键注意事项
- Data Lake Storage 中的访问控制和数据湖配置项
共享 IR
Azure 数据工厂管道使用 IR 安全地访问对等网络或隔离网络内的数据源。 共享 IR 应部署到共享 IR 资源组中的虚拟机 (VM) 或 Azure 虚拟机规模集。
为了启用共享资源组,请执行以下步骤:
在数据登陆区域的共享集成资源组中创建至少一个 Azure 数据工厂实例。 它仅用于链接共享自承载 IR,而不用于数据管道。
在 VM 上创建和配置自承载 IR。
将自承载 IR 与数据登陆区域中的 Azure 数据工厂相关联。
使用 PowerShell 脚本定期更新自承载 IR。
注释
该部署描述了具有自承载 IR 的单个 VM 部署。 可以将自承载 IR 与本地或 Azure 中的多个 VM 相关联。 这些计算机称为节点。 最多可以有四个节点与自承载 IR 相关联。 拥有多个节点的好处包括:
更高的自承载 IR 可用性,使其不再是数据应用程序或云数据集成编排中的单一故障点。
改进了本地与云数据服务之间的数据移动期间的性能和吞吐量。 有关详细信息,请参阅复制活动性能和可伸缩性指南。
可以通过从 Microsoft下载中心安装自承载 IR 软件来关联多个节点。 然后使用从 New-AzDataFactoryV2IntegrationRuntimeKey cmdlet 获取的身份验证密钥之一注册它,如 本教程中所述。
有关详细信息,请参阅 Azure 数据工厂高可用性和可伸缩性。
请确保部署的共享 IR 尽可能靠近数据源。 可以在数据登陆区域中、非Microsoft云或私有云(如果 VM 已连接到所需的数据源)中部署 IR。
管理
CI/CD 代理在 VM 上运行,并帮助从源代码存储库部署项目,包括数据应用程序和对数据登陆区域的更改。
有关详细信息,请参阅 Azure Pipelines 代理。
外部存储
合作伙伴数据发布者需要在你的平台中登陆数据,以便数据应用程序团队可以将其提取到数据应用程序团队的数据湖中。 此外,也可能存在一些内外部数据源,它们无法支持在平台其余数据登陆区域中强制执行的连接性或身份验证要求。 建议的方法是使用单独的存储帐户来接收数据。 然后使用共享 IR 或类似的处理过程将其导入处理管道。
数据应用团队请求存储 Blob 数据。 这些请求得到数据登陆区域运营团队的批准。 数据在被引入原始数据存储后,即应从其源存储 Blob 中删除。
重要
由于 Azure 存储 blob 是按需预配的,因此你应该首先在每个数据登陆区域中部署一个空的存储服务资源组。
数据引入
此资源组是可选的,不会阻止你部署登陆区域。 如果你拥有或正在开发一种数据无关引入引擎,并且该引擎能够根据已注册的元数据自动引入数据,则它也适用。 此功能包括连接字符串、数据传输路径和引入计划。
引入和处理资源组具有此类架构的核心服务。
部署 Azure SQL 数据库实例以保存 Azure 数据工厂使用的元数据。 预配 Azure 密钥保管库以存储与自动引入服务相关的机密。 这些机密可能包括:
- Azure 数据工厂元数据存储凭据。
- 自动化引入过程的服务主体凭据。
有关详细信息,请参阅 与数据无关的引入引擎。
下表描述了此资源组中的服务。
| 服务 | 必选 | 准则 |
|---|---|---|
| Azure 数据工厂 | 是的 | Azure 数据工厂是您的编排引擎,用于数据无关的引入。 |
| Azure SQL 数据库 | 是的 | SQL 数据库是 Azure 数据工厂的元存储。 |
| Azure 事件中心或 Azure IoT 中心 | 可选 | 事件中心或 IoT 中心可以向事件中心提供实时流式处理,以及通过 Azure Databricks 工程工作区进行批处理和流式处理。 |
| Azure Databricks | 可选 | 可以部署 Azure Databricks,以便与数据无关引入引擎一起使用。 |
共享应用程序
如果需要让一组共享服务可供所有团队在此数据登陆区域中构建数据应用程序,请使用此可选资源组。 用例包括:
- 一个 Azure Databricks 工作区,用作在同一数据登陆区域或区域中创建的所有其他 Databricks 工作区的共享元存储。
注释
Azure Databricks 使用 Unity 目录控制跨 Databricks 工作区元存储的访问和可见性。 Unity Catalog 在租户级别启用,但元存储与 Azure 区域保持一致。 此设置意味着给定 Azure 区域中所有已启用 Unity 目录的 Databricks 工作区都必须注册到同一元存储。 有关详细信息,请参阅 Unity Catalog 最佳做法。
若要集成 Azure Databricks,请遵循云规模分析最佳做法。 有关详细信息,请参阅从 Azure Databricks 安全访问 Azure Data Lake Gen2和Azure Databricks 最佳做法。
数据应用程序
每个数据登陆区域可以有多个数据应用程序。 可以通过从各种源引入数据来创建这些应用程序。 还可以从同一数据登陆区域或其他数据登陆区域中的其他数据应用程序创建数据应用程序。 数据应用程序的创建受数据专员批准的约束。
数据应用程序资源组
数据应用资源组包括构建数据应用所需的所有必需服务。 例如,MySQL 需要使用 Azure 数据库,该数据库由可视化工具使用。 在数据进入 MySQL 数据库之前,必须引入和转换数据。 在这种情况下,可以将 Azure Database for MySQL 和 Azure 数据工厂部署到数据应用程序资源组。
小窍门
如果你决定不实施一个用于统一接收操作源数据的数据无关引擎,或者现有的数据无关引擎不支持某些复杂连接,那么你应开发一个与源对齐的数据应用程序。
报告和可视化
可以在 Fabric 工作区中使用可视化和报告工具,这些工具类似于 Power BI 工作区。 使用此功能,可以避免在数据登陆区域中部署唯一资源。 可以包括一个资源组来部署 Fabric 容量、用于数据网关的 VM 或其他必要的数据服务,以便向用户传送数据应用程序。
