你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 上的大型机文件复制和同步

Azure 数据工厂
Azure Data Lake
Azure SQL 数据库
Azure 存储
Azure 虚拟机

解决方案构想

本文介绍了一种解决方案构想。 云架构师可以通过本指南来帮助可视化此体系结构的典型实现的主要组件。 以本文为起点,设计一个符合工作负荷特定要求的架构合理的解决方案。

将本地大型机或中型应用程序迁移到 Azure 时,数据传输是一个关键考虑因素。 多种现代化方案要求快速将文件复制到 Azure,或在本地文件和 Azure 文件之间保持同步。

本文介绍了将文件传输到 Azure、转换和转换文件数据以及在本地和 Azure 中存储数据的几种方法。

体系结构

此图显示了将本地文件迁移到 Azure 的三个步骤:数据传输、转换和转换,以及存储在持久性存储中。

下载此体系结构的 Visio 文件

数据流

以下数据流对应于体系结构关系图:

  1. 将文件传输到 Azure:

    • 将本地文件传输到 Azure 的最简单方法是使用文件传输协议(FTP)。 可以在 Azure 虚拟机 (VM) 上托管 FTP 服务器。 简单的 FTP 作业控制语言 (JCL) 以二进制格式将文件发送到 Azure,这对于保留大型机计算、中型计算和二进制数据类型至关重要。 可以将传输的文件存储在本地磁盘、Azure VM 文件存储或 Azure Blob 存储中。

    • 还可使用 AzCopy 等工具将本地文件上传到 Blob 存储。

    • Azure 数据工厂 FTP 或安全文件传输协议 (SFTP) 连接器可用于将数据从大型机系统传输到 Blob 存储。 此方法需要安装自承载集成运行时的中间 VM。

    • 还可以在 Azure 市场中 查找非Microsoft工具,以将文件从大型机传输到 Azure。

  2. 协调和转换数据:

    • Azure 无法读取 Azure VM 磁盘或 Blob 存储中的 IBM 广义二进制编码的十进制交换码 (EBCDIC) 代码页文件。 为了使这些文件与 Azure 字符集兼容,Host Integration Server (HIS) 将文件从 EBCDIC 转换为 American Standard Code for Information Interchange (ASCII) 格式。

      Copybook 定义 COBOL、PL/I 和汇编语言文件的数据结构。 HIS 根据 copybook 布局将这些文件转换为 ASCII。

    • 可以使用适用于 IBM 主机文件的 Azure 逻辑应用连接器来实现大型机文件数据转换。

    • 将数据传输到 Azure 数据存储之前,可能需要转换数据或使用这些数据进行分析。 Azure 数据工厂可以管理这些提取-转换加载(ETL)和提取-加载转换(ELT)活动,并将数据直接存储在 Azure Data Lake Storage 中。 或者,可以使用 Fabric 数据工厂和 OneLake 存储。

    • 对于大数据集成,Azure Databricks 以及 Microsoft Fabric 可以使用 Apache Spark 引擎进行内存中计算,快速有效地执行所有转换活动。

  3. 存储数据:

    你可根据要求将传输的数据存储在几种可用的持久 Azure 存储模式之一中。

    • 如果不需要分析,Azure 数据工厂可以直接将数据存储在各种存储选项中,例如 Data Lake Storage、Blob 存储和 Microsoft Fabric OneLake。

    • Azure 托管满足不同需求的各种数据库

      • 关系数据库包括 SQL Server 系列和开源数据库,如 PostgreSQL 和 MySQL。

      • 非关系数据库包括 Azure Cosmos DB,这是一个快速、多模型、全球分布式 NoSQL 数据库。

    查看分析和商业智能。 Microsoft Fabric 是一种一体的分析解决方案,涵盖从数据移动到数据科学、实时分析和商业智能的所有内容。 它提供一套服务,包括 Data Lake、数据工程和数据集成,全部放在一个位置。

组件

此体系结构使用以下组件。

网络

本地数据网关是将本地数据源连接到云服务的网桥软件。 在此体系结构中,它支持大型机系统和 Azure 服务之间的通信,以便进行文件传输和集成。 可以将网关安装在专用的本地 VM 上

数据集成和转换

此体系结构概述了可以根据大型机源数据和目标数据库使用的各种 Azure 本机迁移工具。

  • 主机文件的数据提供程序HIS 的一个组件,可将 EBCDIC 代码页文件转换为 ASCII。 提供程序可以在本地二进制文件中脱机读取和写入记录。 或者,它可以使用系统网络体系结构(SNA)或传输控制协议/Internet 协议(TCP/IP)读取和写入远程 IBM z/OS 大型机数据集或 i5/OS 物理文件中的记录。 HIS 连接器适用于 BizTalk逻辑应用。 在此体系结构中,用于主机文件的数据提供程序支持 IBM z/OS 和 i5/OS 数据集的文件级访问和转换,以便迁移到 Azure。

  • Azure 数据工厂 是一种混合数据集成服务,可用于创建、计划和协调 ETL 和 ELT 工作流。 在此体系结构中,Azure 数据工厂通过 FTP 将大型机文件传输到 Blob 存储,并管理转换管道。

  • Azure Databricks 是针对 Azure 优化的基于 Apache Spark 的分析平台。 在此体系结构中,它将扩充和关联传入的大型机数据与其他数据集,以便进行高级分析和转换。

  • Microsoft Fabric 是一个智能数据平台,包含适用于每个数据生命周期阶段的一套云服务和工具,包括引入、准备、存储、分析和可视化。 在此体系结构中,Fabric 使组织能够研究数据移动、试验数据科学,以及对转换后的大型机数据执行实时分析和商业智能。

  • 逻辑应用 是一种基于云的服务,可用于自动执行工作流,并跨不同环境集成应用程序、数据和服务。 在此体系结构中,它使用 IBM 主机文件连接器与大型机系统交互,并自动执行文件分析和转换。

数据库

此体系结构概述了将大型机文件数据迁移到 Azure 中的云存储和托管数据库的过程。 它包括转换大型机文件元数据以匹配 Azure 中的目标架构。

  • Azure SQL 数据库是一项可缩放的关系云数据库服务。 SQL 数据库是常青的,始终 up-to日期,具有 AI 支持的自动化功能,可优化性能和持久性。 无服务器计算和超大规模存储选项可按需自动缩放资源。 在此体系结构中,SQL 数据库存储转换后的大型机数据并支持高可用性。 它还支持通过 Azure 混合权益 实现成本效益,因为可以在云上使用现有的本地 SQL Server 许可证,无需额外费用。

  • Azure SQL 托管实例 是一种平台即服务(PaaS),提供与托管基础结构的完整 SQL Server 兼容性。 在此体系结构中,它通过托管迁移的大型机数据来现代化旧版应用程序,且代码更改最少。

  • Azure 虚拟机上的 SQL Server 是一种基础结构即服务(IaaS)解决方案,可将 SQL Server 工作负载提升并转移到 Azure,将 Azure 的灵活性和混合连接与 SQL Server 性能、安全性和分析相结合。 在此体系结构中,它提供对托管大型机派生数据的 SQL Server 配置的控制。

  • Azure Database for PostgreSQL 是托管的开源关系数据库服务。 在此体系结构中,它充当需要 PostgreSQL 兼容性的已迁移大型机数据的目标。

  • Azure Database for MySQL 是托管的 MySQL 数据库服务。 在此体系结构中,它支持需要基于 MySQL 的存储的工作负荷来获取转换后的大型机数据。

  • Azure Cosmos DB 是一种全球分布式 NoSQL 数据库服务,其中包括多模型支持。 在此体系结构中,它存储基于转换后的大型机数据构建的高性能可缩放应用程序。

其他数据存储

  • Blob 存储 是一种基于云的对象存储解决方案,用于存储大量非结构化数据,例如文本或二进制数据。 可以通过 HTTP 或 HTTPS 从任意位置访问此数据。 可以使用 Blob 存储公开数据,或者私下存储应用程序数据。 在此体系结构中,它将存储从大型机系统传输的二进制文件和文本文件,并用作转换的过渡区域。

  • Data Lake Storage 是一个存储库,可以按原生的原始格式存储大量的数据。 Data Lake Storage 可为具有 TB 和 PB 级数据的大数据分析工作负载提供扩展功能。 数据通常来自多个异类源,并且可以结构化、半结构化或非结构化。 在此体系结构中,它以本机格式存储原始大型机数据,以供分析服务处理。

  • Microsoft Fabric 中的 OneLake 是一个统一的逻辑数据湖。 在此体系结构中,它充当构造数据工厂管道的存储目标。 它提供了一个集中位置,用于存储转换后的大型机数据以用于分析和商业智能工作负载。

方案详细信息

将大型机文件从 EBCDIC 编码的格式转换为 ASCII 格式是将数据从大型机系统迁移到 Azure 云存储和数据库所必需的。 大型机应用程序每天生成和处理大量数据。 必须准确转换此数据才能在其他平台上使用。

当组织转换大型机文件系统数据时,应将文件元数据转换为云原生示意图。 并制定包含有效文件转换技术的迁移策略。

可能的用例

本地文件复制和同步对于各种用例至关重要:

  • 下游或上游依赖项,例如,在大型机上运行的应用程序和在 Azure 上运行的应用程序需要通过文件交换数据

  • 使用本地应用程序并行测试 Azure 上重新托管或重新设计的应用程序

  • 无法立即修正或现代化系统上紧密耦合的本地应用程序

作者

Microsoft维护本文。 以下参与者撰写了本文。

主要作者:

其他参与者:

若要查看非公开的LinkedIn个人资料,请登录LinkedIn。

后续步骤