Azure 本地虚拟机复原能力

在查看和实施平台级别的 基础结构复原 设计注意事项后,必须了解虚拟机(VM)和应用程序如何能够复原故障,以便能够在可接受的时间段内检测、承受和从故障中恢复故障,这是维护业务关键型应用程序持续作的基础。

默认情况下,部署在 Azure 本地的所有虚拟机都高度可用,确保在群集中的任何节点发生故障时,受影响的 VM 将自动重启并继续在剩余节点上运行。 但是,即使这些可靠的容错和复原措施到位,这一点也是不够的。

为了避免无法单独通过本地冗余解决的服务中断或数据丢失,请务必考虑将全面的备份策略与连续数据复制技术相结合。 备份策略可防范数据损坏、意外或恶意数据删除和灾难性事件,从而在必要时将数据还原到以前的状态。 同时,复制功能在多个 Azure 本地实例群集和/或 Azure 之间提供虚拟机数据的同步副本,确保在发生硬件或系统故障时实现最短停机时间和快速故障转移。 它们共同创建了一个可靠的安全网,可保护数据,并在意外中断期间保持运营和业务连续性。

备份工具

Microsoft Azure 备份服务器

Microsoft Azure 备份服务器 (MABS),System Center Data Protection Manager 的演变是一种Microsoft备份解决方案,可用于有效保护 Azure 本地 VM。 MABS 提供混合备份方法,在本地磁盘存储上提供短期保留,以实现快速操作恢复,并通过与 Azure 备份服务集成实现长期保留,允许将备份异地存储到 Azure 恢复服务保管库。

如果使用 MABS,可通过两种方法来保护 VM: 主机级 VM 备份来宾级 VM 备份

  • 主机级 VM 备份:在每个 Azure 本地主机(每个群集节点)上安装备份代理,并在虚拟机监控程序级别备份整个 VM。 这会捕获整个 VM(所有虚拟磁盘)。 它的优点是不需要每个 VM 中的代理,并且与来宾 OS 无关。 主机级备份允许完整 VM 还原,可以在其中将整个 VM 恢复到相同或不同的群集。 但是,主机级备份无法识别应用程序。 例如,该系统不会截断 SQL 日志,也不会保证除卷影复制服务(VSS)之外的应用程序一致性恢复。

    注释

    • 在不同群集上还原 Azure 本地 VM 会将该 VM 还原为非托管 VM。 这意味着,VM 中的所有服务都将开始工作,但在新 Azure 本地群集上注册 VM 并重新连接到 Azure 中存在的资源之前,该 VM 将无法从 Azure 进行管理。
    • 重新连接意味着 Azure 资源将使用新的资源组进行更新(可选,也可以将其保留在同一资源组)、自定义位置、存储路径和 VM 的逻辑网络。
    • 如果 VM 在同一群集上就地还原,则不需要注册和重新连接。 VM 的 Azure 连接将还原,只要它位于 Azure Arc 的 45 天重新连接窗口中,它就会继续从 Azure 进行管理。
  • 来宾级 VM 备份:在 VM 的来宾 OS 中安装备份代理。 这样,就可以对作系统中运行的 VSS 感知应用程序进行应用程序一致性备份,确保以一致状态捕获应用程序数据。 例如,可以使用完全保真度备份 SQL 数据库,并轻松还原单个项,例如单一数据库或特定文件。 权衡是可管理性:必须在每个 VM 上管理代理,而备份仅涵盖 VM 内部的内容,若要还原整个 VM,通常会重新生成它,然后在其中还原数据。

  • 同时使用这两种备份方法:许多组织对需要时间点或项级恢复的关键应用程序采用来宾级备份,例如还原单个数据库或文件而不回滚整个 VM;同时,使用主机级备份以便快速恢复整个 VM或从主机故障中恢复。

设置 MABS 涉及在群集上的专用 VM 上部署 MABS 服务器软件、配置其本地存储、在 Azure 本地主机和/或来宾上安装保护代理,然后使用要保护的 VM 创建保护组。 保护组定义备份的内容(例如,特定的 VM)、本地磁盘或 Azure 上的备份计划、短期和长期保留策略。 有关为 Azure 本地 VM 安装 MABS 的详细信息,请参阅 使用 Azure 备份服务器备份 Azure 本地虚拟机

Attribute 主机级 VM 备份 客户机级 VM 备份
需要客户机操作系统中的代理 是的
所有群集节点都需要安装代理 是的
与来宾 OS 无关 是的
应用感知 是的
备份 整个虚拟机 (VM) 和磁盘 应用程序和文件(能够识别 VSS 的应用程序一致性备份)
Restore 整个 VM 应用数据和单个文件
将虚拟机还原到同一群集 是的 不適用
将 VM 还原到备用群集 是的 不適用

合作伙伴备份解决方案

除了 MABS 之外,合作伙伴备份和恢复供应商的成熟市场为 Azure 本地环境提供了可靠的解决方案。 这些解决方案通常提供一组丰富的高级功能、更广泛的平台支持,以及根据特定组织要求可能有吸引力的不同许可或成本模型。

Commvault

Commvault Cloud 为 Azure 本地环境提供统一的企业级数据保护,支持跨虚拟机、数据库和非结构化数据的安全备份、恢复和勒索软件保护。 借助智能自动化和策略驱动的工作流,Commvault 简化了合规性,提高了复原能力,并提供了从边缘到云的可缩放保护,同时保持对 Azure 本地区域中数据的完全控制。

有关详细信息,请访问官方 Commvault 文档站点,获取有关适用于 Azure 本地的 Commvault 的指导。

Rubrik

Rubrik Security Cloud 为 Azure 本地环境中部署的虚拟机提供全面的数据保护和安全性。 Rubrik 执行第一个完整且永远的增量备份集,确保使用不可变、空封和访问控制的副本进行数据保护。 通过统一的 SaaS 控制平面,组织可以从其 Azure 本地环境管理数据,从而提供关键数据资产的单一视图。 此集成还支持持续威胁监视、威胁搜寻、异常情况检测,并有助于快速网络恢复,从而在攻击后快速将 VM 和应用程序还原到干净状态。

Veeam

Veeam 备份和复制支持备份和复制 Azure 本地 VM。 使用 Veeam 备份和复制,可以将工作负荷从不同平台或从 Hyper-V 迁移到 Azure 本地。 可以使用即时 VM 恢复执行跨平台还原。 还可以将较旧版本的 Hyper-V 工作负荷复制到 Azure 本地。

CloudCasa by Catalogic

CloudCasa 为 Azure 本地群集和 Arc 启用群集上的 AKS 提供 Kubernetes 原生备份、灾难恢复和迁移。 它可以保护集群资源和持久卷,并能够执行细粒度的还原,包括文件级恢复。 备份可以存储在 Azure Blob 存储、其他对象存储或 NFS 中。 CloudCasa 支持将数据还原到同一站点、辅助 Azure 本地群集或进行 Azure AKS 灾难恢复。

备份频率、保留和还原测试

即使拥有硬件故障容错和Storage Spaces Direct保持多个数据副本,实施和定期测试数据备份流程仍然至关重要。 存储冗余可防止基础结构故障,但不会防止数据损坏、删除或站点范围的灾难。 定期备份可确保根据需要将数据或整个 VM 还原到以前的时间点。

  • 备份频率和保留期:确保备份频率与恢复点目标(RPO)保持一致,该目标定义了组织可接受的最大数据丢失量。 根据虚拟机对业务的重要性,使用增量备份计划每天的夜间备份或多个备份(如有必要)。 此外,实施符合业务和符合性要求的保留策略(例如,将每日备份保留两周,每月备份六个月,每年备份七年)。 Azure 备份可通过 Microsoft Azure 备份服务器(MABS)促进短期本地保留和长期基于云的保留。

  • 测试还原:备份的重要性在于您是否能够成功还原,因此请务必定期测试从备份中还原 VM 和数据。 定期对隔离网络或实验室群集执行完整的 VM 恢复测试,以确保该过程平稳且及时。 这种做法是灾难恢复策略的一部分,用于保证备份在实际紧急情况下发挥作用。

业务关键型 VM 的连续复制

虽然备份可以保护数据并提供时间点恢复,但它们没有即时故障转移功能;从备份中恢复可能非常耗时,通常需要几个小时。 对于业务或任务关键型 VM,即便是最短的停机时间或数据丢失也不可接受,连续复制技术提供了一种机制,用于在第二位置保持 VM 的最新副本,以便在发生灾难时实现快速故障转移和最小数据丢失。 Azure 本地支持的两种连续复制技术是 Azure Site Recovery 和 Hyper-V 副本。

使用 Azure Site Recovery 将 Azure 本地 VM 复制到 Azure

Azure Site Recovery 是Microsoft基于云的灾难恢复解决方案,旨在将本地 VM 复制到 Azure。 Azure Site Recovery 有助于将 Azure 本地 VM 复制到 Azure,确保保护业务关键型工作负荷。 此服务持续将更改从本地 VM 传输到 Azure。 因此,如果本地站点或群集发生重大故障,可以将虚拟机自动迁移到 Azure,以确保运营的持续性。

有关 Azure Local 的 Azure Site Recovery 的要点:

  • 部署:

    • 自动部署:Azure 本地为 Azure Site Recovery 创建了用于自动部署的扩展。 Azure Site Recovery 扩展可以检测群集的所有节点,并在所有节点上自动部署 Azure Site Recovery,并使用复制策略对其进行配置。 有关详细信息,请参阅 使用 Azure Site Recovery 保护 VM 工作负荷
    • 手动部署:Azure Local 的 Azure Site Recovery 扩展为预览版,仅适用于测试环境,对于需要生产就绪解决方案的客户,可以使用 Hyper-V Azure 灾难恢复 选项在 Azure 本地群集上手动配置 Azure Site Recovery。
  • 频繁复制:Azure Site Recovery 可以实现 30 秒以下的恢复点目标(RPO)。

  • 故障转移

    • 完成复制后,可以在 Azure 中启动故障转移。 这实质上是使用复制的数据在 Azure 中启动 VM。 可以使用“测试故障转移”进行测试,它会在 Azure 上的隔离网络中创建一个副本,从而便于进行验证,无需关闭本地 VM。
    • 在实际灾难期间,如果主站点意外关闭,即使源 VM 未运行,也会执行计划外故障转移。
    • 对于硬件维护或更换等场景,可以启动计划的故障转移。 这会优雅关闭 VM,以便它可以将其内存提交到磁盘,以确保无数据丢失。
    • 故障转移后,虚拟机在 Azure 中运行。
  • 故障回复

    • 当灾难得到缓解,群集恢复正常运行时,Azure Site Recovery 可以扭转复制方向,将在使用 Azure 期间所作的任何更改复制回 Azure 本地群集。 反向复制后,可以将 VM 回切,以便将操作切换回本地。
    • 若要成功进行故障回复,本地现场环境必须正常。 如果您的群集不可用,可以将另一个 Azure 本地群集注册到 Azure Site Recovery Hyper-V 站点,然后将 VM 故障恢复到备用群集上的某个节点。

    注释

    • 在备用群集上将 Azure 本地虚拟机进行故障回复时,虚拟机会作为未托管的虚拟机进行故障回复。 这意味着,VM 中的所有服务都将开始工作,但在新 Azure 本地群集上注册 VM 并重新连接到 Azure 中存在的资源之前,该 VM 将无法从 Azure 进行管理。
    • 重新连接意味着 Azure 资源将使用新的资源组进行更新(可选,也可以将其保留在同一资源组)、自定义位置、存储路径和 VM 的逻辑网络。
    • 如果 VM 在同一群集上发生故障恢复,则无需注册和重新连接。 VM 的 Azure 连接将还原,只要它位于 Azure Arc 的 45 天重新连接窗口中,它就会继续从 Azure 进行管理。

有关详细信息和安装 Azure Site Recovery,请参阅使用 Azure 本地 Azure Site Recovery 保护 VM 工作负荷(预览版)。

使用 Hyper-V 副本进行业务关键虚拟机的连续复制

Hyper-V 副本是 Azure Local 中内置的一项功能,用于在两个 Hyper-V 主机或故障转移群集之间异步复制 VM。 此技术可用于在两个单独的 Azure 本地群集之间复制 VM,从而提供本地灾难恢复解决方案。

为 VM 启用 Hyper-V 副本时,会在指定的副本服务器或群集上创建 VM 的初始副本(包括其配置和 VHD)。 随后,将跟踪对主 VM 所做的更改并将其写入日志文件。 然后,这些日志将传输到副本站点,并异步应用到副本 VM。

有关将 Hyper-V 副本与 Azure 本地配合使用的要点:

  • 部署:

    • 手动部署:无法通过 Azure 门户配置 Hyper-V 副本;必须在 Azure 本地节点上使用 PowerShell 配置它。 或者,管理员可以从同一网络中的任何 Windows Server 计算机远程访问 Azure 本地群集,并通过故障转移群集管理器用户界面完成设置。 需要适当的权限才能连接到和管理这两个 Azure 本地群集。

    • 配置:配置涉及使 Azure 本地群集能够充当副本服务器、设置身份验证方法(通常是域中的 Kerberos 或基于证书的非域加入或跨域方案),配置防火墙规则以允许复制流量,然后基于每个 VM 启用复制。 虚拟机设置包括指定要复制的副本服务器或群集、选择要复制的 VHD、选择复制频率,以及定义在副本端维护的恢复点(时间快照)数量。 Hyper-V 副本支持计划内和计划外方案的复制、测试故障转移、故障转移、反向复制和故障回复。

  • 复制频率:每 30 秒、5 分钟或 15 分钟配置一次复制频率。

  • 故障转移

    • 复制完成后,可以启动至副本服务器的故障转移。 这实质上是使用复制的数据在副本服务器上启动 VM。 可以使用测试故障转移对其进行测试,该故障转移将在隔离的网络上创建一个用于检查的 VM,而无需关闭正在进行复制的虚拟机。

    • 在实际灾难期间,如果主站点意外关闭,即使复制的 VM 未运行,也可以执行计划外故障转移。

    • 对于硬件维护或更换等情况,可以启动计划故障转移。 此过程以优雅方式关闭复制的 VM,确保其内存已写入磁盘,从而防止任何数据丢失。

    • 故障转移后,您的虚拟机在副本服务器上运行。

    注释

    • 将 Azure 本地 VM 故障转移到副本群集时,该 VM 会作为非托管 VM 进行故障转移。 这意味着,VM 中的所有服务都将开始工作,但在新 Azure 本地群集上注册 VM 并重新连接到 Azure 中存在的资源之前,该 VM 将无法从 Azure 进行管理。
    • 重新连接意味着 Azure 资源将使用新的资源组进行更新(可选,也可以将其保留在同一资源组)、自定义位置、存储路径和 VM 的逻辑网络。
    • 如果故障转移是临时的,则可能不需要注册和重新建立连接,并且一旦灾难得到缓解,预计 VM 应故障切回到原始群集。 在此期间,VM 无法从 Azure 进行管理,但其服务将正常运行。
  • 故障回复

    • 灾难缓解且群集恢复运行后,Hyper-V 副本可以逆转复制方向,将在副本服务器上运行期间进行的任何更改复制回原始 Azure 本地群集。
    • 反向复制后,可以故障回复 VM,使 VM 能够切换回其原始群集。

    注释

    当虚拟机恢复到其原始群集后,无需注册和重新连接。 VM 的 Azure 连接将还原,只要它位于 Azure Arc 的 45 天重新连接窗口中,它就会继续从 Azure 进行管理。

有关详细信息,请参阅 “设置 Hyper-V 副本”中的部署步骤。

功能性

为 VM 启用 Hyper-V 副本时,会在指定的副本服务器或群集上创建 VM 的初始副本(包括其配置和 VHD)。 随后,将跟踪对主 VM 所做的更改并将其写入日志文件。 然后,这些日志将传输到副本站点,并根据可配置的复制频率(例如,每 30 秒、5 分钟或 15 分钟)异步应用到副本 VM。

配置涉及允许 Azure 本地群集充当副本服务器、设置身份验证方法(通常是域中的 Kerberos 或基于证书的非域加入或跨域方案),配置防火墙规则以允许复制流量,然后基于每个 VM 启用复制。 虚拟机设置包括指定要复制的副本服务器或群集、选择要复制的 VHD、选择复制频率,以及定义在副本端维护的恢复点(时间快照)数量。 Hyper-V 副本支持计划内和计划外方案的复制、测试故障转移、故障转移、反向复制和故障回复。

注释

对于 Azure 本地群集到群集复制,必须在每个群集上配置 Hyper-V 副本代理角色。 此代理协调复制,并提供用于接收 VM 更改的群集范围的终结点。

配置

Hyper-V 副本需要通过 PowerShell 在 Azure 本地节点上进行配置,或者可以通过同一网络中任何 Windows Server 机器上的故障转移群集管理器用户界面进行远程设置(与 Azure 本地实例在同一网络)。 它需要适当的权限才能连接和管理两台 Azure 本地计算机。 无法从 Azure 门户配置 Hyper-V 副本。

有关详细信息,请参阅 “设置 Hyper-V 副本”中的部署步骤。

网络和性能注意事项

在复制过程中,你使用的硬件和网络会影响依赖它们的服务。 此过程使用大量的系统资源,具体取决于源系统和目标系统之间复制的数据量。 在此过程完成之前,设备性能会受到影响。 两个 Azure 本地群集之间需要足够的网络带宽,以便 Hyper-V 副本以最佳方式运行,尤其是复制间隔较低的(例如,30 秒)。 同样,目标群集需要足够的存储 IOPS 来跟上传入的复制流量。 有关详细信息,请参阅 Hyper-V 副本(HVR)的功能和性能优化

比较 Azure Site Recovery 和 Hyper-V 复制

在 Azure Site Recovery 和 Azure 本地 VM 的 Hyper-V 副本之间进行选择时,请查看这两种解决方案之间的差异:

Attribute Azure Site Recovery Hyper-V 副本
复制的目标位置 Azure 本地到 Azure Azure 本地到 Azure 本地
故障切换后运行的虚拟机 Azure VM Azure 本地虚拟机
部署 在所有节点上自动启动,从 Azure 门户启动,并使用 Azure Site Recovery 扩展。 在每个节点上手动配置,通过本地工具(如 Hyper-V 管理器)进行带外操作。
需要 Azure 控制平面 是的
为故障转移序列的编排提供恢复计划 是的
需要对故障转移的 VM 进行网络评估以继续提供服务 是的 是的
产生 Azure 使用成本 是的。 请参阅 定价 - Site Recovery
如果 VM 在灾难得到控制后回归到其原始站点,则需要注册。 否(虚拟机可以暂时切换到灾难恢复站点,并在灾难缓解后切回到其原始站点)
如果故障切换的虚拟机需要永久驻留在容灾站点,则需要注册。 否(Azure VM 不需要注册) 是的

使用 Azure Site Recovery 和 Hyper-V 副本:具有具有单个群集的远程站点和具有多个群集的大型中心的组织可以将 Azure 扩展为灾难恢复站点,将 Azure Site Recovery 用于远程站点,并为更大的位置使用 Hyper-V 副本。 这允许某些 VM 复制到 Azure,而另一些 VM 则复制到辅助站点,确保针对各种作需求灵活地定制灾难恢复策略。

恢复计划和测试

必须制定恢复计划,以便在其中记录故障转移工作负载所需的所有步骤,包括顺序(例如,应在应用程序服务器之前激活域控制器),以及任何必要的网络调整(例如 DNS 更新和用户重定向)。 Hyper-V 副本支持创建恢复计划,以便对 VM 组进行排序,并在故障转移过程中集成脚本。 可以通过 PowerShell 手动或编写这些计划脚本。

请务必通过模拟演练定期测试灾难恢复计划。 建议每月至少进行一次故障转移测试,以确保系统功能正常,并保持员工熟练度。 此外,测试还会显示 RTO 是否满足,例如在 Azure 或辅助硬件中初始化所需的时间。

后续步骤