你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文介绍社区培训中的可靠性支持。 它涵盖了 可用性区域 的区域复原以及灾难恢复和业务连续性。 有关 Azure 中可靠性原则的更详细概述,请参阅 Azure 可靠性。
Microsoft社区培训是一种基于 Azure 的基于云的解决方案,可通过跨配对区域使用区域冗余部署来提供具有高质量和效率的大型广泛培训计划。 借助社区培训,所有大小和类型的组织都可以为其内部和外部社区运行大规模培训计划,并提供控制和数据平面可用性区域支持。 社区可能包括一线工作人员、外聘工作人员、合作伙伴生态系统、志愿者网络和计划受益者。
可用性区域支持
可用性区域 是每个 Azure 区域内物理上独立的数据中心群组。 当一个区域发生故障时,服务可以故障转移到其他区域。
社区培训使用 Azure 可用性区域在 Azure 区域中提供高可用性和容错能力。 社区培训提供控制平面和数据平面可用性区域支持:
控制平面在主要可用性区域中是区域冗余的。
数据平面可以是区域性的,也可以是区域冗余的,具体取决于根据需要选择哪一种。 但是,强烈建议选择区域冗余部署,以避免数据丢失,并在区域服务中断期间保持服务可用性。
先决条件
以下社区培训 SKU 支持可用性区域:
- 标准(用户规模较小)
- 高级(用户规模大)
社区培训仅在配对区域中受支持。 每个次要区域都部署了区域性配置。 下表显示了支持社区培训可用性区域的所有区域及其配对区域。
| 主要区域 | 配对区域 |
|---|---|
| UKSouth | UKWest |
| 澳大利亚东部 | 澳大利亚东南部 |
| EastUS | WestUS |
| EastUS2 | CentralUS |
| NorthEurope | 西欧 |
| WestUS3 | EastUS |
| 瑞典中心 | 瑞典南部 |
区域故障转移支持
社区培训使用许多依赖项 Azure 服务,例如应用服务和 Azure SQL。 选择区域冗余部署时,社区培训还会创建这些基础 Azure 服务资源的区域性冗余产品/服务。 如果一个区域出现故障,所有资源(包括依赖项资源)都会故障转移到正常的区域之一。
创建启用了可用性区域的资源
社区培训仅在创建实例时提供可用性区域配置。 如果要在创建实例后更改可用性区域配置,则需要创建新实例。
区域故障体验
区域式。 在区域范围的服务中断期间,社区培训可能会发生全部或部分服务中断。 可用的程度取决于多种因素,例如整个数据中心是否关闭,或者特定依赖项服务是否不再在该区域中可用。
区域冗余。 在区域范围的服务中断期间,不会对预配的资源产生任何影响。 但是,你应该做好与这些资源的通信短暂中断的准备。 在区域关闭的情况下,客户端通常会收到 409 错误代码,同时重试逻辑尝试按适当的间隔重新建立连接。 新请求将定向到正常节点,对用户没有任何影响。 在区域范围的中断期间,用户能够创建新资源并成功缩放现有资源。
灾难恢复和业务连续性
灾难恢复(DR)是指组织用来从高影响事件(例如自然灾害或导致停机和数据丢失的部署)中恢复的做法。 不管灾难的原因是什么,最好的补救措施就是一个定义全面且经过测试的 DR 计划,以及一个主动支持 DR 的应用程序设计。 在开始创建灾难恢复计划之前,请参阅 有关设计灾难恢复策略的建议。
对于灾难恢复,Microsoft使用共同责任模型。 在此模型中,Microsoft确保基线基础结构和平台服务可用。 但是,许多 Azure 服务不会自动复制数据,也不会从失败的区域回退到另一个已启用的区域。 对于这些服务,你负责设置适用于工作负载的灾难恢复计划。 在 Azure 平台即服务 (PaaS) 产品/服务上运行的大多数服务都提供支持 DR 的功能和指南。 可以使用服务特定的功能来支持快速恢复,从而帮助制定灾难恢复计划。
Microsoft 社区培训团队管理社区培训的整个灾难恢复过程。 灾难恢复既不是主动-主动,也不是主动-被动,而是从 Azure 服务的最新可用备份进行恢复。 社区培训团队从数据备份手动在配对区域中创建所有资源。
注意
社区培训灾难恢复仅在配对区域中受支持。
多区域地理位置中的灾难恢复
在区域性灾难中,控制平面手动将故障转移到配对区域。 在发生故障转移之前,部分服务会出现降级。 故障转移后,将支持只读操作,直到灾难区域重新联机。 在重新联机后,服务将手动故障回复到原始区域,所有操作都将恢复。 恢复点目标 (RPO) 预计为 10 分钟;恢复时间目标 (RTO) 为 24 小时。
对于数据平面,社区培训提供 Microsoft 托管灾难恢复。 若要使用托管灾难恢复,需要在 Azure 中创建社区培训实例期间启用灾难恢复。 启用灾难恢复后,Microsoft 会将存储和数据库的备份保留在配对区域中。 恢复点目标 (RPO) 预计为 12 小时;恢复时间目标 (RTO) 为 48 小时。
注意
RTO 取决于数据库和存储大小,以及配对区域之间的延迟。 数据库或存储 VM 容量 (SKU)。 RPO 取决于基础 Azure 资源,例如 Azure SQL 和 Azure 存储。 有关 RTO 和 RPO 的详细信息,请参阅什么是业务连续性、高可用性和灾难恢复?。
服务中断检测、通知和管理
当社区培训健康状况检查检测到任何区域的任何服务中断时,Microsoft 会请求你同意故障转移到配对区域。 Microsoft 会通知你在灾难恢复过程中哪些功能可用。 Microsoft 收到你的同意后,社区培训团队即可启动灾难恢复过程。
重要说明
在主要区域正常运行之前,学习者将无法使用音频/视频功能。 建议在主站点正常运行之前避免媒体上传操作。
容量和主动灾难恢复复原能力
Microsoft 及其客户按共担责任模型运营。 在任何区域关闭后,不仅社区培训实例已迁移到配对区域,而且所有产品和客户工作负载也会迁移到配对区域。 此过程可能会导致配对区域或数据中心中的资源短缺。 因此,灾难恢复可用性取决于基础 Azure 资源的可用容量。