你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

准备您的 Azure 云操作

管理 Azure 环境不仅仅是保持灯亮。 它涉及维护治理和安全性,同时确保云在一段时间内保持与业务目标保持一致。 随着环境的增长,你需要防止配置偏移,通过基础结构即代码改进部署,并有效地管理更改。

云采用框架(CAF)管理方法引入了 RAMP 方法(就绪、管理、监视、保护),以帮助你构建这些功能。 RAMP 提供了一种结构化的方式,用于组织团队、定义职责,并实施流程和工具,使 Azure作安全、合规且具有复原能力。 从日常管理到监视运行状况并防止中断,RAMP 可帮助你为长期成功建立强大的运营基础。

显示了 CAF 管理过程的关系图:准备、管理、监视和保护(RAMP)。

确定管理职责

有效的 Azure 管理跨两层责任: 中心(平台) 职责和 工作负荷 责任。 中央责任适用于整个云环境。 工作负荷职责侧重于单个应用程序或服务。 使用 表 1 确保作模型涵盖云管理的基本领域

表 1. 主要云管理责任

云管理区域 中央(平台)职责 工作负荷责任
Compliance ▪ 定义 作过程
▪ 强制实施 治理策略
根据需要监视合规性 并修正或升级。
▪ 遵循操作程序。
▪ 使设计与治理策略保持一致。
安全性 ▪ 管理组织范围内的 安全操作
▪ 在 Microsoft Entra ID 中管理标识。
▪ 授予 Azure 订阅的访问权限。
▪ 通过 Azure Policy 和 Microsoft Defender for Cloud 定义和维护安全基线。
▪ 监督威胁防护和事件响应与 Microsoft Sentinel 的集成。
▪ 实现 安全工作负载设计
▪ 响应特定于工作负荷的安全警报和事件。
▪ 持续评估工作负荷中的漏洞。
资源管理 ▪ 定义和维护 资源层次结构
▪ 按请求创建工作负荷订阅。
▪ 定义 命名和标记策略
▪ 定义 网络拓扑
▪ 配置共享网络(虚拟网络对等互连、本地连接)。
▪ 管理跨工作负荷或共享资源/服务。
▪ 监视订阅 限制 并处理配额增加请求。
▪ 如被委派,管理与工作负荷相关的订阅。
▪ 管理每个工作负荷的资源组和资源。
▪ 遵循并应用命名和标记标准。
▪ 管理应用程序级资源利用率,确保资源保留在订阅配额内。
部署 ▪ 标准化和管理 CI/CD 管道和工具 (Azure DevOps、GitHub Actions)。
▪ 定义引用基础结构即代码模板(Bicep、Terraform、ARM 模板)。
▪ 提供管道安全性(代码扫描、机密管理)的中心最佳做法。
▪ 将中央 CI/CD 框架和 IaC 模板用于 工作负荷部署
▪ 实现特定于工作负荷的部署任务(配置应用设置、数据库)。
▪ 在遵循中心准则的同时,根据工作负载需求调整参考模板。
开发 ▪ 提供并强制实施标准化开发工具链和框架,以加速一致性(编码标准、DevOps 最佳做法)。
▪ 维护共享库或模块的内部存储库或包源。
▪ 采用和调整标准工具链,以便进行 工作负载开发
▪ 拥有应用程序生命周期并纳入最佳做法(单元测试、集成测试)。
▪ 管理工作负荷代码库的持续改进。
监测 ▪ 规划 监视策略
▪ 关于集中责任的警报
▪ 提供整个环境中的常用操作指标的仪表板。
▪ 监视 工作负荷
▪ 扩展或微调中心警报以捕获特定于工作负荷的条件。
▪ 根据警报和日志调查和修正工作负荷级事件。
成本 ▪ 分配全局或订阅级云预算
▪ 监视组织范围的 云支出 并创建成本报表。
▪ 将成本分配给业务部门或产品,通常使用标记或自定义成本分配模型。
▪ 为成本分配应用标记策略。
成本优化 工作负荷设计
▪ 尊重预算约束。
Reliability ▪ 根据工作负荷优先级定义 可靠性要求 (SLO、RPO、RTO)。
▪ 提供有关业务连续性和灾难恢复(BCDR)的指导。
▪ 管理集中式 灾难恢复 解决方案。
▪ 支持跨所有工作负荷进行重大事件管理。
▪ 设计工作负载以满足 可靠性要求
Performance ▪ 监视和维护集中式组件(中心网络、共享服务)的性能。
▪ 提供性能优化和容量规划指南。
▪ 监视配额
▪ 设计工作负荷,提高 性能效率

建立云端操作

使用 表 1 中概述的职责来构建有效的运营基础。 按照以下步骤明确定义团队、标准和流程:

  1. 定义云作模型。 根据组织的规模和成熟度,选择集中式、共享管理或分散式云作模型。 有关指导,请参阅选择云操作模型

  2. 分配中心平台职责。 组建一个专门的团队来处理中心管理任务。 从 表 1 开发技能矩阵,以确定所需的专业知识。

  3. 分配工作负荷责任。 为特定于工作负荷的任务设置专用团队。 使用 表 1 确定责任,然后相应地招聘。 使用 Azure Well-Architected Framework。*** 使用 卓越运营 支柱来指导工作负荷管理职责。

  4. 分配责任。 为所有云管理责任命名特定所有者。 在共享管理模型中,工作负荷团队应具有管理其订阅的自主权。

记录云操作

清楚地记录云操作,以便有效应对危机和顺利实施变更。 建立总体过程,并创建常见和特定任务的详细指南。

记录操作程序

定义用于管理自动化无法处理的更改、灾难恢复和日常维护任务的作过程。 执行以下步骤:

  1. 定义变更管理过程。 更改是云中失败的主要原因。 开发一个标准化的过程,用于管理更改,以避免云环境中的故障。 请参阅 “管理更改”。

  2. 定义部署过程(发布管理)。 为了保持一致的配置,请标准化部署、发布和环境升级。 请参阅 “管理部署”。

  3. 定义灾难恢复和业务连续性过程。 若要处理潜在故障,请准备标准化响应计划。 请参阅 “管理灾难恢复和业务连续性”。

  4. 定义其他过程。 记录管理服务请求、修补和配置管理的过程。 请清楚地记录这些流程,以确保利益干系人知道如何启动或完成每个任务。

文档操作指南

为关键操作任务创建详细的分步指南(Runbook 或 Playbook)。 此准备可确保一致的执行、提高效率,并缩短关键事件期间的解决时间。

  1. 定义日常任务。 准备涵盖日常职责的手册,例如特权提升请求和日志评审。 为每个系统建立用于监控指标、警报阈值和仪表板的标准操作程序(SOP)。

  2. 创建以 Azure 为中心的作业簿库。 创建针对 Azure 的具体作业簿,处理以下场景,例如:

    Scenario Example
    CPU 使用率高 在 Azure 应用服务中管理纵向扩展
    故障转移和故障回复 Azure Site Recovery 中的故障转移和故障回复
    蓝/绿部署 Azure Front Door 中的蓝/绿部署
    备份还原 Azure Blob 存储Azure Cosmos DB中的备份还原
  3. 将这些 Runbook 存储在中央存储库中。 维护中央存储库中的 Runbook,供呼叫工程师在事件期间立即使用。

  4. 以编程方式实现作。 将基础结构即代码集成到 Runbook 中,以便每次部署通用资源一致且准确。

  5. 查看和更新。 定期查看和修订文档,以反映作调整和云服务更新。

文档工具和解决方案

清晰的文档可确保一致性、降低运营风险并提高团队效率。 创建和维护云工具的综合文档。 定期更新文档以反映当前做法,并确保所有团队成员易于访问。

Area 示例优势
整合 标准化通过合并日志和代码存储库简化了集成。
自动化 跨团队重复使用 IaC 模板、自动化脚本以及跨项目最佳做法。
事件管理 捕获问题并生成集成到发布周期中的纠正措施。

管理云操作

有效的云管理可优化运营效率,减少停机时间,并阐明角色和职责。 通过自动化和结构化支持流程来标准化云操作。 遵循以下作准则:

  • 提供持续云支持。 通过采用全球化支持模式或结构化的值班轮换的全球团队建立 24/7 支持覆盖。 明确定义职责,以确保及时响应和解决关键事件。 配置自动 警报 以立即通知指定的支持人员。

  • 自动执行重复工作。 使用 Azure 自动化功能来最大程度地减少手动流程并减少运营开销。 自动执行例行活动,消除错误、简化工作流,并使团队能够专注于战略优先级。

    用例 例子
    自动化 在 Azure Boards 或 ITSM 系统中自动执行工作流。 “更改请求”和“事件”工作项的模板。
    事件响应 若要自动生成填充标准字段的事件票证,可将 Azure Monitor 和 Azure 服务运行状况与票证系统集成。
    变更管理 使用 Azure 逻辑应用 自动批准低风险更改或自动修正某些事件。
    Compliance 使用 Azure Policy 强制实施和监视云合规性。
    安全性 使用 Microsoft Defender for Cloud 和 Microsoft Sentinel 自动执行安全威胁检测和响应。 使用 Microsoft Entra ID Governance 查看权限并自动执行权限管理。

改进操作

通过促进持续改进来优化 Azure 云环境。 定期评估运营,并优先考虑持续的学习和反馈。 执行以下步骤:

  1. 审查操作以改进。 遵循最佳做法来 监控 运行状况、合规性、安全性、成本、数据和云资源。 每周进行运营评审,讨论关键指标、最近发生的事件、已部署的更改和预期的风险。 积极解决 资源蔓延 和技术 债务问题。

  2. 为操作进行训练。 通过优先考虑基本学习资源来促进技能的持续发展。 通过实际培训环境维护动态云端操作。 下表提供了用于操作培训的资源。

    操作培训 Description
    获取凭据 微软凭据设定目标,例如应用技能和微软认证,来提升专业能力。
    使用运营资源 请参阅 Azure 管理资源
    使用产品文档 使用 Microsoft Learn 查找 有关 Azure 服务的指南。
    亲身实践 鼓励在非生产沙盒环境中进行动手实践。

Azure 管理资源

类别 管理资源 Description
Compliance CAF 治理 Microsoft的云治理框架
安全性 管理安全操作 管理安全运营的指南
安全性 Microsoft安全工具 Microsoft和 Azure 安全工具的列表
安全性 工作负荷安全性 安全工作负载指南
资源管理 命名和标记策略 用于管理资源的命名和标记建议
资源管理 Azure 缩写 Azure 资源的缩写列表
资源管理 Azure 顾问 与 Azure 最佳做法保持一致的数字助手。
资源管理 Azure 命名规则 所有 Azure 资源的命名规则
资源管理 Azure 服务指南 服务配置决策指南
开发 工作负载软件开发 软件开发工作负载指南
开发 Azure 体系结构中心 不同用例的体系结构和指南
开发 开发人员资源中心 开发人员工具和资源的中心
部署 Bicep、Terraform 和 ARM 模板 每个 Azure 资源的 IaC 模板
部署 Azure 区域对 Azure 配对区域列表
部署 Azure 云服务目录 所有 Azure 服务的目录
部署 工作负荷部署 持续集成的工作负荷指南
监测 监视 Azure 云环境 全面的 Azure 监视指南
监测 工作负荷监视 监控工作负载指南
成本 管理成本 成本管理指南
成本 工作负荷成本优化 成本优化工作负荷指南
Reliability 管理数据可靠性 维护数据可靠性的指导
Reliability 管理云资源可靠性 维护资源可靠性的指导
Reliability 管理安全事件 响应安全事件的建议
Performance 工作负荷性能效率 性能效率的工作负荷指南

后续步骤