你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文提供在整个生命周期内管理 AI 工作负载的指导。 组织在建立结构化运营流程、实施适当的部署治理和维护全面的监视实践时实现一致的 AI 性能。
管理 AI 操作
操作框架为管理复杂 AI 项目提供结构。 这些框架可确保开发团队之间的一致性,并减少延迟交付周期的错误。 必须建立明确的作流程才能实现可靠的 AI 工作负载管理。 操作方法如下:
为战略指导建立卓越 AI 中心。 卓越 AI 中心为整个组织的 AI 部署提供战略监督和技术指导。 此组确保 AI 方法符合业务目标和技术要求。 使用 AI 卓越中心 来评估哪种管理方法符合组织的需求,并创建支持治理和创新的部署标准。
为您的工作负荷类型选择合适的运营框架。 不同的 AI 工作负载需要不同的作方法,这些方法会影响团队流程和工具决策。 此选项确定开发方法和技术堆栈集成。 将 MLOps 框架用于传统机器学习工作流,将 GenAIOps 用于生成 AI 工作负载。
在所有团队中标准化开发工具。 一致的工具消除了团队环境之间的兼容性问题,并减少了开发人员的学习曲线。 此方法可防止集成问题并加速开发周期。 定义 SDK 和 API 的使用并使其标准化,以便在各开发团队之间保持一致。 有关详细信息,请参阅 选择正确的 SDK 来支持用例
创建用于试验的专用沙盒环境。 沙盒环境允许安全测试,而不会影响生产系统,并提供团队自由测试新方法。 这些环境可防止实验性代码影响稳定的工作负荷。 使用与 AI 开发生命周期中的开发、测试和生产环境不同的沙盒环境。 在开发、测试和生产环境中保持一致性,以防止在环境之间升级期间发生中断性变更。
尽可能简化操作。 新功能使自定义和部署代理和优化模型变得更容易,而无需专业知识。 传统的微调需要专家数据科学家来策划数据集并构建特定于任务的流程管道,从而产生操作复杂性。 使用 Microsoft 365 中的 Copilot 调优(预览版) 来微调模型以处理内部任务,而无需专业知识。
管理 AI 部署
AI 部署管理定义谁可以部署 AI 资源并控制这些终结点。 结构化方法可确保组织通过治理要求平衡开发速度。 必须建立明确的部署机构才能实现一致的 AI 资源管理。 操作方法如下:
在定义的治理边界内授予工作负荷团队部署权限。 工作负荷团队在控制 AI 资源部署时加速开发,而无需等待中央审批流程。 这种自治可减少瓶颈,并能够在维护组织标准的同时快速响应业务需求。 使用 Azure Policy 在工作负荷环境中一致地强制实施治理,并创建解决治理差距的 AI 策略。 对于 Azure AI Foundry,为每个业务部门部署一个实例,并为业务部门中的每个用例使用 Azure AI Foundry 项目,而不是跨业务部门创建集中式共享资源。
为这两种管理方法定义明确的 AI 部署策略。 AI 策略提供防护措施,防止配置偏差和安全漏洞,同时确保符合组织标准。 这些策略可降低未经授权的 AI 资源使用的风险。 创建 AI 策略以强制实施内容筛选器设置并阻止使用不允许的模型,然后将这些策略清楚地传达给所有团队。 定期进行审核,以确保合规性。
创建用于部署的持续集成和交付管道。 自动化管道可减少手动错误,并确保跨环境进行一致的部署,同时提供可重复的进程来提前捕获问题。 这些管道在整个开发过程中都保持了质量标准。 创建涵盖代码质量检查、单元和集成测试以及试验流的数据管道。 包含人工审批流程的生产部署步骤以推广发布的版本。 保持模型和客户端接口之间的分离,以确保独立的组件更新。
管理 AI 模型
AI 模型管理涉及一段时间内的治理结构、持续监视和性能维护。 此过程可帮助组织将模型与道德标准保持一致,跟踪模型性能,并确保 AI 系统保持有效,并与业务目标保持一致。 必须建立全面的模型管理流程才能实现可靠的 AI 性能。 操作方法如下:
定义用于性能跟踪的 AI 度量基线。 度量基线可确保 AI 模型符合业务目标和道德标准。 这些基线提供了评估整个组织中模型性能和负责任的 AI 合规性的目标标准。 建立与负责任的 AI 原则(如公平性、透明度和准确性)相关的 KPI,然后将这些 KPI 映射到特定的 AI 工作负载。
快速确定性能问题的根本原因。 了解 AI 交互的每个阶段有助于隔离问题并有效地实施纠正措施,防止跨系统级联故障。 例如,确定聊天机器人错误源自提示创建还是模型上下文理解。 使用 Azure Monitor 和 Application Insights 等内置工具主动识别性能瓶颈和异常。
根据性能条件重新训练 AI 模型。 由于数据更改,模型会随着时间推移而降级,需要重新训练才能保持相关性。 定期重新训练可确保 AI 系统符合业务需求和数据模式。 根据模型性能指标或业务需求计划重新训练,使 AI 系统保持相关。 评估初始训练成本以评估最佳重新训练频率,因为重新训练可能很昂贵。 维护模型的版本控制,并确保对于性能不佳的版本,能够使用回滚机制。
使用质量关口建立模型推广流程。 质量入口可确保只有经过验证的模型才能到达生产环境。 这些流程可防止性能不佳的模型影响业务运营并维持一致的质量标准。 使用性能条件将训练、微调和重新训练的模型提升到更高的环境。 定义每个应用程序独有的性能条件,并建立包括测试和验证步骤的明确提升工作流。
跟踪模型停用计划,以防止服务中断。 模型停用跟踪可防止供应商支持结束时出现性能问题。 错过停用日期的组织面临意外的服务降级或兼容性问题。 监视预先训练的模型的停用日期,以便在供应商弃用服务时维护功能。 例如,在弃用之前更新生成 AI 模型以维护系统功能。 使用 Azure AI Foundry 门户 查看所有部署的模型停用日期。
管理 AI 成本
AI 成本管理可确保组织控制费用,同时跨计算、存储和令牌使用情况保持性能。 组织需要结构化的成本监督和优化策略,以防止预算溢出并最大限度地提高资源效率。 必须建立全面的成本管理流程才能实现可预测的 AI 支出。 操作方法如下:
为每个 Azure AI 服务实施成本管理最佳做法。 不同的 Azure AI 服务具有独特的定价模型和优化功能,这些模型会影响总拥有成本。 了解特定于服务的成本结构有助于组织为其工作负荷选择最经济高效的选项。 例如,请遵循 Azure AI Foundry 的成本管理指南来优化每种服务类型的费用。
监视使用情况模式,以最大限度地提高计费效率。 了解成本断点可防止不必要的费用,并帮助组织优化资源分配。 跟踪使用模式可揭示调整模型和体系结构的机会,以提高成本效益。 监视每分钟令牌(TPM)和每分钟请求(RPM)以了解使用模式,然后根据这些模式调整模型和体系结构。 对图像生成或每小时微调等服务使用固定价格阈值以避免意外费用。 考虑基于承诺的计费模型,以采用一致的使用模式来降低总体成本。
建立自动化成本监控和告警。 自动警报通过在影响项目预算之前通知团队意外费用来防止预算溢出。 这些警报支持主动成本管理,并帮助组织保持对 AI 计划的财务控制。 在 Azure 成本管理中设置预算警报,以根据预定义的阈值跟踪支出,并制定符合业务目标的预算策略。 创建多个阈值的警报,以提供成本增加的预警。
管理 AI 数据
AI 数据管理可确保整个 AI 生命周期的准确性、完整性和合规性。 组织需要结构化的数据治理和质量控制流程来保持可靠的 AI 性能。 必须建立全面的数据管理做法,以实现一致的 AI 结果。 操作方法如下:
创建和维护黄金数据集,以便进行一致的验证。 黄金数据集提供标准化基准,用于在不同环境和版本中测试 AI 模型。 这些权威数据集可确保一致的评估条件,并帮助检测随时间推移的性能下降。 开发表示生产数据模式的黄金数据集,并使用这些数据集在所有 AI 工作负载中进行常规测试和验证。 定期更新黄金数据集,以反映当前的业务需求和数据模式。
使用完整性控制实现安全数据管道。 数据管道完整性可防止损坏并确保可靠的 AI 模型性能。 安全管道通过预处理和存储保护敏感信息并维护数据收集质量。 生成自定义数据管道,包括每个阶段的验证检查,并实现安全控制,以保护整个管道过程中的数据。 在将数据馈送到 AI 模型之前,使用自动测试来验证数据质量和一致性。
监视数据敏感度分类并响应更改。 由于业务要求和法规更新,数据敏感度分类会发生变化。 组织必须相应地跟踪这些更改并更新 AI 系统,以维护合规性和安全性。 开发流程,确定数据敏感度何时发生更改并实施删除或替换下游 AI 系统中的敏感数据的过程。 使用 Microsoft Defender for Cloud 和 Microsoft Purview 标记和管理整个组织中的敏感数据。 发生敏感度更改时,识别所有使用受影响数据的 AI 模型,并使用排除重新分类敏感信息的数据集重新训练模型。
管理 AI 业务连续性
业务连续性管理可保护 AI 系统免受中断,并确保事件发生时快速恢复。 组织需要多区域策略并测试恢复过程来维护 AI 服务可用性。 有效的连续性规划可防止影响业务运营的扩展中断。 必须建立全面的业务连续性流程,以实现可靠的 AI 系统复原能力。 操作方法如下:
在所有 AI 组件中实现持续监视。 由于数据演变、模型更新或用户行为的变化,AI 工作负载会随时间推移而变化。 持续监视会提前检测这些更改,并防止性能下降,从而影响业务成果。 监视 AI 部署、 AI 模型和 AI 数据 ,以确保工作负载与已建立的 KPI 保持一致。 定期审核,根据定义的负责任的 AI 原则和指标评估 AI 系统。
跨多个区域部署 AI 系统以实现高可用性。 多区域部署可防止单一故障点,并确保 AI 服务在发生区域性中断期间仍可访问。 此方法提供地理冗余,可防范基础结构故障和自然灾害。 跨多个 Azure 区域部署生成系统和传统 AI 系统,并为经过训练和微调的模型实现必要的冗余,以避免在中断期间重新训练。 使用 Azure Front Door 或 Azure 流量管理器 自动路由区域之间的流量。
定期测试灾难恢复计划,以验证有效性。 定期测试可识别恢复过程中的差距,并确保团队可以在实际事件期间有效地还原 AI 系统。 这些测试验证所有组件在恢复后是否正常工作,并帮助组织优化其响应过程。 对包括所有 AI 组件的数据还原过程和验证过程的灾难恢复计划进行季度测试。 根据每个测试周期中吸取的教训记录测试结果和更新恢复过程。
为所有 AI 系统组件实现版本控制。 版本控制系统跟踪更改,并在恢复方案中快速还原以前的配置。 此方法为修改提供了审核线索,并确保团队能够有效地识别和还原有问题的更改。 使用 Git 管理对所有 AI 工作负载的模型、数据管道和系统配置的更改。 实现自动审核,跟踪模型和系统更改,以便团队可以快速识别和还原影响性能的计划外更改。
为 AI 资产创建自动备份策略。 自动备份可确保关键 AI 组件保持受保护状态,而无需手动干预。 这些策略可防止数据丢失,并减少系统在发生事件后需要还原时的恢复时间。 使用 Azure 备份 或具有异地冗余选项的 Azure 存储 为训练的模型、数据集和配置文件建立自动备份计划。 将备份存储在与主要部署不同的区域中,以确保在区域性中断期间的可用性。
明确职责的文档恢复程序。 清晰的文档可确保团队在高压力情况下一致地执行恢复程序。 记录的过程可缩短恢复时间,并防止团队在没有既定准则的情况下运行时发生的错误。 创建运行手册,为不同的故障情景定义分步恢复过程,并为每个恢复任务的团队成员分配特定的角色和职责。 定期更新文档,以反映 AI 体系结构和恢复过程的更改。