你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
本文为在 Azure 上运行 AI 工作负载的组织提供管理建议。 它侧重于适用于 AI 的 Azure 平台即服务(PaaS)解决方案。
管理 AI 部署
一致的部署配置可增强所有 AI 环境的安全性、合规性和运营效率。 标准化部署方法的组织可减少配置偏差并确保可靠的性能。 必须实施符合业务需求的系统部署做法。 操作方法如下:
为您的组织选择适当的运营模式。 部署模型创建逻辑边界,例如数据域或业务功能,以确保自治、治理和成本跟踪。 为每个业务部门部署 Azure AI Foundry 实例,因为跨多个业务部门共享单个实例会限制成本跟踪并创建资源约束。 仅当团队需要共享资源时,才根据用例定义项目并使用基于中心的项目。 有关详细信息,请参阅我需要哪种类型的 Azure AI Foundry 项目?和 AI Foundry 资源类型。
部署到满足要求的区域。 模型放置取决于确定最佳性能的特定延迟、吞吐量和符合性要求。 在部署之前,请检查 Azure 区域 产品可用性 表,确认对所需硬件、功能和数据驻留规则的支持,以确保性能和法规一致性。
持续监视 AI 部署资源。 资源监视捕获性能数据,并在影响用户之前识别问题。 诊断设置捕获所有关键服务的日志和指标,包括 Azure AI Foundry 和 Azure AI 服务。 此监控提供对系统运行状况的可视性,并促进问题的主动解决。 另请参阅 Azure Monitor 基线警报。
集中管理部署资源。 集中式资源管理在所有 AI 部署中提供一致的监督和控制。 使用 Azure AI Foundry 中的 管理中心 配置 Foundry 项目、跟踪资源利用率和管理访问权限。 此方法可确保标准化的资源分配和成本控制。 还可以 监视 Azure AI Foundry 中的成本。
将 Azure API 管理用作多个部署的统一网关。 在加入多个应用程序或团队时,API 管理提供一致的安全性、可伸缩性、速率限制、令牌配额和集中监视。 此方法标准化访问模式,并减少整个 AI 服务的管理开销。 有关详细信息,请参阅通过网关访问 Azure OpenAI 和其他语言模型。
管理 AI 模型
模型监视可确保输出与负责任的 AI 原则保持一致,并随时间推移保持准确性。 由于数据、用户行为或外部因素发生变化,AI 模型体验偏差可能导致不准确的结果或道德问题。 必须实现持续监视才能主动检测和解决这些更改。 操作方法如下:
监视模型输出的质量和对齐方式。 监视过程可确保工作负载与负责任的 AI 目标保持一致,并交付预期结果。 使用 Azure AI Foundry 的可观测性功能和监视应用程序。 对于 Azure AI Foundry 代理服务,监视代理部署。
持续跟踪模型性能指标。 当准确性或响应质量低于可接受的阈值时,性能监视有助于查明问题。 通过 Azure AI Foundry 中的 跟踪 监视矢量搜索结果的响应时间和准确性的延迟。
考虑实现生成型人工智能网关以优化监控。 Azure API 管理启用平台无法原生提供的日志记录和监控功能,包括源 IP 收集、输入文本跟踪和输出文本分析。 此方法提供全面的审核线索和监视数据。 有关详细信息,请参阅为 Azure OpenAI 服务语言模型实现日志记录和监视功能。
选择计算。 在 Azure AI Foundry 中,计算资源支持基本 模型部署 和 微调。 跨计算实例、群集和无服务器选项标准化计算类型、运行时和关闭周期。
管理 AI 数据
数据质量决定了 AI 模型输出的准确性和可靠性。 维护高质量数据标准的组织可实现更好的模型性能,并降低有偏见或不准确结果的风险。 必须实施系统数据管理做法,以确保模型质量一致。 操作方法如下:
持续监视数据偏移。 数据偏移检测可识别输入数据模式何时从训练基线发生变化,这可能会随时间推移降低模型性能。 跟踪生成和非生成式 AI 工作负载中的准确性和数据偏移,以确保模型保持相关且响应当前条件。 使用 Azure AI Foundry 中的评估 来建立监视基线和检测阈值。
设置自动警报以降低性能。 当模型性能低于可接受的阈值时,警报系统会提供预警,从而在问题影响用户之前启用主动干预。 配置自定义警报以检测性能偏差,并在模型需要重新训练或调整时触发修正工作流。
确保质量数据处理标准。 数据准备要求在 AI 工作负荷类型之间有所不同,但必须在所有实现中保持一致的质量标准。 对于生成式 AI,应采用正确的格式对基础数据进行结构化处理,包括进行适当的分块、信息丰富化和向量化,以便 AI 模型能够以最佳方式使用这些数据。 有关详细信息,请参阅 RAG 解决方案设计和开发指南。
实现业务连续性
业务连续性可确保 AI 服务在区域性中断或服务中断期间保持可用。 服务中断可能会影响依赖于 AI 功能的关键业务运营,使连续性规划对于组织复原能力至关重要。 必须实施多区域部署策略才能维护服务可用性。 操作方法如下:
跨多个区域部署 AI 服务。 多区域部署提供冗余,当各个区域遇到服务中断或容量约束时,维护服务可用性。 为 Azure AI Foundry 和 Azure OpenAI 实施多区域部署策略,以确保服务交付一致。
配置自动故障转移机制。 自动化故障转移可缩短恢复时间,并确保在主要地区不可用时仍能连续提供服务。 设置区域之间的流量路由和负载均衡,以便在服务中断期间实现无缝转换。