你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

AI 就绪

本文概述了在 Azure 中生成 AI 工作负荷的组织过程。 本文提供有关大规模采用 AI 工作负荷的关键设计和流程决策的建议。 它重点介绍特定于 AI 的资源组织和连接指南。

显示 AI 采用的 6 个阶段的关系图:策略、计划、就绪、治理、安全、管理。

为 AI 工作负载建立治理边界

AI 治理需要适当的资源组织和策略管理,以确保安全、合规和经济高效的作。 必须创建明确的治理边界,以保护敏感数据并有效控制 AI 资源访问。 操作方法如下:

  1. 为面向 Internet 和内部 AI 工作负荷创建单独的管理组。 管理组分离在外部(“联机”)和仅限内部(“公司”)AI 应用程序之间建立关键的数据管理边界。 这种隔离可防止外部用户访问敏感的内部业务数据,同时保持适当的访问控制。 此方法符合 Azure 登陆区域管理组 体系结构原则,并支持跨工作负荷类型的策略继承。

  2. 将特定于 AI 的策略应用于每个管理组。Azure 登陆区域的基线策略开始,并为 Azure AI FoundryAzure AI 服务Azure AI 搜索Azure 虚拟机添加策略定义。 策略强制实施可确保跨平台统一的 AI 治理,并减少手动合规性监督。

  3. 在特定于工作负荷的订阅中部署 AI 资源。 AI 资源应继承其工作负荷管理组的治理策略,而不是平台订阅。 这种分离可防止平台团队控制创建的开发瓶颈,并使工作负荷团队能够以适当的自治方式运行。 在 Azure 登陆区域环境中,将 AI 工作负荷部署到应用程序登陆区域订阅。

为 AI 工作负载建立安全连接

AI 网络包括 AI 工作负载的网络基础结构设计、安全措施和高效的数据传输模式。 必须实施适当的安全控制和连接选项,以防止基于网络的中断并保持一致的性能。 操作方法如下:

  1. 激活面向 Internet 的 AI 工作负载的 Azure DDoS 防护。Azure DDoS 防护 可保护 AI 服务免受分布式拒绝服务攻击造成的潜在中断和停机。 虚拟网络级别的 DDoS 防护可抵御面向 Internet 的应用程序的流量洪水,并在攻击期间维护服务可用性。

  2. 使用 Azure Bastion 保护对 AI 工作负载的操作访问。 使用 jumpbox 和 Azure Bastion 来保障对 AI 工作负荷的运维访问安全,并防止其管理接口被直接暴露于公网。 此方法为管理任务创建安全网关,同时维护 AI 资源的网络隔离。

  3. 为本地数据源选择适当的连接。 将数据从本地源传输到云环境的组织需要高带宽连接来支持 AI 工作负荷性能要求。

    • 使用 Azure ExpressRoute 进行大容量数据传输。Azure ExpressRoute 为需要一致性能的高数据量、实时处理或工作负荷提供专用连接。 ExpressRoute 包括 FastPath 功能,通过绕过 ExpressRoute 网关的特定流量流来提高数据路径性能。

    • 使用 Azure VPN 网关进行适度数据传输。Azure VPN 网关 适用于中等数据量、不频繁数据传输或需要公共 Internet 访问时。 与 ExpressRoute 相比,VPN 网关为较小的数据集提供了更简单的设置和经济高效的作。 为 AI 工作负载使用适当的 拓扑和设计 ,包括用于跨界连接的站点到站点 VPN,以及用于安全设备访问的点到站点 VPN。

跨区域建立 AI 可靠性

AI 可靠性需要战略区域放置和冗余规划,以确保一致的性能和高可用性。 组织必须解决模型托管、数据位置和灾难恢复问题,才能维护可靠的 AI 服务。 需要规划区域部署策略,以避免服务中断并优化性能。 操作方法如下:

  1. 跨多个区域部署 AI 终结点,以便支持生产环境的工作负载。 生产 AI 工作负荷要求在至少两个区域中进行托管,以提供冗余并确保高可用性。 多区域部署在发生区域故障期间可实现更快的故障转移和恢复。 对于 Azure AI Foundry 中的 Azure OpenAI,请使用 全局部署 ,自动将请求路由到具有可用容量的区域。 对于区域部署,实现 Azure API 管理 ,以跨 AI 终结点对 API 请求进行负载均衡。

  2. 在部署之前验证目标区域中的 AI 服务可用性。 不同的区域提供不同级别的 AI 服务可用性和功能支持。 按区域检查 Azure 服务可用性,确认所需的 AI 服务可用。 Azure OpenAI 部署模型包括全球标准、全局预配、区域标准和具有不同区域可用性模式的区域预配选项。

  3. 评估区域配额限制和容量要求。 Azure AI 服务具有影响大规模模型部署和推理工作负荷的区域订阅限制。 如果预计超出标准配额的容量需求,以防止在缩放期间发生服务中断,请主动联系 Azure 支持人员。

  4. 优化数据布局,以便用于检索增强生成的应用程序。 数据存储位置显著影响 RAG 方案中的应用程序性能。 将数据与同一区域中的 AI 模型并置可降低延迟并提高数据检索效率,但跨区域配置仍可用于特定业务需求。

  5. 将关键 AI 资产复制到次要区域,实现业务连续性。 业务连续性需要将微调的模型、RAG 数据集、训练的模型和训练数据复制到次要区域。 资产复制可在服务中断期间更快地恢复,并在不同的故障方案中维护服务可用性。

建立 AI 基础

AI 基础提供支持 Azure 中 AI 工作负荷的核心基础结构和资源层次结构。 它包括建立与治理和运营需求相一致的可扩展、安全的环境。 强大的 AI 基础能够高效地部署和管理 AI 工作负荷。 它还确保了未来增长的安全性和灵活性。

使用 Azure 登陆区域

建议使用 Azure 登陆区域 来准备 Azure 环境。 它为平台和应用程序资源提供预定义的设置。 平台就位后,就可以将 AI 工作负荷部署到专用应用程序登陆区域。

如果组织对工作负荷使用 Azure 登陆区域,请继续将其用于使用 AI 的工作负荷。 将 AI 工作负载部署到专用应用程序登陆区域。 下图 2 说明了 AI 工作负荷如何在 Azure 登陆区域中集成。

显示 Azure 登陆区域中的 AI 工作负荷的关系图。 图 2. Azure 登陆区域中的 AI 工作负荷。

构建 AI 环境

如果不使用 Azure 登陆区域,请按照本文中的建议生成 AI 环境。 下图显示了基线资源层次结构。 它将内部 AI 工作负载和面向 Internet 的 AI 工作负载分段。 内部工作负载使用策略拒绝客户联机访问。 这种分离可以防止内部数据暴露给外部用户。 AI 开发应使用 jumpbox 来管理 AI 资源和数据。

显示面向内部和面向 Internet 的 AI 工作负荷的资源组织的关系图。 图 3. AI 工作负荷的基线资源层次结构。

后续步骤

下一步是生成 AI 工作负荷并将其部署到 AI 环境。 使用以下链接,查找满足需求的体系结构指南。 从平台即服务 (PaaS) 体系结构开始。 PaaS 是 Microsoft 推荐的采用 AI 的方法。