浏览模型目录

已完成

Azure AI Foundry 中的 模型目录 提供了模型的中央存储库,可以浏览这些模型,以查找适合特定生成 AI 用例的语言模型。

Azure AI Foundry 门户中模型目录的屏幕截图。

为生成 AI 应用选择基础模型非常重要,因为它会影响应用的工作方式。 若要查找应用的最佳模型,可以通过向自己提问以下问题来使用结构化方法:

  • AI 能否解决我的用例的问题?
  • 如何为我的用例选择最佳模型
  • 是否可以针对实际工作负荷进行缩放

让我们逐个探索这些问题。

AI 能否解决我的用例的问题?

如今,我们有成千上万的语言模型可供选择。 主要挑战是了解是否有一个模型满足你的需求并回答以下问题:AI 能否解决我的用例的问题?

若要开始回答此问题,需要发现、筛选和部署模型。 可以通过三个不同的目录浏览可用的语言模型:

  • Hugging Face:跨各种域的大量开源模型目录。
  • GitHub:通过 GitHub Marketplace 和 GitHub Copilot 访问各种模型。
  • Azure AI Foundry:具有可靠部署工具的综合目录。

虽然可以使用每个目录来探索模型,但 Azure AI Foundry 中的模型目录可以让你最轻松地探索和部署模型来构建原型,同时提供最佳的模型选择。

让我们探索一些在搜索合适的模型时需要考虑的选项。

在大语言模型和小语言模型之间进行选择

首先,可以在大语言模型 (LLM) 和小语言模型 (SLM) 之间进行选择。

  • GPT-4、Mistral Large、Llama3 70B、Llama 405B 和 Command R+ 等 LLM 是强大的 AI 模型,专为需要深度推理、复杂内容生成和广泛上下文理解的任务而设计。

  • Phi3、Mistral OSS 模型和 Llama3 8B 等 SLM 高效且经济实惠,同时仍可处理许多常见的自然语言处理 (NLP) 任务。 它们非常适合在低端硬件或边缘设备上运行,在这些设备上,成本和速度比模型复杂性更重要。

关注模态、任务或工具

GPT-4 和 Mistral Large 等语言模型也称为“聊天补全”模型,旨在生成连贯且符合上下文的基于文本的响应。 需要在数学、编码、科学、策略和物流等复杂任务中获得更高性能时,还可以使用 DeepSeek-R1 和 o1 等推理模型。

除了基于文本的 AI 之外,一些模型是多模态的,这意味着它们可以处理图像、音频和其他数据类型以及文本。 GPT-4o 和 Phi3-vision 等模型能够分析和生成文本和图像。 当应用程序需要处理和理解图像时,多模态模型很有用,例如在计算机视觉或文档分析中就是如此。 另一种应用场景是你想要生成一个与视觉内容交互的 AI 应用(例如解释图像或图表的数字导师)。

如果用例涉及生成图像,则可使用 DALL·E 3 和 Stability AI 等工具根据文本提示创建逼真的视觉对象。 图像生成模型非常适合设计市场营销材料、插图或数字艺术。

另一组特定于任务的模型是嵌入模型,例如 Ada 和 Cohere。 嵌入模型将文本转换为数字表示形式,可用于通过理解语义来提高搜索相关性。 这些模型通常在检索增强生成 (RAG) 场景中实现,通过链接相似内容来增强推荐引擎。

想要生成一个可以与其他软件工具动态交互的应用程序时,可以添加函数调用和 JSON 支持。 这些功能使 AI 模型能够有效地处理结构化数据,有助于自动完成 API 调用、数据库查询和结构化数据处理。

专注于区域模型和特定于领域的模型

某些模型专为特定语言、区域或行业而设计。 这些模型在各自的领域可以胜过通用生成式 AI。 例如:

  • Core42 JAIS 是阿拉伯语 LLM,因此最适合针对阿拉伯语用户的应用程序。
  • Mistral Large 非常注重欧洲语言,确保多语言应用程序具有更好的语言准确性。
  • Nixtla TimeGEN-1 专门用于时序预测,非常适合财务预测、供应链优化和需求预测。

如果项目有区域需求、语言需求或特定于行业的需求,则这些模型可以提供比通用 AI 更相关的结果。

通过开放模型与专有模型来平衡灵活性和性能

还需决定是使用开源模型还是专有模型,每种模型都有其自身的优势。

专有模型最适合尖端性能和企业用途。 Azure 提供的模型包括 OpenAI 的 GPT-4、Mistral Large 和 Cohere Command R+,这些模型提供业界领先的 AI 功能。 这些模型非常适合需要企业级安全性、支持和高准确度的企业。

开源模型最具有灵活性和成本效益。 Azure AI Foundry 模型目录中提供了来自 Hugging Face 的数百个开源模型,以及来自 Meta、Databricks、Snowflake 和 Nvidia 的模型。 开放模型为开发人员提供了更多控制权,允许进行微调、自定义和本地部署。

无论选择哪种模型,都可以使用 Azure AI Foundry 模型目录。 通过模型目录使用模型满足企业的关键使用要求:

  • 数据和隐私:你可以决定如何处理数据。
  • 安全性和合规性:内置安全性。
  • 负责任 AI 和内容安全性:评估和内容安全性。

现在你知道了可用的语言模型,你应该了解 AI 是否确实可以解决你的用例的问题。 如果你认为语言模型可以扩充应用程序,则需选择要部署和集成的特定模型。

如何为我的用例选择最佳模型

若要为用例选择最佳语言模型,你需要决定使用什么条件来筛选模型。 条件是你为模型确定的必要特征。 可以考虑的四个特征为:

  • 任务类型:需要模型执行哪种类型的任务? 它是否仅包括对文本的理解,还是也包括对音频、视频或多模态的理解?
  • 精准率:基础模型是否足够好,或者你是否需要针对特定技能或数据集进行训练的微调模型?
  • 开放性:你想自行微调模型吗?
  • 部署:是要在本地部署模型、在无服务器终结点上部署模型,还是要管理部署基础结构?

你已经了解了上一部分提供的各种类型的模型。 现在,让我们更详细地探讨精准率和性能如何成为选择模型时的重要筛选器。

用于精准率的筛选器模型

在生成式 AI 中,精准率是指模型生成正确且相关的输出的准确度。 它会度量所有生成的输出中真正结果(正确输出)的比例。 精准率高意味着不相关或不正确的结果较少,因此模型更可靠。

将语言模型集成到应用中时,可以在基础模型或微调模型之间进行选择。 像 GPT-4 这样的基础模型是在大型数据集上进行预训练的,可以处理各种任务,但对于特定领域可能缺乏精准率。 提示工程之类的技术可以改善这种情况,但有时需要进行微调。

在较小的、特定于任务的数据集上进一步训练微调模型,以提高其精准率和为特定应用程序生成相关输出的功能。 你可以使用微调模型或自行对模型进行微调。

针对性能的筛选器模型

可以使用各种评估方法在不同阶段评估模型性能。

通过 Azure AI Foundry 模型目录浏览模型时,可以使用模型基准来比较跨模型和数据集的公开提供的指标,例如一致性和准确度。 这些基准可以在初始浏览阶段为你提供帮助,但几乎无法提供有关模型在特定用例中的表现的信息。

基准 描述
准确度 根据数据集将模型生成的文本与正确的答案进行比较。 如果生成的文本与答案完全匹配,则结果为 1,否则为 0。
一致性 度量模型输出是否流畅、读起来是否自然、是否与类人语言相似。
流畅度 评估生成的文本在多大程度上符合语法规则、语法结构以及词汇的适当用法,从而做出语言正确且听起来自然的响应。
有据性 度量模型生成的答案与输入数据之间的对齐方式。
GPT 相似性 量化基础真实句子(或文档)与 AI 模型生成的预测句子之间的语义相似性。
质量索引 介于 0 和 1 之间的比较综合得分,性能更佳的模型将获得更高的评分。
成本 使用该模型的成本基于单令牌价格。 成本是一个有用的指标,用于比较质量,使你能够根据需要确定适当的权衡。

若要评估所选模型针对特定需求的表现情况,可以考虑使用手动或自动评估。 使用手动评估,可以对模型的响应进行评分。 自动评估包括传统的机器学习指标和为你计算和生成的 AI 辅助指标。

评估模型的性能时,通常从手动评估开始,因为它们可以快速评估模型响应的质量。 若要进行更系统的比较,使用基于你自己的基本事实的精准度、召回率和 F1 分数等指标进行自动评估是一种更快的、可缩放的且更客观的方法。

是否可以针对实际工作负荷进行缩放

你为用例选择了一个模型并成功生成了一个原型。 现在,你需要了解如何针对实际工作负荷进行缩放。

扩展生成 AI 解决方案的注意事项包括:

  • 模型部署:在何处部署模型,以获得最佳性能和成本平衡?
  • 模型监视和优化:如何监视、评估和优化模型性能?
  • 提示管理:如何协调和优化提示,以最大程度地提高生成的响应的准确性和相关性?
  • 模型生命周期:如何在正在进行的 生成式 AI 运维(GenAIOps) 生命周期中管理模型、数据和代码更新?

Azure AI Foundry 提供可视化和代码优先工具,可帮助你构建和维护可缩放的生成 AI 解决方案。