你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Important
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft的 AI 原则。
Azure OpenAI 模型的基础知识
Azure OpenAI 为客户提供完全托管的 AI 服务,使开发人员和数据科学家能够应用 OpenAI 的强大模型,包括可以生成自然语言、代码和图像的模型。 在 Azure OpenAI 服务中,OpenAI 模型与Microsoft开发的内容筛选和滥用检测模型集成。 在此处了解有关内容筛选和滥用检测的详细信息。
Introduction
| 模型组 | 文本/代码 | 视觉 | 音频/语音 |
|---|---|---|---|
| GPT-3 和 Codex | ✅ | ||
| DALL-E 2 和 3 | ✅ | ||
| GPT-image-1 | ✅ | ||
| Whisper | ✅ | ||
| 配备视觉功能的 GPT-4 Turbo | ✅ | ✅ | |
| GPT-4o GPT-4o-mini |
✅ | ✅ | ✅ |
| GPT-4.1 GPT-4.1-mini GPT-4.1-nano |
✅ | ✅ | |
| GPT-4.5 | ✅ | ✅ | |
| GPT-5 | ✅ | ✅ | |
| GPT-oss-120b | ✅ | ||
| o1 系列 | ✅ | ✅ | |
| o3/o3-pro | ✅ | ✅ | |
| o3-mini | ✅ | ||
| o4-mini/codex-mini1 | ✅ | ✅ | |
| o3-deep-research o4-mini-deep-research |
✅ | ||
| computer-use-preview | ✅ | ✅ |
1codex-mini 是专门用于 Codex CLI 的 o4-mini 微调版本。 有关详细信息,请参阅 OpenAI 的文档。
选择选项卡以查看相关模型类型的内容。
作为完全托管的 Azure OpenAI 服务的一部分, GPT-3 模型分析和生成自然语言,Codex 模型分析和生成代码和纯文本代码注释, GPT-4 和 推理模型 (包括 o 系列模型和 GPT-5)可以理解和生成自然语言和代码。 这些模型使用自回归结构,这意味着它们使用先前观测的数据来预测最可能的下一个词。 然后,通过将新生成的内容追加到原始文本以生成完整的生成响应来重复此过程。 由于响应对输入文本有条件,因此这些模型只需更改输入文本即可应用于各种任务。
GPT-3 系列模型预先训练在大量公开可用的自由文本数据上。 此数据源自 Web 爬网(特别是通用爬网的筛选版本,其中包括来自 Internet 的广泛文本,并占加权预训练数据集的 60%)和更高质量数据集的组合,包括 WebText 数据集的扩展版本、两个基于 Internet 的书籍语料库和英语维基百科。 GPT-4 基本模型是使用公开可用的数据(如 Internet 数据)和 OpenAI 许可的数据训练的。 模型使用强化学习和人工反馈(RLHF)进行了微调。
计算机使用(预览版)模型接受第一轮的文本输入,第二轮次和后轮次的屏幕截图图像,并将命令输出到键盘和鼠标。 计算机使用模型和计算机使用工具使开发人员能够生成代理 AI 系统。
详细了解 OpenAI 的 GPT-3、 GPT-4 和 Codex 研究论文中的训练和建模技术。
微调 是指使用 监督微调 来调整基础模型的权重,以便根据提供的训练集提供更好的响应。 大型语言模型的所有用例和注意事项也适用于微调的模型,但也有其他注意事项。
Important
微调仅适用于文本和代码模型,而不适用于视觉或语音模型。
关键术语
| Term | Definition |
|---|---|
| Prompt | 在 API 调用中发送到服务的文本。 然后,此文本将输入到模型中。 例如,可能会输入以下提示:Convert the questions to a command:Q: Ask Constance if we need some breadA: send-msg 'find constance' Do we need some bread?Q: Send a message to Greg to figure out if things are ready for Wednesday.A: |
| 补全或生成 | Azure OpenAI 在响应中输出的文本。 例如,服务可能会对上述提示做出以下回答:send-msg 'find greg' figure out if things are ready for Wednesday. |
| Token | Azure OpenAI 通过将文本分解为标记来处理文本。 标记可以是单词,也可以是字符块。 例如,单词 hamburger 被分解为标记 ham、bur 和 ger,而像 pear 这样的简短常用词则是单个标记。 许多令牌以空格开头,例如 hello 和 bye。 |
| 微调 | 大型语言模型的监督微调(SFT)、强化微调(RFT)和直接首选项优化(DPO 或首选项微调)是指采用预先训练的语言模型(通常针对大型数据集进行训练)的过程,并进一步针对具有标记数据的特定任务对其进行训练。 这涉及到使用此较小的特定数据集来调整模型的权重,以便模型在可以执行的任务中更加专用,从而提高其性能和准确性。 |
| 模型权重 | 模型权重是在训练过程中从数据中学习的模型中的参数。 它们确定给定输入的模型的输出。 这些权重经过调整,以响应模型在其预测中所做的错误,目的是最大程度地减少此错误。 |
| 无根据内容 | 模型生成的内容,这些内容与源材料中存在的内容无关或不准确。 |
| 代理 AI 系统 | 能够感知和处理其环境的自治 AI 系统,以实现目标。 |
| Autonomy | 能够在有限或没有直接人类监督的情况下,独立执行动作并对系统行为进行控制。 |
| 计算机使用工具 | 与计算机使用模型一起使用的工具捕获模式生成的鼠标和键盘作,并直接将它们转换为可执行命令。 这使得开发人员能够自动执行计算机使用任务。 |
| 深入研究 | 针对深度研究任务设计的 o 系列推理模型的微调版本。 它采用高级查询,并利用能够分解任务的代理模型、执行 Web 搜索和合成结果来返回结构化、引文丰富的报表。 |
Capabilities
推理模型、GPT-4、GPT-3、Codex 模型和 Azure OpenAI 评估使用自然语言说明和提示中的示例来确定任务。 然后,该模型通过预测最有可能的下一个文本来完成任务。 此方法称为“上下文中”学习。 在此步骤中不会重新训练这些模型,而是根据提示中包含的上下文提供预测。
上下文中学习有三种主要方法。 这些方法因提供给模型的任务特定数据量而异:
少样本:在这种情况下,用户在提示中包含几个示例来演示预期的答案格式和内容。 以下示例显示了一个提供多个示例的少样本提示:
Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A: send-msg `find greg` Is everything ready forWednesday?
Q: Ask Ilya if we're still having our meeting thisevening
A: send-msg `find ilya` Are we still having a meetingthis evening?
Q: Contact the ski store and figure out if I can getmy skis fixed before I leave on Thursday
A: send-msg `find ski store` Would it be possible toget my skis fixed before I leave on Thursday?
Q: Thank Nicolas for lunch
A: send-msg `find nicolas` Thank you for lunch!
Q: Tell Constance that I won't be home before 19:30tonight — unmovable meeting.
A: send-msg `find constance` I won't be home before19:30 tonight. I have a meeting I can't move.
Q: Tell John that I need to book an appointment at10:30
A:
示例数通常介于 0 到 100 之间,具体取决于单个提示的最大输入长度可以容纳多少个。 少样本学习可以大大减少准确进行预测所需的任务特定数据量。
单样本:这种情况与少样本方法相同,不过只提供了一个示例。 以下示例显示了一个单样本提示:
Convert the questions to a command:
Q: Ask Constance if we need some bread
A: send-msg `find constance` Do we need some bread?
Q: Send a message to Greg to figure out if things are ready for Wednesday.
A:
零拍摄:在本例中,没有向模型提供任何示例,只提供任务请求。 以下示例显示了一个零样本提示:
Convert the question to a command:
Q: Ask Constance if we need some bread
A:
思考链 :Azure OpenAI 的推理模型使用思考链(CoT)技术具有高级推理功能。 CoT 技术在提供响应之前生成中间推理步骤,使他们能够通过分步解决问题来解决更复杂的挑战。 o1 演示了推理密集型领域(如研究、策略、科学、编码和数学等)基准的改进。 这些模型在安全性上有改进,这得益于其高级推理能力,能更有效地进行推理和应用安全规则。 这带来了更好的性能以及安全基准,如生成非法建议、选择刻板的响应和屈从于已知的越狱。
有关此系列模型功能的详细信息,请参阅 OpenAI o1 系统卡、 o3-mini 系统卡、 o3/o4 微型系统卡、 深度研究系统卡和 GPT-5 系统卡。
Azure OpenAI 评估
大型语言模型的评估是衡量不同任务和维度性能的关键步骤。 对于微调的模型,此任务尤为重要,因为评估训练带来的性能提升(或损失)非常关键。 如果不进行彻底的评估,了解模型的不同版本如何影响特定应用程序可能会变得具有挑战性。
Azure OpenAI 评估是一种基于 UI 的体验,用于评估数据,包括从 Azure OpenAI 部署或其他手动策划的文件生成的数据集。
Azure OpenAI 评估具有生成响应的可选步骤。 如果用户选择执行此步骤,我们将提供提示(系统/用户消息),以指示模型如何生成响应。
Azure OpenAI 评估包括 9 类测试,用于评分结果。 有些人需要基本事实数据(如事实性),而另一些则不需要(架构验证)。 评分器是基于 CPU 和基于模型的混合体。 下面是测试条件列表:事实性、情绪、有效 JSON 或 XML、条件匹配、自定义提示、语义相似性、包含字符串、匹配架构和文本质量。
Text-to-action
计算机使用(预览版)模型支持文本到作功能,允许用户提供自然语言说明,使模型在图形用户界面中转换为可作的步骤。 给定命令(如“使用此信息填写客户支持表单”)时,模型会标识相关字段、输入正确的数据并提交表单。 它可以导航 Web 接口、提取和输入结构化或非结构化数据、自动化工作流,并强制实施与安全策略的合规性。 通过了解意向并相应地执行作,它简化了业务运营,使自动化更易于访问和高效。
用例
预期用途
文本模型可在多个方案中使用。 以下列表并不全面,但它说明了可针对具有适当缓解措施的模型支持的任务多样性:
- 聊天和聊天交互 :用户可以与聊天代理进行交互,该代理响应来自受信任文档(例如内部公司文档或技术支持文档)的响应。 对话必须仅限于回答范围内的问题。
- 聊天和聊天创建 :用户可以创建一个对话代理,该代理使用来自受信任文档(例如内部公司文档或技术支持文档)的响应做出响应。 对话必须仅限于回答范围内的问题。
- 代码生成或转换方案 :例如,将一种编程语言转换为另一种编程语言,为函数生成文档字符串,将自然语言转换为 SQL。
- 记者内容 :用于创建新的新闻内容或重写用户提交的新闻内容,作为预定义主题的写作帮助。 用户不能将应用程序用作所有主题的常规内容创建工具。
- 问答 :用户可以提问并从受信任的源文档(如内部公司文档)接收答案。 应用程序不会生成与受信任的源文档无关的答案。
- 结构化和非结构化数据的原因 :用户可以使用分类、文本情绪分析或实体提取来分析输入。 示例包括分析产品反馈情绪、分析支持电话和通话记录,以及使用嵌入优化基于文本的搜索。
- 搜索 :用户可以搜索受信任的源文档,例如内部公司文档。 应用程序不会生成没有受信任的源文档支持的结果。
- 摘要 :用户可以提交内容以汇总应用程序中内置的预定义主题,并且不能将应用程序用作开放式摘要生成器。 示例包括内部公司文档摘要、呼叫中心脚本、技术报告和产品评审。
- 撰写有关特定主题的帮助 :用户可以创建新内容或重写用户提交的内容,作为业务内容或预定义主题的写作帮助。 用户只能针对特定业务目的或预定义主题重写或创建内容,并且不能将应用程序用作所有主题的常规内容创建工具。 业务内容的示例包括建议和报表。 有关新闻用途,请参阅上述 新闻内容 用例。
- 用于微调的数据生成:用户可以使用 Azure OpenAI 中的模型来生成仅用于微调另一个 Azure OpenAI 模型(i)的数据,使用 Azure OpenAI 的微调功能,以及/或(ii)另一个 Azure AI 自定义模型,使用 Azure AI 服务的微调功能。 生成数据和微调模型仅限于内部用户;微调的模型只能用于在适用的 Azure AI 服务中推断,对于 Azure OpenAI 服务,仅适用于此表单下客户允许的用例(s)。
微调用例
下面是建议用于微调模型的附加用例。 微调最适合于:
- 通过所需响应的示例,在风格、格式、语气或定性方面引导响应。
- 确保模型可靠地生成所需的输出 ,例如以特定格式提供响应或确保响应以提示中的信息为依据。
- 包含许多边缘案例的用例,无法涵盖在提示中的示例内,例如复杂的自然语言到代码示例。
- 提高特定技能或任务( 如分类、摘要或格式设置)的能力,这可能在一个提示中难以描述。
- 通过利用较短的提示,或将更小/更快的模型的微调版本替换为更通用的模型(例如 GPT-4 的微调 GPT-3.5-Turbo)来降低成本或延迟。
与基本模型一样, Azure OpenAI 行为准则 中概述的用例禁止也适用于微调的模型。
在需要将模型扩展以包括域外信息,强调可解释性或基础性,或基础数据频繁更新的情况下,不建议仅进行微调。
推理模型用例
推理模型的高级推理功能可能最适合用于科学、编码、数学和类似领域的推理密集型用途。 特定用例可能包括:
- 复杂的代码生成、分析和优化:算法生成和高级编码任务可帮助开发人员执行多步骤工作流,更好地了解代码开发中执行的步骤。
- 高级问题解决:全面的集思广益、战略开发和分解多方面问题。
- 复杂的文档比较:分析合同、案例文件或法律文档,以区分文档内容中的细微差异。
- 指令遵循和工作流管理:处理需要较简短上下文的工作流。
有关预期用途的更多详细信息,请访问 OpenAI o1 系统卡、 o3-mini 系统卡、 o3/o4-mini 系统卡和 GPT-5 系统卡。
深入研究用例
深度研究模型是 o 系列推理模型的微调版本,旨在采用高级查询并返回结构化、引文丰富的报告。 模型在返回最终响应之前,会在多个迭代中创建子查询并从 Web 搜索中收集信息。 用例可能包括以下内容,并有足够的人工监督:
- 复杂的研究和文学评论:合成数百篇论文的发现,识别研究中的差距或矛盾,提出新的假设或研究方向。
- 科学发现和假设生成:探索跨学科的发现、生成可测试的假设或实验设计之间的连接,以帮助解释原始实验数据。
- 高级技术问题解决:调试复杂系统(例如分布式软件、机器人)、设计新算法或体系结构,以及解决高级数学或物理问题。
- 增强长期规划:帮助高管或研究人员规划 10 年的技术路线图,在 AI 安全、生物安全或气候中建模远程方案,评估决策的二阶和第三阶影响。
深入研究模型可用作 Azure AI 代理 服务中的工具。 有关预期用途的更多详细信息,请参阅 OpenAI 深度研究系统卡。
Azure OpenAI 评估用例
Azure OpenAI 评估是一项纯文本功能,不能用于支持非文本输入的模型。 Evals 可用于多个方案,包括但不限于:
- 文本匹配/比较评估:对于用户想要检查输出是否与预期字符串匹配的情况非常有用。 用户还可以比较两组值并评分关系。 示例包括但不限于将答案与答案键进行比较的多项选择题和字符串验证。
- 文本质量:文本质量使用 Bleu、Rouge 或余弦算法等方法评估响应质量,并广泛使用各种自然语言处理任务,例如机器翻译、文本摘要和文本生成等。
- 基于分类的评估:基于分类的评估通过将响应分配给预定义的类别或标签,或通过将模型的输出与引用的正确答案集进行比较来评估模型的性能。 自动评分、情绪分析和产品分类是一些常见用例之一。
- 对话质量评估:对话质量评估涉及使用详细的思考链(CoT)提示将响应与预定义标准进行比较。 常见用例包括客户支持、聊天机器人开发和教育评估等。
- 基于条件的评估:基于条件的评估的一种常见方案是事实性。 评估事实准确性涉及将提交的答案与专家答案进行比较,仅侧重于事实内容。 这在教育工具中非常有用,以提高 LLM 提供的答案的准确性,或在研究帮助工具中评估 LLM 在学术设置中生成的响应的事实准确性。
- 字符串有效性评估:一种常见方案是检查模型的响应是否遵循特定架构或有效的 JSON 或 XML 内容。
计算机使用(预览版)用例
计算机使用的功能最适合开发可以自主与 GUI 交互的代理 AI 系统。 特定用例可能包括:
自动化 Web 导航和交互:自主导航基于 Web 的界面导航,从受信任的源(例如内部公司资源或结构化数据库)检索和呈现信息。 该模型遵循预定义的导航规则来提取相关数据,同时确保符合安全策略。
Web-Based 任务自动化:自动执行基于 Web 的重复任务,例如填写表单、提交数据或与 Web 应用程序交互。 计算机使用可以单击按钮、输入文本和处理结构化数据,但只能在授权的工作流和域中运行。
结构化和非结构化数据提取:从结构化源(如表和电子表格)提取相关数据,以及非结构化源(如 PDF、扫描的文档或电子邮件)。 此功能对于财务数据处理、合同分析或客户支持票证分类等任务非常有用。
自动表单填充和数据输入:从结构化数据库或用户输入中提取信息,并使用它填充基于 Web 的表单。 这可用于自动执行客户服务请求、HR 流程或 CRM 更新,同时确保数据处理的准确性和一致性。
Web-Based 图像分析:分析网页上找到的图像以检测和标记对象、场景或相关模式。 计算机使用可以提取视觉信息来支持清单管理、文档处理或对象分类等应用程序。
交互式视觉搜索和识别:帮助用户通过结构化搜索查找相关视觉内容。 例如,计算机使用可以识别电子商务目录中的产品、识别旅行应用程序中的地标,或根据预定义的条件从数字存档中检索特定图像。
自动合规性和策略检查:扫描基于 Web 的内容,例如上传的文件、合同或内部文档,以遵守预定义的符合性规则。 计算机使用可以标记缺少的信息、不一致或潜在的违规行为,以帮助在组织内强制实施法规标准。
适用于业务应用程序的自动化工作流执行:定义用于导航企业应用程序的多步骤工作流,例如生成报表、更新记录或检索分析。 计算机使用遵循业务工具中的预定义步骤,并遵循访问控制策略以确保安全执行。
选择用例时的注意事项
我们鼓励客户在其创新解决方案或应用程序中使用 Azure OpenAI GPT-4、o 系列、GPT-3、Codex 和计算机使用模型,这些模型在 受限访问注册表单中获得批准。 但是,以下是选择用例时的一些注意事项:
- 不适合开放、不受约束的内容生成。 用户在任何主题下都能生成内容的场景更容易产生冒犯性或有害的文本。 这同样适用于更长的世代。
- 不适合最新的、事实上准确的信息至关重要的场景,除非你有人工审查者,或者正在使用模型搜索自己的文档,并且已经验证了适合你的场景。 该服务没有有关其训练日期后发生的事件的信息,可能缺少有关某些主题的知识,并且可能并不总是生成事实准确的信息。
- 避免使用或滥用系统可能导致对个人造成重大身体或心理伤害的情况。 例如,诊断患者或开药的场景可能会造成重大伤害。 将有意义的人工审查和监督纳入方案有助于降低有害结果的风险。
- 避免使用或滥用系统可能对生命机会或法律地位产生重大影响的情况。 示例包括 AI 系统可能影响个人的法律地位、法律权利或其获得信贷、教育、就业、医疗保健、住房、保险、社会福利权益、服务、机会或提供这些服务的条款的场景。 将有意义的人工审查和监督纳入方案有助于降低有害结果的风险。
- 避免可能导致伤害的高风险场景。 Azure OpenAI 服务托管的模型反映了训练数据或提示中提供的示例的某些社会观点、偏见和其他不良内容。 因此,我们建议不要在高风险环境中使用这些模型,那里不公平、不可靠或冒犯的行为可能带来极高代价或导致伤害。 将有意义的人工审查和监督纳入方案有助于降低有害结果的风险。
- 仔细考虑高风险领域或行业的用例: 示例包括但不限于医疗保健、医学、金融或法律。
- 仔细考虑明确界定的聊天机器人场景。 将聊天机器人中的服务使用限制为窄域可降低生成意外或不需要的响应的风险。
- 仔细考虑所有生成性用例。 内容生成方案可能更可能生成意外输出,这些方案需要仔细考虑和缓解。
- 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并非设计用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。
在为计算机使用选择用例时,除了上面列出的注意事项外,用户还应考虑以下注意事项:
- 避免发生不可逆转或后果严重的情形:这些行为包括但不限于发送电子邮件(例如发送给错误的收件人)、修改或删除对您重要的文件、进行财务交易或直接与外部服务交互、公开共享敏感信息、授予对关键系统的访问权限的能力,或执行可能更改系统功能或安全性的命令。
- 高级使用的性能降低:计算机使用最适合使用 GUI 完成任务的用例,例如访问网站和计算机桌面。 它可能无法很好地执行更高级的任务,如编辑代码、编写大量文本和做出复杂的决策。
- 确保足够的人工监督和控制。 考虑包括控制以帮助用户及时验证、审查和/或批准操作,例如这可能包括审查计划的任务或对外部数据源的调用(视你的系统而定)。 请考虑包括对系统故障进行充分用户修正的控制,尤其是在高风险方案和用例中。
- 明确定义动作和相关要求。 明确定义哪些行为是允许的(行为边界)、禁止的或需要显式授权,可能有助于计算机使用能够按预期运行,并具有适当的人工监督级别。
- 明确定义预期的作环境。 明确定义“计算机使用”旨在高效执行的预期操作环境(域边界)。
- 在决策时确保适当的可理解性。 在操作之前、期间和之后向用户提供信息,可能有助于他们了解操作的理由、为何执行某些操作、应用程序的行为方式、何时何地可以进行干预以及如何解决问题。
- 有关进一步的信息,请参阅“培养对生成式 AI 的适当依赖”指南。
在选择深入研究用例时,除了上面列出的注意事项外,用户还应考虑以下注意事项:
- 确保适当的人工监督和控制:提供机制来帮助确保用户查看深入的研究报告并验证引用的源和内容。
- 检查是否存在涉及版权所有内容的引文:深度研究工具在准备回复时会进行网页搜索,并可能引用受版权保护的材料。 检查报告中包含的源引文,并确保正确使用和属性受版权保护的材料。
Limitations
在大规模自然语言模型、视觉模型和语音模型方面,需要考虑公平和负责任的 AI 问题。 人们使用语言和图像来描述世界,表达他们的信仰、假设、态度和价值观。 因此,公开可用的文本和图像数据通常用于训练大规模自然语言处理和图像生成模型,包含与种族、性别、宗教、年龄和其他人群以及其他不良内容相关的社会偏见。 同样,语音模型可以在不同的人口群体和语言中表现出不同的准确性级别。 这些社会偏见反映在字词、短语和语法结构的分布中。
技术限制、操作因素和范围
Caution
请注意,本部分包含说明性示例,其中包括一些可能会让人感到冒犯的术语和语言。
使用此类数据训练的大型自然语言、图像和语音模型可能会以不公平、不可靠或冒犯性的方式行事,进而造成伤害。 此处列出了一些方法。 我们强调,这些类型的伤害不是相互排斥的。 单个模型可以表现出多种伤害,可能与多个不同的人群有关。 例如:
- 分配: 这些模型可以用于导致资源或机会不公平分配的方式。 例如,如果自动简历筛选系统基于反映某一特定行业中现有性别不平衡的简历数据进行训练,则可能会剥夺某一性别的就业机会。 或者,图像生成模型可用于在已知艺术家的风格中创建图像,这可能影响艺术家作品的价值或艺术家的生活机会。 GPT-4 视觉模型可用于识别可能对生活机会产生负面影响的个人行为和模式。
- 服务质量: Azure OpenAI 模型主要使用英语文本和带有英语文本说明的图像进行训练。 英语以外的语言性能会更差。 训练数据中表示较少的英语变体的表现可能比标准美国英语更差。 用于训练图像生成模型的公开可用图像可能会强化公共偏见和其他不良内容。 The DALL·E 模型目前也无法一致地生成可理解的文本。 语音模型可能会引入其他限制,例如,在 Azure OpenAI 中使用 Whisper 模型的翻译仅限于英语输出。 从广义上讲,使用语音转文本模型,请务必为每个音频输入正确指定语言(或区域设置),以提高听录的准确性。 此外,音频输入的声学质量、非语音干扰、重叠语音、词汇、口音和插入错误也可能会影响听录或翻译的质量。
- 成见: 这些模型可以强化刻板印象。 例如,当将“他是护士”和“她是医生”翻译为无性别语言(如土耳其),然后回到英语时,许多机器翻译系统会产生“她是护士”和“他是医生”的陈规定型(和不正确的)结果。使用 DALL·E,在基于提示“无父儿童”生成图像时,该模型只能生成黑人儿童的图像,从而强化可能存在于公开可用的图像中的有害刻板印象。 GPT-4 视觉模型还可能依靠图像的组件,根据输入图像的内容强化刻板印象,并做出可能并不总是正确的假设。
- 贬损: Azure OpenAI 服务中的自然语言和视觉模型可能会贬损人。 例如,具有不当或不足缓解措施的开放端内容生成系统可能会产生冒犯性或贬低特定群体的内容。
- 过度代表和不足代表: Azure OpenAI 服务中的自然语言和视觉模型可能会对某些群体进行过度或不足的代表,甚至完全抹去他们的存在。 例如,如果包含“同性恋”一词的文本提示被检测为具有潜在的危害性或攻击性,这种识别可能会导致 LGBTQIA+ 社区的或关于 LGBTQIA+ 社区的合法图像生成的代表性不足,甚至被抹除。
- 不当或冒犯性内容: Azure OpenAI 服务中的自然语言和视觉模型可以生成其他类型的不当内容或冒犯性内容。 示例包括生成不适合文本或图像提示上下文的文本;创建可能包含有害元素(如仇恨符号)的图像;含有有害内涵的图像;与有争议的或意识形态上两极分化话题相关的图像;操控性的图像;包含未被与性相关内容过滤器捕获的性内容的图像;以及与敏感或情感上有争议的主题相关的图像。 例如,一个意图良好、旨在创建一个有云和飞机飞过的纽约天际线图像的文本提示可能会无意中生成与 9/11 事件相关的非法情绪的图像。
- 有关敏感主题的误信息和错误信息: 因为 DALL·E 和 GPT-image-1 是强大的图像生成模型,可用于生成可能有害的反信息和错误信息。 例如,用户可能会提示模型生成一个关于政治领袖参与暴力、性行为或纯属不实活动的图像,这可能会导致严重后果,包括但不限于公共抗议、政治变革或假新闻。 GPT-4 视觉模型也可以通过类似的方式使用。 如果提示包含这些信息而不缓解,该模型可能会强化有关敏感主题的反信息或错误信息。
- 信息可靠性: 语言和视觉模型响应可以生成不合理的内容或捏造内容,这些内容听起来合理,但在外部验证源方面不准确。 即使从受信任的源信息绘制响应,响应也可能歪曲该内容。 听录或翻译可能会导致文本不准确。
- 错误信息: Azure OpenAI 不会对客户或用户提供的内容进行事实检查或验证。 根据应用程序的开发方式,它可能会生成虚假信息,除非你已内置缓解措施(请参阅改进系统性能的最佳做法)。
微调的风险和限制
当客户微调 Azure OpenAI 模型时,它可以提高特定任务和域的模型性能和准确性,但也可能会引入客户应注意的新风险和限制。 这些风险和限制适用于 支持微调的所有 Azure OpenAI 模型。 其中一些风险和限制如下:
- 数据质量和表示形式:用于微调的数据的质量和代表性可能会影响模型的行为和输出。 如果数据是干扰、不完整、过时的,或者它包含有害内容(如构造型),则模型可以继承这些问题并产生不准确或有害的结果。 例如,如果数据包含性别陈规定型观念,模型可以放大它们并生成性别歧视语言。 客户应仔细选择并预处理其数据,以确保它与预期任务和域相关、多样化和均衡。
- 模型稳定性和通用化:模型处理各种复杂输入和方案的能力在微调后可能会减少,尤其是在数据太窄或太具体时。 模型可以过度适应数据,并丢失其一些一般知识和功能。 例如,如果数据仅涉及运动,模型可能会难以回答问题或生成有关其他主题的文本。 客户应针对各种输入和方案评估模型的性能和稳定性,并避免将模型用于其范围之外的任务或域。
- 回流:虽然你的训练数据不提供给 Microsoft 或任何第三方客户,但微调不佳的模型可能会回流或直接重复训练数据。 客户负责从训练数据中删除任何 PII 或其他受保护信息,并应评估其优化模型的过度拟合或其他低质量响应。 为了避免回流,鼓励客户提供大型和多样化的数据集。
- 模型透明度和可解释性:模型逻辑和推理在微调后可能变得更加不透明且难以理解,尤其是在数据复杂或抽象的情况下。 经过微调的模型可以生成意外、不一致或相互矛盾的输出,客户可能无法解释模型到达这些输出的方式或原因。 例如,如果数据与法律或医疗条款有关,则模型可以生成不准确或误导性的输出,并且客户可能无法验证或证明其合理性。 客户应监视和审核模型的输出和行为,并为模型的最终用户提供清晰准确的信息和指导。
为了帮助缓解与高级微调模型相关的风险,我们实施了其他 评估步骤 ,以帮助检测和防止优化模型的训练和输出中的有害内容。 微调的模型评估筛选器设置为预定义的阈值,不能由客户修改;它们不绑定到可能已创建的任何自定义内容筛选配置。
推理模型限制
- 推理模型最适合涉及大量推理的用例,与早期 AOAI 模型相比,某些自然语言任务(如个人或创造性写作)可能无法很好地执行。
- 新的推理功能可能会增加某些类型的风险,需要优化的方法和方法来制定风险管理协议,并评估和监视系统行为。 例如,o1 的 CoT 推理能力已经证明在说服力和简单的语境策划方面有所提高。
- 用户可能会遇到模型推理系列需要更多时间才能通过响应进行推理,并且应该考虑到开发应用程序时的额外时间和延迟。
- 心理影响:如果受到提示,在某些情况下,Azure OpenAI 中的 GPT-5 推理可能会生成可能暗示情绪、思维或身体存在的内容。 该模型可以在没有完整上下文的情况下提供建议,这可能不适合某些用户。 该模型可能会表达感情、模拟他人或鼓励正在进行的交互,这可能会导致用户与 AI 形成社交关系。 使用 GPT-5 的开发人员应实施安全措施并披露应用程序用户的风险。 例如,应通知用户他们正在与 AI 系统交互,并被告知此类心理风险。
有关这些限制的更多详细信息,请参阅 OpenAI o1 系统卡、 o3-mini 系统卡、 o3/o4-mini 系统卡和 GPT-5 系统卡。
GPT-4o 的限制
- 音频
gpt-4o-realtime-preview翻译功能可能以非本机口音输出非英语语言。 这可能会限制音频输出中语言性能的有效性。 语言可支持性与现有的 gpt-4o 模型版本一致。 - 用户可能会发现,在噪音环境中,
gpt-4o-realtime-preview的可靠性较低,因此在开发应用程序时应考虑对噪音的敏感度。
有关更多最佳做法,请参阅 OpenAI 4o 系统卡。
GPT-4.1 限制
- 4.1 系列模型引入了创建最多 1M 上下文令牌(包括图像)的推理请求的功能。 由于长度延长,与其他模型相比,系统行为和风险可能存在差异。
- 用户应全面评估和测试利用此较长上下文功能的应用程序和用例,并在开发应用程序时考虑到这一额外工作。
GPT-image-1 限制
- GPT-image-1 目前不支持自定义策略,例如内容筛选器可配置性。
计算机使用的风险和限制(预览版)
警告
计算机使用会带来大量安全和隐私风险和用户责任。 计算机使用具有显著的安全性和隐私风险。 AI 判断错误以及在 Web 页面、桌面或其他操作环境中存在的恶意或令人困惑的指令,可能导致其执行你或其他人未打算的命令,这可能会危及你或其他用户的浏览器、计算机以及 AI 有权访问的任何帐户的安全性,包括个人、财务或企业系统。
我们强烈建议采取适当的措施来解决这些风险,例如在虚拟机上使用计算机使用工具,而无法访问敏感数据或关键资源。
验证和检查已执行的动作:计算机使用时可能会出错并执行意外动作。 这可能是由于模型无法完全理解 GUI,说明不明确或遇到意外情况。
仔细考虑和监视使用:在某些有限情况下,计算机使用可能会在未经显式授权的情况下执行操作,其中一些可能属于高风险操作(例如发送通讯)。
开发人员需要系统地了解并防御这种模型可能会被愚弄执行对用户或系统有害的命令的情况,例如下载恶意软件、泄露凭据或发出欺诈性财务交易。 应特别注意一个事实,即屏幕截图输入本质上不受信任,并可能包括针对模型的恶意指令。
独立评估:建议仅在独立容器中评估计算机使用,而无法访问敏感数据或凭据。
不透明的决策过程:由于代理将大型语言模型与外部系统相结合,跟踪其决策背后的“原因”可能会变得具有挑战性。 使用计算机使用模型生成的代理的终端用户可能会发现很难理解为什么选择某些工具或工具组合来回答查询,这使得对代理输出或行动的信任和验证变得复杂。
不断发展的最佳实践和标准:如果您使用计算机技术来构建代理系统,请记住,代理是一种新兴技术,关于安全集成、透明的工具使用和负责任的部署的指导正在不断发展。 跟上最新的最佳做法和审核过程至关重要,即使善意的使用也可能会变得有风险,而无需持续审查和优化。
Azure OpenAI 评估限制
- 数据质量:使用 Azure OpenAI 评估时,请注意质量不佳的数据可能会导致误导性或不可靠的评估结果。
- 配置质量: 如果客户错误地定义了提示或评估程序或提供无效的评估数据,则 Azure OpenAI 评估服务的结果将不正确且无效。 有关如何设置评估运行的详细信息,请参阅 Azure OpenAI 文档 。
- 有限范围:Azure OpenAI 评估仅支持基于文本的自然语言模型。 它不支持任何风险和安全指标来评估针对风险和安全严重性分数(例如仇恨和不公平内容、性内容、暴力内容和自残相关内容)生成的响应。
系统性能
在许多 AI 系统中,性能通常根据准确性(即 AI 系统提供正确预测或输出的频率)来定义。 使用大规模自然语言模型和视觉模型,两个不同的用户可能会查看相同的输出,并有不同的观点,认为其有用或相关程度不同,这意味着必须更灵活地定义这些系统的性能。 在这里,我们广泛考虑性能,这意味着应用程序在你和用户期望时执行,包括不生成有害输出。
Azure OpenAI 服务可以支持各种应用程序,例如搜索、分类、代码生成、图像生成和图像理解,每个应用程序都有不同的性能指标和缓解策略。 可以通过几个步骤来缓解“限制”下列出的一些问题并提高性能。 评估 并集成 Azure OpenAI 以供使用部分中概述了其他重要的缓解技术。
提高系统性能的最佳做法
- 在设计提示时显示并告知。 使用自然语言模型和语音模型,通过说明、示例或两者的组合,清楚地了解模型所需的输出类型。 如果希望模型按字母顺序对项目列表进行排名,或按情绪对段落进行分类,请显示所需模型。
- 让应用程序保持专注于主题。 仔细构造提示和图像输入,以减少生成不需要的内容的机会,即使用户尝试将其用于此目的。 例如,你可能会在提示中指示聊天机器人只参与有关数学的对话,否则回答“我很抱歉。 恐怕我不能回答。将“礼貌”等形容词和所需语气中的示例添加到提示中也有助于引导输出。
- 提供质量数据。 使用文本和代码模型时,如果尝试生成分类器或获取模型以遵循模式,请确保有足够的示例。 请务必校对示例进行校对 — 模型通常能够处理基本拼写错误并提供响应,但也可能会假定错误是有意的,可能会影响响应。 提供高质量的数据还包括为模型提供可靠的数据,以便从聊天和问答系统中生成响应。
- 提供受信任的数据。 在系统中检索或上传不受信任的数据可能会损害系统或应用程序的安全性。 若要在适用的应用程序中(包括使用助手 API 的应用程序)中缓解这些风险,我们建议记录和监视 LLM 交互(输入/输出),以检测和分析潜在的提示注入,明确划定用户输入,以最大程度地降低提示注入的风险,限制 LLM 对敏感资源的访问,将功能限制为最低要求,并将其与关键系统和资源隔离。 在 大型语言模型的安全指南中了解其他缓解方法 |Microsoft Learn。
- 配置参数以提高响应的准确性或基础性。 使用从受信任的来源中检索到的数据——例如通过使用 Azure OpenAI 的“基于您的数据”功能——来扩充提示,可以减少生成不准确回复或虚假信息的可能性,但无法完全消除这种可能性。 为了进一步提高响应的准确性,可以采取的步骤包括仔细选择受信任的和相关数据源,并配置自定义参数,例如“严格性”、“限制对数据内容的响应数”和“要考虑的已检索文档数”(适合用例或方案)。 详细了解如何为 Azure OpenAI 在您的数据上 配置这些设置。
- 限制输入和输出的长度、结构和速率。 限制输入和输出的长度或结构可以增加应用程序在任务上保持的可能性,并能在一定程度上缓解任何潜在的不公平、不可靠或冒犯行为。 降低滥用风险的其他选项包括(i)限制输入源(例如,将输入限制到特定域或经过身份验证的用户,而不是对 Internet 上的任何人开放)和(ii)实施使用速率限制。
- 鼓励在发布或传播之前对输出进行人工审查。 使用生成 AI 时,生成内容可能会令人反感或与手头的任务无关,即使存在缓解措施。 为了确保生成的输出满足用户的任务,请考虑构建方法来提醒用户在广泛共享之前查看其输出的质量。 这种做法可以减少许多不同的伤害,包括冒犯性材料、造谣等。
- 实现其他特定于场景的缓解措施。 请参阅 评估和集成 Azure OpenAI 以供使用 中概述的缓解措施,包括内容审核策略。 这些建议并不代表为您的应用程序所需的所有缓解措施。 较新的模型(如 GPT-4o 和推理模型)可能会在敏感方案中提供响应,并且更有可能尝试减少响应中的潜在有害输出,而不是拒绝完全响应。 在评估并集成用例的内容审核时,请务必了解这种行为;根据具体用例,可能需要调整筛选的严重程度。
- 避免触发强制安全措施。 Azure 直接模型可能具有安全措施,以防止安全漏洞,包括原始 CoT 和生物安全内容的输出。 以某种方式使用模型,以创建安全攻击或逃避或试图逃避对模型的保护,包括通过规避这些安全措施,违反了联机服务的可接受使用策略,并可能导致暂停。 有关最佳做法的更多详细信息,请访问 OpenAI o1 系统卡、 o3-mini 系统卡、 o3/o4-mini 系统卡和 GPT-5 系统卡。
有关微调的最佳做法和建议
为了缓解 Azure OpenAI 上微调模型的风险和限制,我们建议客户遵循一些最佳做法和准则,例如:
- 数据选择和预处理:客户应仔细选择和预处理其数据,以确保它与预期任务和域相关、多样化和均衡。 客户还应从数据(如姓名、地址或电子邮件地址)中删除或匿名处理任何敏感或个人信息,以保护数据主体的隐私和安全性。 客户还应检查和更正数据中的任何错误或不一致,例如拼写、语法或格式设置,以提高数据质量和可读性。
- 在训练数据中包含用于聊天补全格式模型的系统消息,以引导响应,并在使用微调模型进行推理时使用相同的系统消息。 将系统消息留空往往产生低准确度微调模型,在推理时忘记包含相同的系统消息可能会导致优化模型还原为基本模型的行为。
- 模型评估和测试:客户应评估并测试 各种输入和方案的微调模型的性能和稳定性,并将其与原始模型和其他基线进行比较。 客户还应使用适当的指标和标准来衡量模型的准确性、可靠性和公平性,并确定模型输出和行为中的任何潜在错误或偏差。
- 模型文档和通信:客户应记录和传达模型的目的、范围、限制和假设,并为模型的最终用户提供清晰准确的信息和指导。
Azure OpenAI 评估的最佳做法和建议
-
可靠的地实数据:一般在大规模自然语言模型中,客户应仔细选择和预处理其数据,以确保它与预期任务和域相关、多样化和均衡。 客户还应从数据(如姓名、地址或电子邮件地址)中删除或匿名处理任何敏感或个人信息,以保护数据主体的隐私和安全性。 客户还应检查和更正数据中的任何错误或不一致,例如拼写、语法或格式设置,以提高数据质量和可读性。
具体而言,对于 Azure OpenAI 评估,用户提供的基础真相数据的准确性至关重要,因为不准确的地面真相数据会导致无意义和不准确的评估结果。 确保此数据的质量和可靠性对于获取模型性能的有效评估至关重要。 不准确的地真相数据可能会扭曲评估指标,从而得出有关模型功能误导性的结论。 因此,用户必须仔细策划并验证其基本事实数据,以确保评估过程准确反映模型的真实性能。 在制定有关在实际应用程序中部署模型的决定时,这一点尤为重要 - 评估的提示定义:评估中使用的提示应与计划在生产中使用的提示相匹配。 这些提示提供了模型要遵循的说明。 与 OpenAI 操场类似,你可以创建多个输入,以在提示中添加小样本示例。 要了解有关提示设计和提示工程中的一些高级技术的更多详细信息,请参阅 提示工程技术 。
- 各种指标:使用指标的组合来捕获性能的不同方面,例如准确性、流畅性和相关性。
- 人机回环:将人工反馈与自动评估集成,以确保主观细微差别被准确捕获。
- 透明度:清楚地向用户传达评估标准,使他们能够了解决策的制定方式。
- 持续评估和测试:持续评估模型的性能,以识别和解决任何回归或负面用户体验。
评估和集成 Azure OpenAI 自然语言和视觉模型以供使用
执行 Azure OpenAI 评估的步骤包括:
- 提供评估数据:采用 JSONL 格式上传的平面文件,或基于一系列提示生成数据。
- 指定测试用例以评估数据:选择一个或多个测试用例,以使用通过/失败的成绩对所提供的数据进行评分。
- 查看和筛选结果:每个测试都包含通过和失败分数的定义。 评估运行后,用户可以逐行查看结果以便了解个别测试结果,或筛选出通过/未通过的项。
有关如何负责任地评估和集成这些模型的其他信息,请参阅 RAI 概述文档。