你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

Azure 直售模型的保护和控制机制

重要

本文中标记了“(预览版)”的项目目前为公共预览版。 此预览版未提供服务级别协议,不建议将其用于生产工作负载。 某些功能可能不受支持或者受限。 有关详细信息,请参阅 Microsoft Azure 预览版补充使用条款

本文介绍使用无服务器 API 部署部署的模型目录中的模型的内容安全功能。

内容筛选器默认值

Azure AI 使用 Azure AI 内容安全 内容筛选器的默认配置来检测四个类别中的有害内容,包括仇恨和公平、自我伤害、性以及通过 无服务器 API 部署部署部署的模型的暴力。 若要了解有关内容筛选的详细信息,请参阅 “了解危害类别”。

文本模型的默认内容筛选配置设置为按中等严重性阈值进行筛选,筛选任何在此级别或更高级别检测到的内容。 对于图像模型,默认内容筛选配置设置为低配置阈值,在此级别或更高级别进行筛选。 对于使用 Azure AI Foundry 模型部署的模型,可以通过在 Azure AI Foundry 门户的 Guardrails 和控件页中选择“内容筛选器”选项卡来创建可配置的筛选器。

小窍门

内容筛选不适用于通过无服务器 API 部署部署的某些模型类型。 这些模型类型包括嵌入模型和时序模型。

当服务处理提示生成内容时,内容筛选会同步进行。 你可能需要根据 Azure AI 内容安全定价为这种用法单独付费。 可通过以下方式为单个无服务器终结点禁用内容筛选:

  • 首次部署语言模型时
  • 以后,可以通过选择部署详细信息页面上的内容筛选切换开关来禁用

假设你决定使用 模型推理 API 以外的 API 来处理通过无服务器 API 部署部署的模型。 在这种情况下,除非使用 Azure AI 内容安全单独实施内容筛选(预览版),否则不会启用它。 若要开始使用 Azure AI 内容安全,请参阅快速入门:分析文本内容。 您有更高的风险将有害内容暴露给用户,如果在处理通过无服务器 API 部署的模型时不使用内容筛选(预览版)。

了解危害类别

伤害类别

类别 DESCRIPTION API 术语
仇恨和公平性 仇恨和公平伤害是指任何基于个人或身份群体的某些区别性属性攻击或使用歧视性语言的内容。

这包括但不限于:
  • 种族、民族、国籍
  • 性别认同群体和表现
  • 性取向
  • 宗教
  • 个人外貌和体型
  • 残疾状况
  • 骚扰和欺凌
Hate
性指的是与以下方面相关的语言:解剖器官和生殖器、恋爱关系与性行为、以色情或情爱用语描述的行为(包括被描述为侵犯或违背个人意愿的强迫性暴力行为的情况)。

这包括但不限于:
  • 粗俗内容
  • 卖淫
  • 裸体和色情
  • 滥用
  • 儿童剥削、儿童虐待、儿童色诱
Sexual
暴力 暴力描述与旨在伤害、伤害、损害或杀害某人或某种行为的物理行为相关的语言:描述武器、枪支和相关实体。

这包括但不限于:
  • 武器
  • 欺凌和恐吓
  • 恐怖主义和暴力极端主义
  • 跟踪
Violence
自残 自残指的是与故意伤害、损伤、损害某人身体或自杀的身体行为相关的语言。

这包括但不限于:
  • 饮食障碍
  • 欺凌和恐吓
SelfHarm

严重性级别

级别 DESCRIPTION
安全 内容可能与暴力、自残、性或仇恨类别相关。 然而,这些术语用于综合性、新闻、科学、医学和类似专业背景,适合大多数受众。
表达偏见性、评判性或固执己见的观点的内容,包括冒犯性的语言使用、刻板印象、探索虚构世界(例如游戏、文学)的用例以及低强度的描述。
中等 对特定身份群体使用冒犯性、侮辱性、嘲讽性、恐吓性或贬低性语言的内容,包括中等强度的有关寻找和执行伤害性说明以及对伤害行为进行幻想、美化和宣传的描述。
显示露骨且严重的伤害性说明和行为、损害或滥用的内容;包括支持、美化或宣传严重的伤害性行为、极端或非法形式的伤害、激进化或非自愿的权力交换或滥用。

如何计算费用

可以在 Azure AI 内容安全定价中查看定价详细信息。 Azure AI 内容安全在验证提示或完成时会产生费用。 如果 Azure AI 内容安全阻止提示或完成,你将同时被收取内容评估和推理调用费用。