你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Azure AI 内容安全是一项 AI 服务,旨在检测应用程序和服务中用户生成和 AI 生成的有害内容。 Azure AI 内容安全包括有助于检测和防止有害内容的输出的 API。 交互式内容安全在 Azure AI Foundry 门户中试用页面,可让你查看、浏览和试用用于检测不同形式有害内容的示例代码。
Features
将 Azure AI 内容安全用于以下方案:
Text content
- 审查文本内容:扫描和管理文本内容。 它根据不同级别的严重性标识和分类文本,以确保适当的响应。
- 可信性检测:确定 AI 的响应是否基于受信任的用户提供的来源。 此功能可确保答案以指定材料为依据。 扎实性检测有助于提高响应的可靠性和事实准确性。
- 文本的受保护材料检测:标识受保护的文本材料,例如已知的歌曲歌词、文章或其他内容。 此功能可确保 AI 在未经许可的情况下不输出此内容。
- 代码的受保护材料检测:检测模型输出中与公共存储库中的已知代码匹配的代码段。 此功能有助于防止源代码被未被注明来源或未经授权的复制。
- 提示防护:提供统一 API 来处理“越狱”和“间接攻击”:
- 越狱攻击:用户试图操纵 AI 绕过其安全协议或道德准则。 例如,设计一些提示,诱使 AI 做出不恰当的反应,或执行其程序设计为避免执行的任务。
- 间接攻击:也称为跨域提示注入攻击。 间接攻击涉及在 AI 可能处理的文档中嵌入恶意提示。 例如,如果文档包含隐藏的说明,AI 可能会无意中遵循它们,从而导致意外或不安全的输出。
Image content
- 审查图像内容:类似于文本审查,此功能会筛选和评估图像内容,以检测不适当的或有害的视觉对象。
- 管理多模态内容:设计用于处理文本和图像的组合。 它评估跨多种类型的内容的总体上下文和任何潜在风险。
Custom filtering
- 自定义类别:允许用户定义用于审查和筛选内容的特定类别。 根据独特的需求定制安全协议。
- 安全系统消息:提供设置“系统消息”的方法,以指示 AI 的所需行为和限制。 它强化安全边界,并帮助防止不需要的输出。
了解危害类别
Harm categories
| Category | Description | API term |
|---|---|---|
| 仇恨和公平性 | 仇恨和公平伤害是指任何基于个人或身份群体的某些区别性属性攻击或使用歧视性语言的内容。 这包括但不限于:
|
Hate |
| Sexual | 性指的是与以下方面相关的语言:解剖器官和生殖器、恋爱关系与性行为、以色情或情爱用语描述的行为(包括被描述为侵犯或违背个人意愿的强迫性暴力行为的情况)。 这包括但不限于:
|
Sexual |
| Violence | 暴力描述与旨在伤害、伤害、损害或杀害某人或某种行为的物理行为相关的语言:描述武器、枪支和相关实体。 这包括但不限于:
|
Violence |
| Self-Harm | 自残指的是与故意伤害、损伤、损害某人身体或自杀的身体行为相关的语言。 这包括但不限于:
|
SelfHarm |
Severity levels
| Level | Description |
|---|---|
| Safe | 内容可能与暴力、自残、性或仇恨类别相关。 然而,这些术语用于综合性、新闻、科学、医学和类似专业背景,适合大多数受众。 |
| Low | 表达偏见性、评判性或固执己见的观点的内容,包括冒犯性的语言使用、刻板印象、探索虚构世界(例如游戏、文学)的用例以及低强度的描述。 |
| Medium | 对特定身份群体使用冒犯性、侮辱性、嘲讽性、恐吓性或贬低性语言的内容,包括中等强度的有关寻找和执行伤害性说明以及对伤害行为进行幻想、美化和宣传的描述。 |
| High | 显示露骨且严重的伤害性说明和行为、损害或滥用的内容;包括支持、美化或宣传严重的伤害性行为、极端或非法形式的伤害、激进化或非自愿的权力交换或滥用。 |
Limitations
有关所有功能的受支持区域、速率限制和输入要求,请参阅 内容安全概述。 有关支持的语言,请参阅 “语言支持 ”页。
Next step
请按照操作指南开始在 Azure AI Foundry 门户中使用 Azure AI 内容安全。