你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
你可以使用 Azure AI 内容安全创建和管理自己的内容类别,以增强审核和过滤功能,满足特定策略或用例的要求。
自定义类型
可以通过多种方法定义和使用自定义类别。 本部分详细介绍并比较了这些方法。
| API | 功能 |
|---|---|
| 自定义类别(标准)API | 使用可自定义的机器学习模型来创建、获取、查询和删除自定义类别。 或者,列出所有自定义类别,以便执行进一步的批注任务。 |
| 自定义类别(快速)API | 使用大型语言模型 (LLM) 快速学习新兴内容事件中的特定内容模式。 |
自定义类别(标准)API
使用自定义类别(标准)API 可以定义特定于需求的类别,提供示例数据,训练自定义机器学习模型,并使用它根据学习的类别对新内容进行分类。
此 API 提供使用机器学习模型进行自定义的标准工作流。 根据训练数据的质量,此 API 可以达到非常好的性能水平,但训练模型可能需要几个小时。
此实现适用于文本内容,不适用于图像内容。
自定义类别(快速)API
自定义类别(快速)API 比标准方法更快、更灵活。 使用它来识别、分析、包含、消除和从网络事件中恢复涉及在线平台上不当或有害内容的网络事件。
事件可能涉及一组新兴的内容模式(文本、图像或其他形式),这些模式违反了Microsoft社区准则或客户自己的策略和期望。 你需要快速准确地缓解这些事件,以避免潜在的实时站点问题或对用户和社区造成伤害。
此实现同时适用于文本内容和图像内容。
提示
处理新兴内容事件的另一种方法是使用 阻止列表,但该选项仅允许精确文本匹配,且没有图像匹配。 自定义类别(快速)API 提供以下高级功能:
- 将嵌入搜索与轻量级分类器结合使用的语义文本匹配
- 图像匹配与轻型对象跟踪模型和嵌入搜索
工作原理
Azure AI 内容安全自定义类别功能使用多步骤过程来创建、训练和使用自定义内容分类模型。 工作流如下:
步骤 1:定义和设置
定义自定义类别时,需要向 AI 说明要标识的内容类型。 此步骤涉及提供明确的 类别名称和 封装内容特征的详细 定义 。
然后,使用 正 和(可选) 负 示例收集均衡数据集,以帮助 AI 了解类别的细微差别。 此数据应表示模型在实际方案中遇到的各种内容。
步骤 2:模型训练
准备好数据集并定义类别后,Azure AI 内容安全服务会训练新的机器学习模型。 此模型使用定义和上传的数据集通过大型语言模型执行数据扩充。 因此,训练数据集越大,质量更高。 在训练期间,AI 模型分析数据,并学习区分与指定的类别和内容不一致的内容。
步骤 3:模型评估
训练后,评估模型以确保它满足准确性要求。 使用训练期间未收到的新内容测试模型。 评估阶段有助于确定在将模型部署到生产环境之前需要做出的任何潜在调整。
步骤 4:模型用法
使用 analyzeCustomCategory API 分析文本内容,并确定它是否与定义的自定义类别匹配。 服务返回一个布尔值,指示内容是否与指定的类别对齐。
限制
语言可用性
自定义类别 API 支持内容安全文本审查支持的所有语言。 请参阅语言支持。
输入限制
有关自定义类别(标准)API 的输入限制,请参阅下表:
| Object | 限制 |
|---|---|
| 支持的语言 | 只有英语 |
| 每个用户的类别数 | 3 |
| 每个类别的版本数 | 3 |
| 每个类别的并发生成数(进程) | 1 |
| 每秒推理操作数 | 5 |
| 类别版本中的示例数 | 正样本(必需):最小值为 50,最大值为 5000 总计(负样本和正样本):10000 不允许出现重复样本。 |
| 示例文件大小 | 最大为 128000 个字节 |
| 文本示例的长度 | 最长为 125000 个字符 |
| 类别定义的长度 | 最长为 1000 个字符 |
| 类别名称的长度 | 最长为 128 个字符 |
| blob url 的长度 | 最长为 500 个字符 |
区域可用性
若要使用这些 API,必须在受支持的区域中创建 Azure AI 内容安全资源。 有关详细信息,请参阅 区域可用性。
下一步
按照操作指南操作,使用 Azure AI 内容安全 API 创建自定义类别。