你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义视觉的用例

重要

仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。

Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

自定义视觉简介

自定义视觉是一种图像识别服务,可用于生成、部署和改进自己的图像识别系统。 该服务根据其视觉特征对图像中的对象进行分类或检测,使你可以指定要预测的类别,以及系统从中学习的示例图像。

自定义视觉的作用

自定义视觉服务使用机器学习来分析图像。 提交既包含又缺少相关特征的图像。 你自行标记图像。 然后,该算法使用此数据训练自身,并通过测试这些相同图像本身来计算自己的准确性。 训练算法后,可以测试、重新训练并最终将其用于图像识别应用程序或解决方案来推断新图像的预测。 还可以导出模型本身以供脱机使用。

有关详细信息,请参阅 什么是自定义视觉?

术语和定义

条款 定义
基本模型 基础模型是模型体系结构和训练数据的组合,用于优化特定类型任务(例如图像分类或对象检测)的体系结构。 基础模型由Microsoft构建,用作各种领域的转移学习过程的起点,例如常规、食品、地标、零售、徽标和货架上的产品。
模型训练 这是指基于客户提供的标记图像训练模型的过程。
迁移学习 使用客户提供的培训数据重新训练基础模型来解决客户尝试解决的特定问题。 训练数据可能是他们想要识别的类和图像类型的组合。
班级 经过训练的模型具有一组类,在分析输入图像时,它将分配这些类。 使用自定义视觉生成模型时,可以定义希望模型输出的类集,并为每个类提供标记的训练数据。
类别准确率对 类准确性对是一组两个值,由类的名称和与类检测关联的置信度分数的浮点值组成。 例如,某个类别可能是图像集中显示的菠萝或梨等水果。 类别准确率对是特定类和该类在图像中显示的置信度分数(例如,菠萝:93.53%)。
图像分类功能 此功能以图像作为输入,并输出一组类别与准确性成对的数据,这些数据属于图像级属性(它们未指定图像中的具体位置)。 例如,一对类别可能是水果与非水果,其中图像的大部分被相应的类别占据。
对象检测功能 此功能将图像作为输入,并输出一组类别准确性对,这些对包括在图像中检测到这些类别的位置的边界框坐标。 例如,模型可能检测出图像中车辆所在位置的边界框坐标。
边界框 一组四个数值,表示检测到的对象左上角相对于图像左上角的 x、y 像素坐标、检测到的对象宽度、检测到的对象宽度。
项目 一个逻辑分组,其中包含训练数据、从该数据训练的模型以及为这些模型创建的预测终结点。

自定义视觉的功能

自定义视觉的功能可以分为两个功能。 图像分类 将一个或多个标签应用于图像。 对象检测 返回图像中检测到的对象的坐标,这些对象被赋予相应的标签。 这两个功能都通过 API、SDK 和网站提供: https://customvision.ai

自定义视觉支持通过以下高级功能创建和使用自定义 Azure AI 视觉模型。 它们表示要完成的两个核心活动,以准备模型以供使用:

  • 数据标记 是使用模型需要分类的图像类对训练图像进行批注的过程。 在对象检测的情况下,使用边界框标注训练图像,这些边界框会将在图像中检测到的对象围起来。 自定义视觉提供了一个 Web 门户,你可以在其中使用你选择的类来标记训练图像。 标记训练数据后,可以使用它来训练模型。

  • 模型训练 使用基础模型和转移学习来训练针对客户提供的图像和相应类优化的模型。 模型的质量高度取决于你提供的训练数据的量和质量。 自定义视觉通过对提供的训练数据进行拆分,提供准确性指标,从而估算模型性能。

准备好使用模型时,可以通过发送图像进行处理来进行 模型预测 。 可以在自定义服务云中托管模型,也可以以各种格式导出模型,以便根据需要使用。

为了随时间推移提高模型的质量,可以从生产部署采样数据,或在标记数据时收集更多数据并重新训练模型。 为了帮助完成此过程,可以使用智能标签,它为上传的一组图像建议标签。

示例用例:

对于以下方案,可以使用 Azure AI 自定义视觉:

  • 自动视觉警报: 能够监视视频流,并在检测到某些情况时触发警报。 例如,当检测到蒸汽或河流上的泡沫或动物存在时,你可能希望发出警报。
  • 提高了手动检查的效率: 在零售中,产品识别使你能够减少你或员工在计数唯一 SKU 上花费的时间,或识别所有应在货架上的 SKU 是否齐全。
  • 扩大检查范围: 检测缺陷时,人类并不总是能够检查生产线下的所有项目。 相反,可以使用自定义视觉来涵盖无法手动检查的一组项目,并通知哪些项目需要你手动检查。
  • 提高对象可发现性: 使用元数据标记图像后,可以更轻松地查找图像。 例如,可以基于产品目录或其他想要筛选的视觉功能标记图像。 自定义视觉允许在引入时使用元数据标记图像。

选择用例时的注意事项

我们鼓励客户在其创新解决方案或应用程序中利用自定义视觉。 但是,以下是选择用例时的一些注意事项:

  • 不适合面部检测或识别。 自定义视觉并非为识别或确认图像中的个人而设计和测试。 相反,请考虑使用 Azure AI 服务中的 Face,该服务提供多个可供使用的人脸检测器。

  • 不适合生物识别。 自定义视觉未设计或测试,用于根据虹膜识别、指纹识别、护照或其他形式的 ID 等生物识别标记来验证个人的身份,以便对人员进行识别和验证。

  • 不适合训练包含数百个类和标记的大型图像集的自定义模型Azure AI 视觉 具有这些功能作为预构建的模型,用于使用数千个标记进行大规模图像处理。

  • 不适合检测或提取文本。 自定义视觉未设计或测试用于处理图像中的文本。 请改为使用光学字符识别(OCR)。

  • 不适用于生成可作为辅助功能用途的替代文本的人工可读图像描述。 Custom Vision 未被设计或测试用于生成此目的的描述。 Azure AI 视觉 具有这些功能来生成图像说明,并且最适合此目的。

  • 请勿将自定义视觉用于医疗诊断,包括用作医疗设备、临床支持、诊断工具或其他旨在用于诊断、治愈、缓解、治疗或预防疾病或其他状况的技术,Microsoft不会授予任何将此功能用于上述目的的许可证或权利。 此功能不旨在代替专业人员医疗建议或保健意见、诊断、治疗或医疗保健专业人员临床判断而实施或部署,并且不应用作此用途。 客户对任何将自定义视觉用于医疗诊断的行为负全责。

  • 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案并未设计为按适用服务条款和相关行为准则禁止的方式使用,也不得按这类方式使用。

后续步骤