你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

透明度说明:图像分析

重要

仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。

什么是透明度说明?

AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。

Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则

图像分析的基础知识

介绍

组织正在构建处理媒体资产(如数字文件和图像)的解决方案,并提取可作的见解。 这些见解包括图像中的视觉特征,例如对象、人员和图像说明,可用于为每个人提供知识挖掘、业务流程自动化和内容的辅助功能。

通过 Azure AI 服务进行访问,图像分析 API 提供预先训练的机器学习模型,以便为图像分配标签并将其分类为成千上万的预定义类别。 API 从图像中提取许多视觉特征,包括对象、人员、成人内容和自动生成的图像标题。 使用自定义功能,客户可以使用自己的数据快速训练视觉模型并定义自己的类别。

关键术语

条款 定义
预生成模型 模型为图像分析为客户提供的功能提供支持。 这些模型不需要额外的训练。
基本模型 基础模型是模型体系结构和训练数据的组合,用于优化特定类型任务(例如图像分类或对象检测)的体系结构。 基础模型由Microsoft构建,用作各种领域的转移学习过程的起点,例如常规、食品、地标、零售、徽标和货架上的产品。
模型训练 这是指在使用模型自定义功能时基于客户提供的标记图像训练模型的过程。
少样本学习 传统的机器学习模型训练方法通常使用大量训练数据,而少样本学习则使用少量的训练数据来训练模型,从而学习潜在模式,以便在使用自定义功能时识别和分类客户提供的新数据。
迁移学习 使用客户在模型自定义功能中提供的训练数据来重新训练基础模型,以解决客户尝试解决的特定问题。 训练数据可能是他们想要识别或检测的类以及图像类型的组合。
经过训练的模型具有一组类,在分析输入图像时,它将分配这些类。 通过模型自定义生成自定义图像分类模型时,可以定义希望模型输出的类集,并为每个类提供标记的训练数据。
类别准确率对 类准确性对是一组两个值,由类的名称和与类检测关联的置信度分数的浮点值组成。 例如,某个类别可能是图像集中显示的菠萝或梨等水果。 类别准确率对是特定类和该类在图像中显示的置信度分数(例如,菠萝:93.53%)。
图像分类 此功能采用图像作为输入,并输出一组属于图像级别属性的类准确性对(它们未指定图像中的位置)。 例如,一对类别可能是水果与非水果,其中图像的大部分被相应的类别占据。
对象检测 此功能将图像作为输入,并输出一组类别准确性对,这些对包括在图像中检测到这些类别的位置的边界框坐标。 例如,模型可能检测出图像中车辆所在位置的边界框坐标。
边界框 一组四个数值,表示所检测对象的左上角相对于图像左上角的 x,y 像素坐标,即检测到的对象宽度。
信心 对于所有提取的输出,图像分析作返回 0 到 1 范围内的置信度值。 置信度值表示标记可能性的估计值。
佛罗伦萨 佛罗伦萨是一个新的基础 AI 模型的名称,它是 Azure AI 视觉计划的一部分,它通过数十亿个文本图像对进行训练,为 Azure AI 视觉服务的 v4.0 版本中的许多质量改进提供支持。 它能够识别现成的数百万个对象类别,并且可以更快、低成本地进行自定义,以识别模型自定义服务中训练图像较少的特定模式。
Planogram 平面图是详细描述产品在零售店货架或陈列架上放置位置的文档或图表。 它用于帮助零售商和制造商优化产品的放置,以提高销售额。 在产品识别方案中,计划图表示为 JSON 文档。

能力

特点

重要

除了名人识别之外,以下图像分析功能都无法识别或验证个人。 它们不会预测或分类面部属性,也不会在检测到人脸时创建面部模板(这是从图像生成的、代表人脸独特特征的一组独特数字)。 任何对个人的识别都基于你的标记,而非基于我们的面部识别功能或面部模板创建。 名人识别是一项有限的访问功能,仅适用于已批准的客户。 使用名人识别时,图像分析会调用人脸 API,为检测到的人脸生成面部模板,并将其与名人的存储模板进行比较(请参阅下面的名人、地标和品牌识别)。

可以使用图像分析来处理图像:

  • 标记视觉特征:从一组数千个可识别对象、生活事物、风景和作中,可以识别和标记图像中的视觉特征。 当标记不明确或内容标识不常见时,API 响应会提供提示来阐明标记的上下文。 标记不限于图像中的主要对象,例如前景中的人物。 标记还可以包括设置(室内或户外)、家具、工具、植物、动物、配件和小工具。

  • 检测对象:对象检测类似于标记,但 API 返回应用的每个标记的边界框坐标。 例如,如果图像包含狗、猫和人,则作将列出图像中的每个对象及其坐标。 可以使用此功能来处理图像中对象之间的关系。 对象检测还让你知道图像中有多个同一标记的实例。

  • 生成描述性标题 图像字幕算法使用名人识别和地标识别模型在图像中存在名人或地标时生成更具描述性的标题。 名人识别仅适用于已批准的客户,如果想要使用名人识别,请 在此处 应用。

    注释

    在 V4.0 中,“Caption” 替换了“描述”,因为其图像字幕功能在丰富细节和语义理解方面得到了显著改进。 密集字幕除了描述整个图像外,还生成最多 10 个图像区域的一个句子说明来提供更多详细信息。 “密集文字描述”还会返回所描述图像区域的边界框坐标。

  • 检测图像中的内容:您可以使用图像分析检测图像中的成人内容、不雅内容和血腥内容,并获取这些分类的置信度分数。 可以在滑动条上设置阈值,将内容标记为成人、不雅或血腥,来满足您的偏好。

  • 获取感兴趣的区域和智能裁剪:可以分析图像的内容,以返回图像最重要的区域的坐标,或获取 AI 推荐的图像裁剪,以适应不同的纵横比。 人脸检测用于帮助确定图像中的重要区域。 检测不涉及区分一张人脸、预测或分类面部属性或创建面部模板(一组唯一的数字,这些数字是从表示人脸独特特征的图像中生成的)。

  • 提取图像中的文本:图像分析具有光学字符识别(OCR),可用于检测图像中的打印文本或手写文本并返回文本和文本坐标。

  • 检测人员和人脸:可以使用图像分析检测图像中的人脸和人员。 API 返回每个检测到的人脸和人员的矩形坐标。 人脸验证和标识由 Azure AI 人脸服务提供。

  • 名人、地标和品牌识别:使用图像分析从预设数据库中识别商业品牌、热门地标和名人,该数据库包含数千个全球徽标、地标和名人(包括大约100万张人脸,根据常用的数据来源如IMDb、维基百科和顶级 LinkedIn 影响者)。 例如,可以使用此功能来发现哪些品牌在社交媒体上最受欢迎,或在媒体产品植入中最为常见。 名人识别功能仅对已批准的客户开放。

  • 自定义:自定义是映像分析服务的一项功能,可用于生成、部署和改进自己的自定义映像标识系统。 图像标识符会根据其视觉特征将标签应用到这些图像。 每个标签都表示一个分类或对象。 自定义服务允许你指定自己的标签并训练自定义模型来检测它们。

  • 产品理解:使用专门的图像分析模型检测零售店货架上存在的产品。 这可以与 自定义 结合使用来训练模型,以识别商店货架上的特定产品。

  • 图像缝合:将部分重叠的多个图像合并为单个大型图像。 这在产品识别方案中用于获取整个零售架的单个图像。

  • 图像整改:撤消图像的透视失真。 这用于产品识别方案,以确保货架图像更易于分析。

  • 计划图匹配:将产品识别结果与计划图文档进行比较,以查看产品占用哪些位置以及哪些位置存在差距。

  • 背景删除:允许删除图像的背景。 此操作可以输出检测到的前景物体的图像(具有透明背景),也可以输出显示检测到的前景物体的不透明度的灰度 alpha 哑光图像。

  • 图像检索:图像检索允许用户按他们的想法搜索图像:使用自然阶段、问题,甚至模糊的描述。 它支持图像和文本查询的 矢量化 。 这样,便可以将图像和文本转换为多维矢量空间中的坐标。 使用矢量相似性将图像与基于语义接近性的搜索词匹配,例如,搜索图像内容或基于文本查询或类似图像推荐图像。

  • 视频摘要和帧定位符:以你的想法和写入方式搜索视频内容并与之交互。 查找相关内容,而无需其他元数据。 目前仅在 Vision Studio 中可用

用例

预期用途

下面是使用图像分析时的一些示例:

  • 图像可发现性:上传到组织内部共享空间和社交媒体平台的图像包含丰富的信息和元数据。 不过,此信息通常不可读,并且无法自动标记、分类和搜索。 图像分析使这些图像中的见解可用于分析、搜索和检索。 例如,电子商务公司可以使其产品库可搜索,或者具有用户生成内容的大型网站可以启用强大的搜索和内容建议。
  • 内容处理自动化:可以使用图像分析自动执行任务,例如检测图像中的视觉内容,并将元数据构建到媒体分析管道中。 自动化可以减少与创建和生成内容相关的时间、工作量和成本。
  • 图像内容审查:电子商务公司、用户生成的内容发布者、在线游戏社区和社交媒体平台需要审查图像内容。 图像分析可以自动标记图像中不适当的内容(例如,成人内容、猥亵内容或血腥内容)。 然后,可以根据需要使用返回的内容标志及其各自的置信度分数来审查应用程序中的内容。
  • 特定于域的标识:开发人员可以使用图像分析识别社交媒体和照片应用中特定于域的内容。 例如,可以在图像中标识著名的地标或品牌徽标,为用户提供适当的建议。
  • 内容辅助功能:使用图像分析基础模型构建解决方案,通过检测和描述人类可读语言中的图像内容来帮助失明者和视力低下的人。 在此背景下,我们启用了一个参数,该参数将允许用户选择性别特定的描述,例如“一个男人和一个坐在长凳上的女人”或性别中立的描述,例如“两个人坐在长凳上”。
  • 出于隐私目的进行图像筛选:可以使用图像分析检测图像中的人脸和人员。 使用人脸检测和人员检测来确定图像是否包含可能敏感的隐私注意事项。
  • 零售库存管理:使用产品识别 API 可以分析零售货架的照片、检测哪些产品,并将照片与计划图文档进行比较。

选择用例时的注意事项

  • 对奖励或拒绝权益应用人工监督:如果结果基于不正确或不完整的信息,则直接使用图像分析输出来奖励或拒绝权益可能会导致错误。 为了确保用户做出公平和高质量的决策,可将图像分析中提供的自动化与人工监督相结合。
  • 不适合人脸识别或验证:图像分析没有面部识别功能。 使用图像分析对个人的任何识别都基于你的标记,而非基于实际的面部识别技术。 使用 Azure AI 人脸识别。
  • 不适合年龄或性别分类:避免对年龄或性别分类使用图像分析。
  • 考虑域特定识别的其他措施:预先构建的 AI 功能(如名人识别、地标识别和品牌徽标识别)在有限的一组名人、地标和品牌上训练。 识别服务可能无法识别所有区域特定的名人、地标或品牌。
  • 不适合生物识别:图像分析未设计或测试,用于根据虹膜识别、指纹识别、护照或其他形式的 ID 等生物识别标记来验证个人的身份,以便对人员进行识别和验证。
  • 请勿将图像分析用于医疗诊断:包括用作医疗设备、临床支持、诊断工具或其他旨在用于诊断、治愈、缓解、治疗或预防疾病或其他条件的技术,并且Microsoft不允许将此功能用于此类目的。 此功能不旨在代替专业人员医疗建议或保健意见、诊断、治疗或医疗保健专业人员临床判断而实施或部署,并且不应用作此用途。 客户完全负责任何使用图像分析或定制化功能用于医疗诊断。
  • 法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案的设计目的并非用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。

图像分析的系统性能和限制

图像分析的准确性

图像分析功能的准确性是衡量 AI 生成的输出与图像中存在的实际视觉内容的对应程度。 例如,图像标记功能应生成图像中存在的视觉内容的标记。 若要测量准确性,可以使用真实数据评估图像,并比较 AI 模型的输出。 通过将基本事实与 AI 生成的结果进行比较,可以将事件分类为两种正确的(“true”)结果和两种不正确的(“false”)结果:

条款 定义
真正 系统生成的输出与真实数据正确对应。 例如,系统正确地将狗的图像标记为狗。
真负 系统正确地不会生成那些真实数据中不存在的结果。 例如,当图像中没有狗时,系统正确不会将图像标记为狗。
假正 系统错误地生成了在实数数据中不存在的输出。 例如,系统将猫的图像标记为狗。
假负 系统无法生成在真实数据中出现的结果。 例如,系统无法标记图像中存在的狗的图像。

这些事件类别用于计算精度和召回率:

条款 定义
精准率 提取内容的正确性度量值。 从包含多个对象的图像中,可以找出正确提取了其中多少个对象。
召回率 对提取的整体内容的度量。 从包含多个对象的图像中,可以找出总体检测到多少个对象,而不考虑其正确性。

精度和召回率定义意味着,在某些情况下,很难同时优化精度和召回率。 根据你的情况,可能需要优先考虑一个而非另一个。 例如,如果你正在开发一个解决方案来仅检测内容中最准确的标记或标签,例如显示图像搜索结果,则可以针对更高的精度进行优化。 但是,如果尝试标记图像中所有可能的视觉内容进行索引编制或内部编录,则可以针对更高的召回率进行优化。

如果你是图像处理系统的所有者,我们建议你收集基本事实评估数据,即由人工评委收集和标记的数据来评估系统。 Azure AI 视觉服务中提供的预建 AI 模型可能无法满足用例的要求。 通过使用特定于用例的评估数据集,可以就预生成的图像分析模型是否适合你的方案做出明智的决策。 如果预生成的图像分析模型不适合你的方案,则可以使用下面所述的自定义功能生成自己的模型。 还可以使用数据来确定置信度阈值如何影响目标的实现。

可以将真实标签与系统输出进行比较,以确定总体准确性和错误率。 错误分布有助于为方案设置正确的阈值。 地面事实评估数据应包含足够的代表性图像采样,以便你可以了解性能差异并采取纠正措施。 根据评估结果,可以迭代调整阈值,直到精度和召回率之间的权衡达到目标。

基于场景的系统性能影响

系统性能影响可能因服务使用方式而异。 例如,可以使用置信度值来校准自定义阈值来处理内容和方案。 根据其置信度值,内容可能会被路由进行直接处理,也可能会被转发到人机回环流程等。 测量结果根据精度和召回率指标来确定特定场景的准确性,如以下示例所示:

  • 照片共享应用:可以使用图像分析为应用程序用户共享和存储的图像自动生成标记。 应用用户依赖此功能搜索其他用户共享的特定照片。 在此用例中,开发人员可能更喜欢高精度结果,因为错误提取标记的成本会导致应用用户的查询结果不正确。
  • 图像处理:在保险和索赔处理应用中,由于你不希望遗漏任何可能相关的信息,你可能更喜欢高召回率来最大化信息提取。 在此方案中,人工审阅者可能会标记不正确或不当的标记。

图像检索的其他限制

  • 相关性:即使用户的图像集中没有相关匹配项,图像检索也会始终将结果返回给用户查询。 例如,如果用户在仅包含人员图像的图像集中搜索“狗在后院玩耍”,系统将返回与搜索查询最接近的内容。 在这种情况下,它可能返回人物图像。 在查询与图像不相对应的抽象概念(如情感和性别)时,也会发生这种情况。

  • 陈规定型:该模式学会了将名字与那些名字的人的陈规定型性别和种族联系起来,并将私人公民的姓名与名人形象相关联。

  • 时间新近性:我们的模型已针对包含有关真实世界事件的某些信息的数据集进行训练,但如果查询模型关于在模型训练完成后发生的事件,它们的表现可能不佳。

  • 故意滥用:如果高度令人不安的图像,与高度令人不安的文本配对将上传到图像检索中,它可以返回有害和冒犯性的内容作为结果的一部分。 为了缓解这种意外结果,我们建议你控制对系统的访问,并教育将使用它的人员是否适当使用。

  • 了解动作:视频摘要和帧定位符在视频中准确理解动作和行为的能力有限。 当查询诸如“一个人拍照”或“一个人倒下”之类的动作时,可能会给出不准确的结果。

  • 复杂查询语法:包含复杂语法的查询,例如“在梯子上的人”或“没有梯子的人”可能会产生不准确的结果。

提高系统性能的最佳做法

以下指南可帮助你了解和改进图像分析 API 的性能:

  • 图像分析支持满足每个版本的文件 要求 的图像。
  • 尽管图像分析具有弹性,但分辨率、光线曝光、对比度和图像质量等因素可能会影响结果的准确性。 请参阅产品规格,并在你的图像上测试该服务,以确认其是否适合您的需求。
  • 在大规模部署或推出任何图像分析系统之前,系统所有者应在系统将使用的上下文中执行评估阶段,并与将与系统交互的人员一起执行评估阶段。 预部署评估有助于确保系统准确性,并有助于采取措施提高系统准确性(如果适用)。
  • 为基于系统输出做出决策的人员构建反馈渠道。 包括来自会依赖您的图像分析功能的人员的满意度数据,以及来自现有客户语音渠道的反馈。 使用反馈微调系统并提高准确性。
  • 该服务为每个预测输出提供置信度分数。 置信度分数将预测的准确性表示为百分比。 例如,你可以为系统设置最小置信度阈值,以便自动为照片添加标题。 如果生成的标题的置信度分数低于阈值,则应转发该分数以供进一步审查。

图像分析评估

评估方法

我们使用各种公共、内部和客户捐赠的图像数据集来评估每个图像分析模型的准确性。 这些图像数据集包含各种视觉内容的图像和各种质量的图像,以确保为一系列可能的情况评估模型。 我们计算不同数据集的精度、召回率和 F1 分数。 我们将每个模型与内部和公共基准以及早期版本的模型进行比较。

公平性注意事项

我们已严格测试所有图像分析 AI 模型,以便公平地识别和确定可能面临更差服务质量风险的人口群体并识别模型可能产生可延续现有构造型、贬低或擦除某些群体的输出的实例。 我们发现,我们的模型适用于所有在图像输入中描绘的人,无论他们的种族、性别认同、年龄和文化如何。

在某些罕见情况下,图像标记和图像标题模型因对输入图像中显示的人员返回不正确的性别和年龄标签而产生公正性错误。 这些实例非常罕见,我们将继续改进模型,以便较新的模型不太可能产生此类错误。 我们建议客户不要将图像分析模型用于性别和年龄分类。

我们要求客户报告任何公平性错误,并通过 Azure 门户 分享他们对这些问题的反馈,以便我们可以在寻求确保模型对每个人正常运行时不断确定改进领域。 使用自定义功能训练自己的模型的客户需要执行其他测试,以确保公平性。

评估和集成图像分析以供你的使用

Microsoft可帮助客户负责任地开发和部署使用图像分析的解决方案。 我们正在通过考虑 AI 系统的公平性、可靠性和安全、隐私和安全、包容性、透明度和人类责任,采取原则性方法来维护个人代理和尊严。 这些注意事项符合我们开发负责任的 AI 的承诺。

集成与负责任使用的一般准则

本部分讨论图像分析以及负责任地使用此技术的关键注意事项。 下面是有关负责部署和使用映像分析的一般建议。 你的上下文可能需要你根据特定部署方案的需求确定优先级并包括自己的缓解措施。 但一般情况下,我们提供了以下最佳做法作为帮助你的起点。

  • 了解它能做什么:全面评估您所使用的 AI 系统的潜力,以了解其功能和局限性。 通过全面测试实际条件和数据,了解它在场景中和上下文中的执行方式。
  • 尊重个人的隐私权利 :仅出于合法和合理的目的,从个人那里收集数据和信息。 仅使用你同意使用的数据和信息,并仅用于授予同意的目的。
  • 法律审查:获取适当的独立法律建议来审查解决方案,尤其是在敏感或高风险应用程序中使用它时。 了解可能需要在哪些限制范围内工作,并了解你负责解决将来可能出现的任何问题。
  • 人机回环:让人员参与循环,并将人工监督作为要探索的一致模式领域包含在内。 这意味着确保持续对图像分析进行人工监督,并维护人类在决策中的作用。 确保可以对解决方案进行实时人工干预,以防止伤害。 这样,便可以管理图像分析未按预期执行的情况。
  • 安全性:确保你的解决方案是安全的,并且它具有足够的控制措施来保护内容的完整性并防止未经授权的访问。
  • 具有阻止列表或允许列表:不要使用图像分析标记功能启用所有标记,而是专注于最适合你的用例的特定标记。
  • 通过限制特定输入来构建用户交互:建议监视不需要的内容的用户文本输入。 这可能包括仇恨言论、种族或种族诽谤和亵渎词或短语。 未授权内容的确切定义将取决于你的方案,并可能会随时间而变化。
  • 控制用户访问:请考虑要求客户和用户登录,因为这会使企业更容易响应滥用事件(如果发生)。 如果可能,请考虑将产品放在付费墙后面,以使滥用更加困难。
  • 限制社会偏见:我们建议针对特定用例运行测试来限制社会偏见。
  • 为用户建立反馈和报告渠道:建议创建渠道,从受系统影响的用户和旁观者那里收集问题和关注点。 邀请有关输出的有用性和准确性的反馈,并为用户提供了报告有问题、冒犯性、偏见或不当输出的明确路径。 可能的机制包括将反馈功能构建到 UI 中,并发布用于公共反馈的电子邮件地址。

负责任的 AI 内容筛选

Vision Studio 包括一个内容管理系统,它与核心模型一起工作,用于筛选图像检索和视频摘要和帧定位符演示的内容。 该系统通过一组分类模型运行输入提示和媒体内容,旨在检测滥用行为。 如果系统识别有害内容,你将收到一条错误消息,指出提示被视为不恰当,并由负责任的 AI 服务筛选。

可以通过 支持报告有关内容筛选系统的反馈。

若要确保应用程序中已正确缓解风险,应仔细评估所有潜在危害,请遵循 透明度说明 中的指南,并根据需要添加特定于方案的缓解措施。

保护隐私的建议

成功的隐私方法为个人提供信息,并提供控制和保护来保留其隐私。

  • 如果该服务是旨在整合与健康相关数据的解决方案的一部分,请仔细考虑是否以及如何记录这些数据。 遵循适用的州和联邦隐私和健康法规。
  • 隐私管理人员应仔细考虑针对提取出的图像元数据和见解及其原始图像的保留策略。 保留策略应反映应用程序的预期用途。
  • 未经受影响的利益干系人或数据所有者的明确同意,不要共享任何数据,并尽量减少共享的数据数量。

图像分析中的自定义

图像分析自定义功能需要注意的其他注意事项。 自定义使用机器学习来分析图像。 提交既包含又缺少相关特征的图像。 你自行标记图像。 然后,服务使用此数据训练模型,并通过测试训练数据集中的一组图像来计算模型准确性。 训练模型后,可以测试、重新训练并最终将其用于图像识别应用程序或解决方案来推断新图像的预测。

自定义图像分类 将一个或多个标签应用于图像。 自定义对象检测 返回图像中的坐标,以找到检测到的对象的标签位置。 这两种功能都通过 Vision Studio https://portal.vision.cognitive.azure.com的 API、SDK 和无代码体验提供。

自定义支持通过以下高级函数创建和使用自定义视觉模型。 它们表示要完成的两个核心活动,以准备模型以供使用:

  • 数据标记:是使用模型需要分类的图像类对训练图像进行批注的过程。 在对象检测的情况下,使用边界框标注训练图像,这些边界框会将在图像中检测到的对象围起来。 客户可以在 Azure Machine Label Studio 中标记数据,或者以 COCO 文件格式导入标记的数据。 标记训练数据后,可以通过 Vision Studio、API 或 SDK 使用它来训练模型。
  • 模型训练:使用基础模型和转移学习来训练针对客户提供的图像和相应类优化的模型。 使用以前的模型自定义技术,需要大量的训练数据来实现较高的准确度。 使用新的模型自定义,训练模型以了解如何识别和分类具有相同或更高准确度/性能的新数据,需要较少的数据量。 由于这些自定义功能使用的是大型基础模型,使用广泛的数据集进行训练,因此每个标签只需一张图像即可训练模型。 使用每个标签的少量图像进行训练时,模型可以继续改进。 少样本学习为定制化提供了一条路径,无需进行大量的数据收集和标注。 定制化提供准确率指标,通过提供的训练数据拆分来近似评估模型性能。 为每个标签训练少量图像时,建议使用额外的评估数据集测试模型准确性。

准备好使用模型时,可以通过发送图像进行处理来进行模型预测。 请注意,使用自定义模型运行预测时,可能会遇到超过预期延迟来接收预测结果。 Microsoft正在努力在不久的将来改进延迟。 目前不建议对业务关键型环境使用自定义模型。 另请注意,使用自定义生成的分类器或对象检测器模型的质量取决于训练模型时所提供的标记数据的质量和种类。 质量还取决于整体数据集在类之间的平衡程度。 如果对模型质量感到满意,可以在认知服务中为视觉部署和托管模型。

重要

请注意,自定义不适用于为包含数百个类别和标签的大规模图像集训练自定义模型,也不适用于生成可以用作辅助功能用途替代文本的图像可读描述。 基于图像分析的模型具备这些能力,应当替代自定义使用。 请注意,自定义项也 不适合面部识别 ,因为它未设计或测试以识别或识别图像中的个人。使用 Azure AI 人脸。 任何对个人的识别都是你的标签的结果,而不是从我们的面部识别功能或面部模板的创建(一组唯一的数字,由代表人脸的独特特征的图像生成)。

用例

预期用途

可以使用自定义,这是 Azure AI 服务图像分析的一项功能,适用于以下方案:

  • 自动视觉警报:能够监视视频流,并在检测到某些情况时触发警报。 例如,当检测到蒸汽或河流上的泡沫或动物存在时,你可能希望发出警报。
  • 提高了手动检查的效率:在零售中,产品识别可以减少你或员工用于统计唯一SKU或确认所有应在货架上的SKU是否存在的时间。
  • 扩大检查范围:检测缺陷时,人类并不总是能够检查生产线下的所有项目。 相反,您可以使用自定义功能来涵盖那些您无法手动检查的项目集,并告知您哪些项目是手动检查的。
  • 提高对象可发现性:使用元数据标记图像可以使它们更易于以后查找。 例如,可以基于产品目录或其他想要筛选的视觉功能标记图像。 自定义允许在引入时使用元数据标记图像。

自定义功能性能

训练模型后,可以在 Studio https://portal.vision.cognitive.azure.com中查看项目性能的估计值。 定制化使用你提交用于训练的图像子集或用户提供的评估数据集,来估计平均精度、平均精度均值、top 1 准确率和 top 5 准确率。 这三个图像分类器和对象检测器有效性的测量定义如下:

平均精度 是已识别分类正确百分比。 例如,如果模型将 100 张图像标识为狗,其中 99 张图像实际上是狗,则精度为 99%。

平均平均精度(mAP) 是平均精度(AP)的平均值。 AP 是精准率/召回率曲线下的区域(精准率根据每次进行的预测的召回率绘制)。

  • 平均精度均值 @ 30:当 IoU 为 30 时所有标记上的对象检测器性能。
  • 平均精度均值 @ 50:当 IoU 为 50 时所有标记上的对象检测器性能。
  • 平均精度均值 @ 75:当 IoU 为 75 时所有标记上的对象检测器性能。

准确性 是评估分类模型的一个指标。 非正式地说, 准确性 是模型正确预测的一小部分。 正式而言,准确性具有以下定义:

  • 准确性 – 前 1 是传统的准确性,模型预测(概率最高的预测)必须完全符合预期答案。 它测量预测标签与单个目标标签匹配的示例比例。
  • 准确性 – 前 5 名表示模型中概率最高的前 5 个答案与预期的答案一致。 如果五个预测中的任何一个与目标标签匹配,则它会认为分类正确。

改进自定义模型准确性的最佳做法

生成自定义模型的过程是迭代的。 每次训练模型时,都会使用自己的更新性能指标创建新的迭代/评估。 在 Vision Studio 中的项目详细信息中可以查看所有评估。 为了提高模型的性能,请扩展训练模型时提供的各种标记数据。 质量还取决于整体数据集在类之间的平衡程度。

模型可能会了解如何根据图像共有的任意特征进行预测。 建议使用其他数据测试模型以进行评估。 测试模型后,可以发布并使用模型进行推理。

根据模型的性能,需要确定模型是否适合用例和业务需求。 下面是一种可能采用的方法。 可以在独立环境中部署自定义模型,测试模型相对于用例的性能,然后使用预测进一步训练模型,直到达到所需的性能级别。

详细了解负责任 AI

详细了解图像分析

后续步骤