你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
Important
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 开发或部署自己的系统时,可以使用透明度说明,或者与将使用或受系统影响的人员共享它们。
Microsoft 的透明度说明是 Microsoft 将其 AI 原则付诸实践的广泛努力的一部分。 若要了解详细信息,请参阅 Microsoft AI 原则。
Azure AI 内容理解的基础知识
Introduction
Azure AI 内容理解以任何形式(如文档、图像、视频和音频)引入非结构化内容,以生成来自预生成或用户定义的架构的结构化输出,以最好地表示内容中的任务特定方案。 然后,下游应用程序可以使用此输出,例如将其保存在数据库中,将输出发送到客户开发的系统(即检索扩充生成或 RAG),基于数据构建特定的 AI/ML 模型,或在工作流中自动执行业务流程。 内容理解将扩展 Azure AI 文档智能 的范围,并利用 Azure Open AI 服务、 Azure AI 语音和 Azure AI 视觉 的功能来支持单模式和多模式方案。
关键术语
| Term | Definition |
|---|---|
| Classify | 这是一种字段类型。 该字段将使用字段名称对输入数据中的值进行分类。 例如,对图像是否有缺陷,或者人脸是否有眼镜进行分类。 |
| 置信度值 | 对于所有提取的字词和键值映射,所有内容理解输出将返回介于 0 和 1 之间的置信度值。 该值表示在 100 次尝试中正确提取单词或正确映射键值对次数的估计百分比。 例如,如果一个单词估计在 82% 的时间被正确提取,则置信度值为 0.82。 |
| Diarization | 分割通过为每个说话人(例如 GUEST1、GUEST2、GUEST3 等)分配临时匿名标签来区分每个音频录制中的单个说话人,以表示哪个说话人正在音频文件中说话。 所有支持听录的内容理解 API 也都支持分割。 |
| Extract | 这是一种字段类型。 该字段将直接从输入数据中提取值。 例如,从发票或文档中的签名中提取日期。 |
| 人脸检测 | 在图像中查找人脸,并返回指示人脸所在位置的边界框。仅使用人脸检测模型并不能提取能识别个体身份的特征,只能返回标记整个人脸的边界框。 对于检测到的所有人脸,系统将根据嵌入来分配人脸 ID。 有关详细信息,请参阅 人脸检测概念文档 。 |
| 人脸分组 | 识别出的人脸将在检测后被分组到本地组中。 如果多次检测到某个人员,则会为此人创建更多观察到的人脸实例。 有关详细信息,请参阅 [人脸分组文档] (/azure/ai-services/computer-vision/overview-identity" \l "group-faces)。 |
| Generate | 这是一种字段类型。 该字段将从父字段内容生成值。 例如,从视频生成场景说明或从通话音频进行汇总。 |
| Schema | 我们使用“模式”这个术语来指客户需提供的字段名称和说明,以便我们从输入中提取值。 内容理解提供一组预生成架构来适应你的方案。 根据场景,内容理解有一个预定义的字段列表,这些字段将根据输入进行填充。 可以使用这些预生成架构更快地开始项目,而无需自行定义字段。 |
| Transcription | 内容理解的自动语音转文本输出功能,有时称为计算机听录或自动语音识别(ASR)。 听录使用 Azure AI 语音 ,并且完全自动化。 所有支持听录的内容理解 API 也都支持分割。 |
Capabilities
系统行为
Azure AI 内容理解是一种基于云的 Azure AI 服务,它使用各种 AI/ML 模型(例如通过 Azure OpenAI 服务、Azure 人脸服务和 Azure 语音提供的模型)从客户的输入文件中提取、分类和生成字段。 内容理解不支持集成客户引入的任何模型。
内容理解首先将内容提取到结构化输出中。 然后,它使用大型语言模型(LLM)生成字段,并将置信度分数分配给适用的字段。
目前,内容理解可以引入以下类型的数据:文档、图像、文本、视频和音频。 根据用户上传的数据类型,内容理解会自动建议用户可开始使用的常见预生成架构。 用户还可以选择自定义架构本身,从而提供更完整的数据引入功能。 如果用户上传有害内容,内容理解会在输出中发出警告,让用户知道输入文件包含有害内容,但仍会输出字段。
该服务的目标是提供输入数据的规范化任务特定表示形式,以便为客户启用提取和生成方案,同时跨形式提供一致的体验。 请注意,内容理解并非旨在支持无基础的推理,它只会根据用户提供的信息和上下文生成输出。
Note
人脸模糊
对于输入包含人物图像或视频的 GPT-4 Turbo with Vision 和 GPT-4o,系统会在处理之前先对人脸进行模糊化处理,以返回用户请求的结果。 模糊有助于保护所涉及的个人和组的隐私。 模糊不应该影响你的补全质量,但在某些情况下,你可能会看到系统提到人脸模糊。
Important
个人的任何识别既不是面部识别的结果,也不是面部模板的生成和比较。 标识是通过训练模型使用图像标记将个人的图像与同名图像关联起来的结果,使用该标记,模型会返回该人的任何后续图像输入的相应名称。 模型还可以采用人脸以外的上下文提示,即即使人脸模糊,模型仍可以将图像与个人相关联。 例如,如果图像包含一张穿着球队球衣和特定号码的热门运动员的照片,模型仍然可以根据上下文提示来检测个人。
内容筛选
Azure 内容理解服务包括一个内容筛选系统,用于检测和阻止输入提示和输出完成中潜在有害内容的特定类别。 API 配置和应用程序设计的变化可能会影响补全,从而影响筛选行为。 获得批准的客户可以自定义“内容理解”默认内容过滤系统,以进行批注,而非阻止潜在的有害输出。
Note
禁用内容筛选器可能会阻止服务有效阻止有害内容,包括但不限于 与仇恨和公平相关的、 性、 暴力 和 自我伤害 类别。 有关详细信息, 请参阅内容筛选。
禁用间接攻击提示防护可能会使系统暴露为漏洞,其中第三方可能会将恶意指令嵌入到可供生成 AI 系统访问和处理的文档中。 类似漏洞可能源于直接试图规避和通过特定提示替代内置安全措施的越狱尝试。
对 Azure AI 内容理解的访问受限
内容理解中的人脸分组功能是一项受限的访问服务,需要注册才能访问它。 有关详细信息,请参阅 Microsoft的受限访问策略 并访问 人脸 API 注册。 某些功能仅适用于Microsoft托管客户和已批准的合作伙伴,并且仅适用于注册时选择的某些用例。 请注意,面部检测、面部特性和面部修订用例不需要注册。
Note
2020 年 6 月 11 日,Microsoft 宣布在以人权为基础的强有力的法规颁布之前,将不向美国的警察局出售人脸识别技术。 因此,如果客户是美国警察局,或者允许美国警察局使用或代表其使用 Azure 服务中包含的面部识别特性或功能(例如人脸、视频索引器或内容理解),则这些客户不得使用这些服务。
用例
预期用途
下面是使用内容理解时的一些示例。
- 税务流程自动化:可以利用内容理解的文档提取功能从税务表单中提取字段。 无论模板如何,都可以从税务表单中提取关键数据,以生成导致税务流程自动化的信息的统一视图。
- 呼叫中心呼叫后分析:企业可以从通话记录中生成见解。 音频输入将转换为文本听录输出,可用于提取有价值的见解,从而提高呼叫中心效率和客户体验。
- 营销自动化和 DAM (数字资产管理):若要构建媒体资产管理解决方案,可以使用内容理解从图像和视频中提取架构中定义的字段,以提取见解,以增强定向广告的相关性。
- 使用 RAG 进行内容搜索和发现(检索扩充生成):需要根据内容、元数据或功能搜索和发现任何形式(如文本、图像、音频、视频或混合媒体)的内容的客户可以使用内容理解中的结构化输出来启用下游 RAG 方案。
- 内容或媒体摘要:例如,媒体公司可以使用内容理解来生成体育赛事的摘要和亮点。
- 图表和图形理解:如果仅提取文本,包含图表和图形的财务表格或学术期刊通常很难理解。 内容理解通过在给定文档或图像本身的上下文中解释图表和图形来解决该问题,用户可以轻松地提取所需的信息,例如图表或图形的类型、摘要和整体含义。
选择用例时的注意事项
选择用例时,请考虑以下因素:
-
避免使用或滥用可能导致身体或心理伤害的情况。 例如,使用内容理解诊断患者或开药可能会导致重大伤害。
Caution
内容理解不是设计、预期或作为医疗设备提供的,不是设计或旨在替代专业医疗咨询、诊断、治疗或判断,不得用于替换或替代专业医疗建议、诊断、治疗或判断。
-
不适合生物识别或验证。 例如,内容理解不是根据个人面部几何图形、语音模式或其他物理、生理或行为特征进行独特的识别或验证。
Important
如果使用 Microsoft 产品或服务处理生物识别数据,则需负责以下事项:(i) 向数据主体提供通知,包括有关保留期和销毁的通知;(ii) 从数据主体处获得同意;(iii) 根据适用的数据保护要求删除生物识别数据。 “生物识别数据”将具有 GDPR 第 4 条中所述的含义,以及其他数据保护要求中的等效术语(如果适用)。 有关相关信息,请参阅人脸的数据和隐私。
- 避免用于在现实世界里跟踪人员。 示例包括使用内容理解监视真实环境中的个人,或使用内容理解来验证在单独位置拍摄的个人是否为同一个人。 此建议不适用于将上下文理解用于创意目的,例如用来查找同一演员在电影中出现的不同场景。
- 避免使用或滥用系统可能对生命机会或法律地位产生重大影响的情况。 例如,有些场景中使用内容理解可能会影响个人的法律地位、法律权利,或者影响他们获得信贷、教育、就业、医疗保健、住房、保险、社会福利权益、服务、机会,或者影响提供这些服务的条件。 考虑纳入有意义的人工审查和监督,以帮助降低有害结果的风险。
- 仔细考虑高风险领域或行业的用例。 示例包括但不限于医疗保健、医学、金融或法律。
- 避免用于可能会干扰隐私的任务监视系统。 内容理解的基础 AI 模型并非旨在监视个人模式来推断亲密个人信息,例如个人的性或政治取向。
- 避免使用或滥用系统可能会传播有关敏感主题或人员的虚假叙述的情况。 示例包括创建和分发有关高度敏感事件的错误信息或在反映虚假叙述的情况下生成有关真实人的信息。
- 仔细考虑受支持的区域设置和语言:内容理解模型具有不同的支持区域设置和语言。 例如,在英语语言中,有不同的国家如美国、英国和澳大利亚,它们在时间格式上和某些单词的拼写上存在差异。 请务必仔细检查每种模式官方支持的区域设置和语言。
- 避免在没有人工介入或二次验证方法的情况下使用。 故障安全机制(例如,如果技术失败,最终用户可以使用辅助方法),有助于防止因输出中的错误而拒绝基本服务或其他损害。
- 不适合最新的、事实上准确的信息至关重要的场景,除非你有人工审查者,或者正在使用模型搜索自己的文档,并且已经验证了适合你的场景。 内容理解没有有关其训练日期后发生的事件的信息,可能缺少有关某些主题的知识,并且可能并不总是产生事实准确的信息。
- 使用说话人识别进行对话听录:内容理解功能不提供说话人识别和分段,也无法用于识别个人。 换句话说,演讲者将在听录中显示为 Guest1、Guest2、Guest3 等。 这些内容将被随机分配,不能用于标识对话中的单个说话人。 对于每个对话听录,Guest1、Guest2、Guest3 等的分配将是随机的。
- 法律和法规注意事项。 组织在使用内容理解时需要评估潜在的特定法律和法规义务。 内容理解不适用于每个行业或方案。 始终根据适用的服务条款和相关行为准则(包括生成 AI 行为准则)使用内容理解。
Limitations
技术限制、操作因素和范围
与所有 AI 系统一样,内容理解功能存在一些限制,客户应该知悉这些限制。
如果上传高度令人不安的输入文件到内容理解系统,它可能会返回有害和冒犯性的内容作为结果。 为了缓解这种意外结果,我们建议你控制对系统的访问,并教育将使用它的人员进行适当的使用。
人脸分组
在将图像或视频发送到模型进行分析之前,人脸将模糊,因此对人脸(如情感)的推理在图像或视频中都不起作用。 只有视频形式支持人脸分组,仅提供类似人脸组,而无需进行任何其他分析。
Important
内容理解中的人脸分组功能根据资格和使用条件受到限制。 为了支持我们的负责任人工智能原则。 人脸服务仅适用于 Microsoft 托管客户和合作伙伴。 使用人脸识别引入表单来申请访问。 有关详细信息,请参阅人脸受限访问页面。
Document
文档提取功能在很大程度上取决于命名字段和字段说明的方式。 此外,产品强制在输入文档的文本中锁定输出,如果无法锁定答案,则不会返回答案。 因此,在某些情况下,字段的值可能缺失。 由于地面提取的性质,即使文档不正确或内容对人眼不可见,系统也会从文档返回内容。 文档还应具有合理的分辨率,其中的文本不应该太模糊,以便布局模型能够识别。
视频
内容理解并非旨在取代视频的完整观看体验,尤其是对于细节和细微差别至关重要的内容。 它也不旨在汇总高度敏感或机密的视频,其中上下文和隐私至关重要。
- 视频质量:始终上传高质量的视频和音频内容。 建议的最大帧大小为 HD,帧速率为 30 FPS。 画面应包含不超过 10 人。 将帧从视频输出到 AI 模型时,仅每秒发送大约一帧。 处理 10 个或更多帧可能会延迟 AI 结果。 至少需要 1 分钟的自发对话语音才能执行分析。 不支持检测非语音音频信号,如声音效果和唱歌。
- 当摄像头安装位置较高、向下倾斜或视野 (FOV) 较宽时,拍摄到的人脸像素可能较少,可能导致生成的见解准确率降低。
- 检测器可能会错误分类视频中处于俯视图的对象,因为这些检测器是使用对象的正面视图进行训练的。
- 非英语:内容理解主要针对英语进行了测试和优化。 应用于非英语语言时,摘要的准确性和质量可能会有所不同。 为了缓解此限制,对非英语语言使用该功能的用户应验证生成的摘要,以确保准确性和完整性。
- 具有多种语言的视频:如果视频包含多种语言的语音,文本视频摘要可能难以准确识别视频内容中提供的所有语言。 用户在使用文本视频摘要功能处理多语言视频时,应注意这一潜在限制。
- 高度专业化或技术视频:视频摘要 AI 模型根据各种视频(包括新闻、电影和其他常规内容)进行训练。 如果视频专业性或技术性很强,模型可能无法准确提取视频摘要。
- 音频质量差且不支持 OCR(光学字符识别)的视频:文本视频摘要 AI 模型依靠音频和其他见解从视频中提取摘要,或依靠 OCR 提取屏幕上显示的文本。 如果音频质量不佳且没有识别的文本,则模型可能无法从视频中准确提取摘要。
- 具有低照明或快速运动的视频:在低照明中拍摄或具有快速运动的视频可能很难让模型处理见解,从而导致性能不佳。
- 具有不常见口音或方言的视频:AI 模型基于各种语音进行训练,包括不同的口音和方言。 但是,如果视频中的语音带有口音或者是方言,而这种口音或方言在训练数据中代表性不足,那么模型可能很难从视频中准确提取出脚本。
Audio
对于音频文件,可能需要为每个音频输入指定区域设置。 区域设置必须与输入语音中讲的实际语言匹配。 内容理解支持自动语言检测功能以适应某些用例。 有关详细信息,请参阅支持的区域设置列表。
- 声学质量:支持文本的语音应用程序和设备可能使用各种麦克风类型和规范。 统一语音模型已在各种语音音频设备情境中训练,例如电话、手机和扬声器设备。 即使用户使用高质量的麦克风,语音质量也会降低。 例如,如果扬声器远离麦克风,则输入质量可能太低。 离麦克风太近的扬声器也可能导致音频质量恶化。 这些情况以及导致音频文件质量下降的任何情况都会对语音转文本的准确性产生不利影响。
- 非语音干扰:如果输入音频包含特定级别的噪音,准确性将受到影响。 来自用于录制的音频设备或音频输入本身的噪音可能包含噪音,例如背景或环境噪音。
- 重叠语音:音频输入设备范围内可能有多个扬声器,它们可能同时说话。 如果音频文件中在主要说话人录音时背景中还有其他人的声音,也会导致语音重叠。 此外,尽管会话中说话人的数量没有限制,但当扬声器数量低于 30 时,系统的性能会更好。
- 词汇:如果模型中不存在的单词出现在音频中,则结果是听录错误。
- 口音:即使在一个语言环境内,比如英语 - 美国(en-US),很多人的口音都不同。 非常具体的口音还可能导致听录错误。
- 不匹配的语言或区域设置:如果为音频输入指定英语 - 美国(en-US),但说话人用瑞典语说话,例如,准确性会降低。
- 插入错误:有时,模型可以在存在噪音或软背景语音时生成插入错误。
图像
- 对象识别:如果模型无法识别某些不明确的产品,则识别某些不明确的产品可能不准确。 与图像不相对应的抽象概念(例如性别和情感)也可能无法识别。
系统性能
内容理解中的每个形式的性能指标不同。 每个形式都有不同的行业标准来衡量 AI 性能。
我们在所有形式的内容理解中提供的一个常见指标是字段的置信度分数。 到目前为止,只有类型为“提取”和“生成”的字段才会有置信度分数。
内容理解的一个独特功能是支持基础和置信度分数,目前仅适用于文档形式,但计划将来扩展。 文档中的定位信息包括提取值的页码和边界框,可以突出显示需要人工审核和更正的地方,有助于提升用户体验。 置信度分数,范围为 0 到 1,根据已分析或训练文档估计提取值的准确性,分数越高表示置信度越高。 有关使用置信度分数的指南,请参阅内容理解的“评估”部分。
下面是可用于每种模式的一般性能指标:
Document
Accuracy
文本在基础层次由行和单词组成,并在文档理解层面包括名称、价格、金额、公司名称和产品等实体。
词级准确率
OCR 的准确性度量值是单词错误率(WER),或提取结果中错误输出的单词数。 WER 越低,准确性就越高。
WER 定义为:
Where:
| Term | Definition | Example |
|---|---|---|
| S | 输出中错误单词(“被替换的单词”)的数量。 | “Velvet”被提取为“Veivet”,因为“l”被检测为“i”。 |
| D | 输出中缺失单词(“删除的单词”)的数量。 | 对于文本“Company Name: Microsoft”(公司名称:Microsoft),由于 Microsoft 是手写的或难以辨认,不会提取这个词。 |
| I | 输出中不存在的单词(“插入的单词”)的数量。 | “Department”(部门)被错误地分词为三个单词,即“Dep artm ent”。在这种情况下,会得到一个已删除的单词和三个插入的单词。 |
| C | 输出中正确提取的单词个数。 | 正确提取的所有单词。 |
| N | 引用中的总单词计数(N=S+D+C),不包括I,因为这些单词在原始引用中不存在,却被错误预测为存在。 | 考虑一张显示了句子“Microsoft, headquartered in Redmond, WA announced a new product called Velvet for finance departments”(Microsoft 总部位于华盛顿州雷德蒙德,宣布推出一款面向财务部门的新产品 Velvet)的图像。假设 OCR 输出为“ , headquartered in Redmond, WA announced a new product called Veivet for finance dep artm ents”。在这种情况下,S (Velvet) = 1、D (Microsoft) = 1、I (dep artm ents) = 3、C (11),N = S + D + C = 13。 因此,WER = (S + D + I) / N = 5 / 13 = 0.38 或 38%(总计 100)。 |
文档和实体级准确性 例如,在文档级别,在发票或收据的情况下,整个文档中只有一个字符的错误可能微不足道。 如果该错误位于表示付费金额的文本中,则整个发票或收据可能会标记为不正确。
另一个指标是实体错误率(EER)。 它是一个或多个文档中相应实体总数中错误提取的实体(如名称、价格、金额和电话号码)的百分比。 例如,对于表示 10 个名称的总共 30 个单词,如果其中 2 个单词错误,WER 为 0.06 (6%)。 但是,如果这导致 10 个名称中有 2 个不正确,则名称 EER 为 0.20(20%),这远远高于 WER。
测量 WER 和 EER 是一个有用的练习,可全面了解文档理解的准确性。
视频
视频分析的准确性取决于多种因素,包括相机放置和系统输出的解释。 应通过模式的字段值结果与视频的实际内容接近程度来评估准确性。 例如,当用户在视频中查找实体时,应返回视频中找到的实体的完整列表。 为了评估准确性,将使用代表各种实际方案和条件的特定测试数据集。 这些数据集包括各种视频内容类型和用户交互方案。
| Term | Definition |
|---|---|
| 真报 | 系统生成的输出正确对应于真实事件。 |
| 真阴性 | 当未发生真实事件时,系统不会正确生成事件。 |
| 假正 | 系统在未发生实际事件时错误地生成/提取/分类输出。 |
| 假阴性 | 发生真实事件时,系统错误地无法生成输出。 |
Audio
系统性能由以下关键因素衡量:
- 字词错误率 (WER)
- 标记错误率(TER)
- 运行时延迟
仅当模型在所有场景中(如对话语音转录、呼叫中心转录、听写和语音助手的转录)显示显著改进(例如 5% 相对 WER 改进),且符合资源使用和响应延迟目标时,该模型才会被视为更好。
对于分割,我们使用字词分割错误率 (WDER) 来衡量质量。 WDER 越低,分割质量越高。
图像
图像分析的准确性是衡量输出与图像中的实际视觉内容相对应的程度。 若要测量图像分析的准确性,可以使用基本事实数据评估图像,并比较 AI 模型的输出。 通过将基本事实与 AI 生成的结果进行比较,可以将事件分类为两种正确的(“true”)结果和两种不正确的(“false”)结果:
| Term | Definition |
|---|---|
| 真报 | 系统生成的输出与真实数据正确对应。 例如,系统正确地将狗的图像标记为狗。 |
| 真阴性 | 系统正确地不会生成那些真实数据中不存在的结果。 例如,当图像中没有狗时,系统正确不会将图像标记为狗。 |
| 假正 | 系统错误地生成了在实数数据中不存在的输出。 例如,系统将猫的图像标记为狗。 |
| 假阴性 | 系统无法生成在真实数据中出现的结果。 例如,系统无法标记图像中存在的狗的图像。 |
这些事件类别用于计算精度和召回率:
| Term | Definition |
|---|---|
| Precision | 提取内容的正确性度量值。 从包含多个对象的图像中,可以找出正确提取了其中多少个对象。 |
| Recall | 对提取的整体内容的度量。 从包含多个对象的图像中,可以找出总体检测到多少个对象,而不考虑其正确性。 |
精度和召回率定义意味着,在某些情况下,很难同时优化精度和召回率。 根据你的情况,可能需要优先考虑一个而非另一个。 例如,如果你正在开发一个解决方案来仅检测内容中最准确的标记或标签,例如显示图像搜索结果,则可以针对更高的精度进行优化。 但是,如果尝试标记图像中所有可能的视觉内容进行索引编制或内部编录,则可以针对更高的召回率进行优化。
提高系统性能的最佳做法
在大多数情况下,改善系统性能很大程度上依赖于用户提供的数据易于理解,以便内容理解模块从中提取数值。
确保从内容生成的字段与下游预期用途相关。 例如,如果要搜索“狗在后院玩耍”,请确保字段输出包括相关概念,并更新架构定义,如字段名称和字段说明,以便在字段未包含时进行更正。
有关图像,请参阅以下 文档 了解特定的输入要求。 图像应具有合理的质量、光线曝光和对比度。
对于音频,不匹配的区域设置可降低准确性,因此请务必将输入区域设置与文件中的扬声器匹配。 使用具有合理声学条件的音频文件,并避免具有背景噪音、侧语音、麦克风距离和语音样式的文件,这可能会对准确性产生不利影响。
考虑到每种模式在当前所支持的输入、语言、区域设置和场景方面的限制,这也有助于提高系统性能。
但是,对于文档提取,有一些方法可以改进分析器质量,即根据需要更新或更正要添加到数据集的每个文档的字段标签结果。 文档提取功能支持上下文中学习,因此更多的数据集和准确的字段标签会导致一般情况下更好的系统性能。 对于已填写的表单,建议使用所有字段都已填写的示例,并为每个字段使用你期望看到的实际值。
内容理解评估
评估方法
为了创建内容理解,我们准备了面向常见客户用例的数据集。 这些内容由Microsoft独立准备,我们不会出于任何训练或评估目的使用发送到我们的服务的客户数据。
内容理解的有效性将取决于它使用的特定应用程序。 客户应执行自己的测试,以确保获得最佳结果。
例如,在文档提取中,服务为每个单词和字段分配 0 到 1 的置信度值。 运行试点可以帮助客户确定置信度值范围和提取质量。 然后,他们可以设置阈值,例如将置信度值为0.80或更高的结果发送给直接处理,低于该阈值的结果则需要人工审核。
评估结果
为了确保服务性能,我们定期进行评估和错误分析,使用结果来增强产品/服务。 其中许多评估都是针对客户方案定制的,有助于确定字段编号和训练数据大小等约束。 这些约束记录为客户参考。 由于许多可能的方案,我们无法测试所有内容。 例如,我们经常测试金融领域,但医疗领域覆盖面较少。
公平性注意事项
使用 AI 系统时要考虑的一个重要维度是系统对不同人群的表现。 研究表明,如果不有意识地努力提高所有群体的性能,AI 系统可以在不同的人口因素(如种族、种族、性别和年龄)中表现出不同级别的性能。
作为 Azure AI 内容理解评估的一部分,我们进行了一项分析来评估潜在的公平性危害。 我们已经研究了该系统在不同人口群体中的表现,旨在确定可能存在的任何差异,并可能影响公平性。
在某些情况下,可能存在性能差异。 请务必注意,这些差异可能超过目标,我们正在积极努力解决和尽量减少任何潜在的偏见或性能差距,并从各种背景寻求不同的视角。
关于代表性伤害,例如刻板印象、贬低或抹除性的输出,我们承认与这些问题相关的风险。 虽然我们的评估过程旨在缓解此类风险,但我们鼓励用户仔细考虑其特定用例,并适当地实施其他缓解措施。 将人工融入过程中可以提供额外的监督机制,以解决任何潜在的偏见或意外后果。
我们致力于不断改进公平评估,以便更深入地了解系统在不同人口群体的表现和潜在的公平关切。 评估过程正在进行中,我们正在积极努力提高公平性和包容性,并缓解任何确定的差距。 可以在 本文档中找到与语音相关的更多公平性测试。
评估和集成图像分析以供你的使用
为用例集成内容理解时,知道内容理解受 Microsoft生成 AI 服务行为准则 的约束,可确保成功集成。
当你准备将内容理解集成到你的产品或功能中时,以下活动将帮助确保成功:
- 了解它的功能:全面评估内容理解的潜力,以更好地理解其特点和限制。 了解它在方案和上下文中的执行方式。 例如,如果使用音频内容提取,请使用业务流程中的真实录音进行测试,以根据现有进程指标分析和基准测试结果。
- 尊重个人的隐私权利:仅收集你获得同意的个人的数据和信息,并出于合法和合理的目的。
- 法律和法规注意事项。 组织在使用内容理解时需要评估潜在的特定法律和法规义务。 内容理解不适用于每个行业或方案。 始终根据适用的服务条款和 Microsoft 生成式 AI 服务行为准则 使用内容理解。
- 人工干预:让人员参与循环,并将人工监督作为一个持续探索的模式领域。 这意味着确保持续对 AI 驱动的产品或功能进行人工监督,并维护人类在决策中的作用。 确保可以对解决方案进行实时人工干预,以防止伤害。 引入人为干预有助于应对内容理解无法按预期执行的情况。
- 安全性:确保解决方案是安全的,并且它有足够的控制来保留内容的完整性,并防止未经授权的访问。
详细了解负责任 AI
深入了解内容理解技术
基础服务的其他透明度说明
- Azure OpenAI
- Azure AI 文档智能
- Azure AI 语音
- Azure AI 视觉技术
- Azure AI 人脸
- Azure AI 视频索引器