你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
重要
仅为方便起见,提供非英语翻译。 请参阅 EN-US 版本以获取最终版本的此文档。
什么是透明度说明?
重要
本文假设你熟悉 Azure AI 语言的指南和最佳做法。 有关详细信息,请参阅 Azure AI 语言的透明度说明。
AI 系统不仅包括技术,还包括使用它的人员、受其影响的人员以及部署它的环境。 创建一个适合其预期用途的系统需要了解技术的工作原理、功能和局限性,以及如何实现最佳性能。 Microsoft 的透明度说明旨在帮助你了解 AI 技术的工作原理、系统所有者可通过哪些选择来影响系统性能和行为,以及保持系统全局观(包括技术、人员和环境)的重要性。 你可以在开发或部署自己的系统时使用透明度说明,或者与使用你的系统或受其影响的人员共享透明度说明。
Microsoft的透明度说明是Microsoft将 AI 原则付诸实践的更广泛努力的一部分。 若要了解详细信息,请参阅Microsoft中负责任的 AI 原则。
语言检测简介
Azure AI 语言 的语言检测 功能可检测输入文本写入的语言,并报告请求上以各种语言、变体、方言和某些区域/文化语言提交的每个文档的单个语言代码。 语言代码与置信度分数配对。
请务必检查 支持的语言 列表,以确保支持所需的语言。
示例用例:
语言检测在多个行业的多个场景中被使用。 一些示例包括:
预处理其他 Azure AI 语言功能的文本。 其他 Azure AI 语言功能要求在请求中发送语言代码来标识源语言。 如果不知道文本的源语言,则可以使用语言检测作为预处理器来获取语言代码。
检测业务工作流的语言。 例如,如果公司收到来自客户的各种语言的电子邮件,他们可以使用语言检测根据语言将电子邮件分配给能够与这些客户最好沟通的母语使用者。
选择用例时的注意事项
请勿使用
- 请勿在高风险情形下使用自动操作而无人干预。 当其他人的经济状况、运行状况或安全受到影响时,人员应始终查看源数据。
法律和法规注意事项:组织在使用任何 AI 服务和解决方案时需要评估潜在的特定法律和监管义务,这些义务可能不适合在每个行业或方案中使用。 此外,AI 服务或解决方案的设计目的并非用于适用服务条款和相关行为准则所禁止的用途,也不得以其中所禁止的方式使用。
特征和限制
根据您的情境和输入数据,您可能会体验不同的性能水平。 以下信息旨在帮助你了解有关性能的关键概念,因为它们适用于使用 Azure AI 语言的语言检测。
提高性能的系统限制和最佳做法
- 对于包含 混合语言内容 的输入,只会返回一种语言。 通常,返回内容中代表性最强的语言,但置信度分数较低。
- 该服务尚不支持不使用拉丁语脚本的所有语言的罗马化版本。 例如,中文不支持拼音,阿拉伯语不支持 Franco-Arabic。
- 某些单词以多种语言存在。 例如,“不可能”是英语和法语的共同点。 对于包含不明确字词的简短示例,可能无法获得正确的语言。
- 如果你对文本的国家或地区有一些想法,并且遇到混合语言,则可以使用
countryHint参数 传入 2 个字母国家/地区代码。 - 一般来说,输入内容越长,越容易被正确识别。 完整短语或句子比单个字词或句子片段更容易正确识别。
- 并非所有语言都将被识别。 请务必检查 支持的语言和脚本列表。
- 为了区分用于编写某些语言(如哈萨克语)的多个脚本,语言检测功能根据一组有限的脚本的 ISO 15924 标准 返回脚本名称和脚本代码。
- 仅当文本位于本机脚本中时,该服务才支持文本的语言检测。 例如,中文不支持拼音,阿拉伯语不支持 Franco-Arabic。
- 由于训练数据中存在未知的差距,某些在网络数据中较少表现的方言和语言品种可能无法被正确识别。