你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn。
使用本文了解自定义命名实体识别功能当前支持的语言。
多语言选项
使用自定义命名实体识别(NER),可以使用一种语言训练模型,并用于从另一种语言的文档中提取实体。 此功能非常强大,因为它可以帮助你节省时间和精力。 你可以在一个项目中处理多语言数据集,而不是为每种语言构建单独的项目。 数据集不必完全使用相同的语言,但你应在创建时或稍后在项目设置中为项目启用多语言选项。 如果在评估过程中发现模型在某些语言中表现不佳,请考虑将更多这些语言的数据添加到训练集中。
你可以完全使用英语文档训练项目,并使用法语、德语、普通话、日语、韩语等语言进行查询。 通过使用多语言技术训练模型,自定义命名实体识别使你可以轻松地将项目扩展为多种语言。
每当你发现某个特定语言的表现不如其他语言时,可以在项目中为该语言添加更多文档。 对于 Azure AI Foundry 中的数据标记,可以选择要添加的文档的语言。 向模型介绍该语言的更多文档时,该模型将引入该语言的更多语法,并学会更好地预测它。
不需要为每种语言添加相同数量的文档。 你应该主要使用一种语言构建你的项目,而只在极少数情况下添加一些你发现表现不佳语言的文档。 如果你主要以英语开发项目,然后开始用法语、德语和西班牙语对其进行测试,你可能会注意到一些差异。 具体而言,与其他两种语言相比,德语的表现可能不佳。 虽然法语和西班牙语可能取得更好的结果,但德国在测试期间可能会带来更多的挑战或产生不太有利的结果。 在这种情况下,请考虑使用德语添加 5% 的原始英语文档,训练新模型,然后再次使用德语进行测试。 对于德语查询,应会看到更好的结果。 添加的已标记文档越多,结果可能越好。
以另一种语言添加数据时,不应期望数据对其他语言产生负面影响。
语言支持
自定义 NER 支持以下语言的 .txt 文件:
| 语言 | 语言代码 |
|---|---|
| 南非荷兰语 | af |
| 阿姆哈拉语 | am |
| 阿拉伯语 | ar |
| 阿萨姆语 | as |
| 阿塞拜疆语 | az |
| 白俄罗斯语 | be |
| 保加利亚语 | bg |
| 孟加拉语 | bn |
| 布列塔尼语 | br |
| 波斯尼亚语 | bs |
| 加泰罗尼亚语 | ca |
| 捷克语 | cs |
| 威尔士语 | cy |
| 丹麦语 | da |
| 德语 | de |
| 希腊语 | el |
| 英语(美国) | en-us |
| 世界语 | eo |
| 西班牙语 | es |
| 爱沙尼亚语 | et |
| 巴斯克语 | eu |
| 波斯语 | fa |
| 芬兰语 | fi |
| 法语 | fr |
| 西弗里西亚语 | fy |
| 爱尔兰语 | ga |
| 苏格兰盖尔语 | gd |
| 加利西亚语 | gl |
| 古吉拉特语 | gu |
| 豪萨语 | ha |
| 希伯来语 | he |
| Hindi | hi |
| 克罗地亚语 | hr |
| 匈牙利语 | hu |
| 亚美尼亚语 | hy |
| 印度尼西亚语 | id |
| 意大利语 | it |
| 日语 | ja |
| 爪哇文 | jv |
| 格鲁吉亚语 | ka |
| 哈萨克语 | kk |
| 高棉语 | km |
| 卡纳达语 | kn |
| 韩语 | ko |
| 库尔德语(Kurmanji) | ku |
| 柯尔克孜语 | ky |
| 拉丁语 | la |
| 老挝语 | lo |
| 立陶宛语 | lt |
| 拉脱维亚语 | lv |
| 马达加斯加语 | mg |
| 马其顿语 | mk |
| 马拉雅拉姆语 | ml |
| 蒙古语 | mn |
| 马拉地语 | mr |
| 马来语 | ms |
| 缅甸语 | my |
| 尼泊尔语 | ne |
| 荷兰语 | nl |
| 挪威语(博克马尔语) | nb |
| 奥里亚语 | or |
| 旁遮普语 | pa |
| 波兰语 | pl |
| 普什图语 | ps |
| 葡萄牙语(巴西) | pt-br |
| 葡萄牙语(葡萄牙) | pt-pt |
| 罗马尼亚语 | ro |
| 俄语 | ru |
| 梵语 | sa |
| 信德语 | sd |
| 僧伽罗语 | si |
| 斯洛伐克语 | sk |
| 斯洛文尼亚语 | sl |
| 索马里语 | so |
| 阿尔巴尼亚语 | sq |
| 塞尔维亚语 | sr |
| 巽他语 | su |
| 瑞典语 | sv |
| 斯瓦希里语 | sw |
| 泰米尔语 | ta |
| 泰卢固语 | te |
| 泰语 | th |
| 菲律宾语 | tl |
| 土耳其语 | tr |
| 维吾尔语 | ug |
| 乌克兰语 | uk |
| 乌尔都语 | ur |
| 乌兹别克语 | uz |
| 越南语 | vi |
| 班图语 | xh |
| 意第绪语 | yi |
| 中文(简体) | zh-hans |
| 祖鲁语 | zu |