你当前正在访问 Microsoft Azure Global Edition 技术文档网站。 如果需要访问由世纪互联运营的 Microsoft Azure 中国技术文档网站,请访问 https://docs.azure.cn

自定义命名实体识别的语言支持

使用本文了解自定义命名实体识别功能当前支持的语言。

多语言选项

使用自定义命名实体识别(NER),可以使用一种语言训练模型,并用于从另一种语言的文档中提取实体。 此功能非常强大,因为它可以帮助你节省时间和精力。 你可以在一个项目中处理多语言数据集,而不是为每种语言构建单独的项目。 数据集不必完全使用相同的语言,但你应在创建时或稍后在项目设置中为项目启用多语言选项。 如果在评估过程中发现模型在某些语言中表现不佳,请考虑将更多这些语言的数据添加到训练集中。

你可以完全使用英语文档训练项目,并使用法语、德语、普通话、日语、韩语等语言进行查询。 通过使用多语言技术训练模型,自定义命名实体识别使你可以轻松地将项目扩展为多种语言。

每当你发现某个特定语言的表现不如其他语言时,可以在项目中为该语言添加更多文档。 对于 Azure AI Foundry 中的数据标记,可以选择要添加的文档的语言。 向模型介绍该语言的更多文档时,该模型将引入该语言的更多语法,并学会更好地预测它。

不需要为每种语言添加相同数量的文档。 你应该主要使用一种语言构建你的项目,而只在极少数情况下添加一些你发现表现不佳语言的文档。 如果你主要以英语开发项目,然后开始用法语、德语和西班牙语对其进行测试,你可能会注意到一些差异。 具体而言,与其他两种语言相比,德语的表现可能不佳。 虽然法语和西班牙语可能取得更好的结果,但德国在测试期间可能会带来更多的挑战或产生不太有利的结果。 在这种情况下,请考虑使用德语添加 5% 的原始英语文档,训练新模型,然后再次使用德语进行测试。 对于德语查询,应会看到更好的结果。 添加的已标记文档越多,结果可能越好。

以另一种语言添加数据时,不应期望数据对其他语言产生负面影响。

语言支持

自定义 NER 支持以下语言的 .txt 文件:

语言 语言代码
南非荷兰语 af
阿姆哈拉语 am
阿拉伯语 ar
阿萨姆语 as
阿塞拜疆语 az
白俄罗斯语 be
保加利亚语 bg
孟加拉语 bn
布列塔尼语 br
波斯尼亚语 bs
加泰罗尼亚语 ca
捷克语 cs
威尔士语 cy
丹麦语 da
德语 de
希腊语 el
英语(美国) en-us
世界语 eo
西班牙语 es
爱沙尼亚语 et
巴斯克语 eu
波斯语 fa
芬兰语 fi
法语 fr
西弗里西亚语 fy
爱尔兰语 ga
苏格兰盖尔语 gd
加利西亚语 gl
古吉拉特语 gu
豪萨语 ha
希伯来语 he
Hindi hi
克罗地亚语 hr
匈牙利语 hu
亚美尼亚语 hy
印度尼西亚语 id
意大利语 it
日语 ja
爪哇文 jv
格鲁吉亚语 ka
哈萨克语 kk
高棉语 km
卡纳达语 kn
韩语 ko
库尔德语(Kurmanji) ku
柯尔克孜语 ky
拉丁语 la
老挝语 lo
立陶宛语 lt
拉脱维亚语 lv
马达加斯加语 mg
马其顿语 mk
马拉雅拉姆语 ml
蒙古语 mn
马拉地语 mr
马来语 ms
缅甸语 my
尼泊尔语 ne
荷兰语 nl
挪威语(博克马尔语) nb
奥里亚语 or
旁遮普语 pa
波兰语 pl
普什图语 ps
葡萄牙语(巴西) pt-br
葡萄牙语(葡萄牙) pt-pt
罗马尼亚语 ro
俄语 ru
梵语 sa
信德语 sd
僧伽罗语 si
斯洛伐克语 sk
斯洛文尼亚语 sl
索马里语 so
阿尔巴尼亚语 sq
塞尔维亚语 sr
巽他语 su
瑞典语 sv
斯瓦希里语 sw
泰米尔语 ta
泰卢固语 te
泰语 th
菲律宾语 tl
土耳其语 tr
维吾尔语 ug
乌克兰语 uk
乌尔都语 ur
乌兹别克语 uz
越南语 vi
班图语 xh
意第绪语 yi
中文(简体) zh-hans
祖鲁语 zu

后续步骤