Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Använd den här artikeln om du vill lära dig mer om de språk som för närvarande stöds av funktionen för anpassad namngiven entitetsigenkänning.
Flerspråkigt alternativ
Med anpassad namngiven entitetsigenkänning (NER) kan du träna en modell på ett språk och använda för att extrahera entiteter från dokument på ett annat språk. Den här funktionen är kraftfull eftersom den hjälper till att spara tid och arbete. I stället för att skapa separata projekt för varje språk kan du hantera flerspråkig datauppsättning i ett projekt. Datamängden behöver inte vara helt på samma språk, men du bör aktivera flerspråkiga alternativ för projektet när du skapar eller senare i projektinställningarna. Om du märker att din modell presterar dåligt på vissa språk under utvärderingsprocessen kan du överväga att lägga till mer data på dessa språk i träningsuppsättningen.
Du kan träna projektet helt med engelska dokument och fråga det i: franska, tyska, mandarin, japanska, koreanska och andra. Med anpassad namngiven entitetsigenkänning kan du enkelt skala dina projekt till flera språk med hjälp av flerspråkig teknik för att träna dina modeller.
När du upptäcker att ett visst språk inte fungerar lika bra som andra språk kan du lägga till fler dokument för det språket i projektet. För dataetiketter i Azure AI Foundry kan du välja språket i dokumentet som du lägger till. När du introducerar fler dokument för det språket i modellen introduceras modellen för mer av syntaxen för det språket och lär sig att förutsäga det bättre.
Du förväntas inte lägga till samma antal dokument för varje språk. Du bör skapa de flesta projekt på ett språk och bara lägga till några dokument på språk som du ser inte fungerar bra. Om du utvecklar ett projekt främst på engelska och sedan börjar testa det på franska, tyska och spanska kan du märka några skillnader. Mer specifikt kan tyska underprestera jämfört med de andra två språken. Även om franska och spanska kan ge bättre resultat, kan tyska innebära fler utmaningar eller ge mindre gynnsamma resultat under testningen. I så fall bör du överväga att lägga till 5 % av dina ursprungliga engelska dokument på tyska, träna en ny modell och testa på tyska igen. Du bör se bättre resultat för tyska frågor. Ju mer märkta dokument du lägger till, desto mer sannolikt blir resultatet bättre.
När du lägger till data på ett annat språk bör du inte förvänta dig att det påverkar andra språk negativt.
Språkstöd
Anpassad NER stöder .txt filer på följande språk:
| Språk | Språkkod |
|---|---|
| Afrikaans | af |
| Amhariska | am |
| Arabiska | ar |
| Assamesiska | as |
| Azerbajdzjanska | az |
| Vitryska | be |
| Bulgariska | bg |
| Bengali | bn |
| Bretonska | br |
| bosniska | bs |
| Katalanska | ca |
| Tjeckiska | cs |
| Walesiska | cy |
| Danska | da |
| Tyska | de |
| Grekiska | el |
| Engelska (USA) | en-us |
| Esperanto | eo |
| Spanska | es |
| Estniska | et |
| Baskiska | eu |
| Persiska | fa |
| Finska | fi |
| Franska | fr |
| Västra frisiska | fy |
| Iriska | ga |
| Skotsk gäliska | gd |
| Galiciska | gl |
| Gujarati | gu |
| Hausa | ha |
| Hebreiska | he |
| Hindi | hi |
| Kroatiska | hr |
| Ungerska | hu |
| Armeniska | hy |
| Indonesiska | id |
| Italienska | it |
| Japanska | ja |
| Javanesiska | jv |
| Georgiska | ka |
| Kazakiska | kk |
| Khmer | km |
| Kannada | kn |
| Koreanska | ko |
| Kurdiska (Kurmanji) | ku |
| Kirgiz | ky |
| Latin | la |
| Laotiska | lo |
| Litauiska | lt |
| Lettiska | lv |
| Malagassiska | mg |
| Makedonska | mk |
| Malayalam | ml |
| Mongoliska | mn |
| Marathi | mr |
| Malajiska | ms |
| Burmesiska | my |
| Nepali | ne |
| Nederländska | nl |
| Norska (Bokmål) | nb |
| Odia | or |
| Punjabi | pa |
| Polska | pl |
| Pashto | ps |
| Portugisiska (Brasilien) | pt-br |
| Portugisiska (Portugal) | pt-pt |
| Rumänska | ro |
| Ryska | ru |
| Sanskrit | sa |
| Sindhi | sd |
| Sinhala | si |
| Slovakiska | sk |
| Slovenska | sl |
| Somali | so |
| Albanska | sq |
| Serbiska | sr |
| sundanesiska | su |
| Svenska | sv |
| Swahili | sw |
| Tamilska | ta |
| Telugu | te |
| Thailändska | th |
| Filipino | tl |
| Turkiska | tr |
| Uiguriska | ug |
| Ukrainska | uk |
| Urdu | ur |
| Uzbekiska | uz |
| Vietnamesiska | vi |
| Xhosa | xh |
| Jiddisch | yi |
| Kinesiska (förenklad) | zh-hans |
| Zulu | zu |