Dela via


Transparensanteckning för språkidentifiering

Viktigt!

Översättningar som inte är engelska tillhandahålls endast för enkelhetens skull. Se versionen EN-US av det här dokumentet för den slutgiltiga versionen.

Vad är en transparensanteckning?

Viktigt!

Den här artikeln förutsätter att du är bekant med riktlinjer och metodtips för Azure AI Language. Mer information finns i Transparensanteckning för Azure AI Language.

Ett AI-system omfattar inte bara tekniken, utan även de personer som ska använda den, de personer som påverkas av den och miljön där den distribueras. Att skapa ett system som är lämpligt för sitt avsedda syfte kräver en förståelse för hur tekniken fungerar, dess funktioner och begränsningar och hur du uppnår bästa prestanda. Microsofts transparensanteckningar är avsedda att hjälpa dig att förstå hur vår AI-teknik fungerar, vilka val systemägare kan göra som påverkar systemets prestanda och beteende samt vikten av att tänka på hela systemet, inklusive teknik, människor och miljö. Du kan använda Transparensanteckningar när du utvecklar eller distribuerar ditt eget system eller delar dem med de personer som kommer att använda eller påverkas av systemet.

Microsofts transparensanteckningar är en del av ett bredare arbete hos Microsoft för att omsätta våra AI-principer i praktiken. Mer information finns i Ansvarsfulla AI-principer från Microsoft.

Introduktion till språkidentifiering

Språkidentifieringsfunktionen i Azure AI Language identifierar språket som en indatatext skrivs i och rapporterar en enda språkkod för varje dokument som skickas på begäran på en mängd olika språk, varianter, dialekter och vissa regionala/kulturella språk. Språkkoden paras ihop med en konfidenspoäng.

Kontrollera listan över språk som stöds för att se till att de språk du behöver stöds.

Exempel på användningsfall

Språkidentifiering används i flera scenarier i olika branscher. Vissa exempel inkluderar:

  • Förbearbeta text för andra Azure AI Language-funktioner. Andra Azure AI Language-funktioner kräver att en språkkod skickas i begäran för att identifiera källspråket. Om du inte känner till källspråket för din text kan du använda språkidentifiering som förbehandlare för att hämta språkkoden.

  • Identifiera språk för affärsarbetsflöde. Om ett företag till exempel får e-post på olika språk från kunder kan de använda språkidentifiering för att dirigera e-postmeddelandena via språk till infödda talare som kan kommunicera bäst med dessa kunder.

Att tänka på när du väljer ett användningsfall

Använd inte

  • Använd inte för automatiska åtgärder utan mänsklig inblandning i scenarier med hög risk. En person bör alltid granska källdata när en annan persons ekonomiska situation, hälsa eller säkerhet påverkas.

Juridiska och regelmässiga överväganden: Organisationer måste utvärdera potentiella specifika juridiska och regelmässiga skyldigheter när de använder AI-tjänster och lösningar, vilket kanske inte är lämpligt för användning i alla branscher eller scenarion. Dessutom är AI-tjänster eller lösningar inte utformade för och får inte användas på sätt som är förbjudna i tillämpliga användningsvillkor och relevanta uppförandekoder.

Egenskaper och begränsningar

Beroende på ditt scenario och dina indata kan du uppleva olika prestandanivåer. Följande information är utformad för att hjälpa dig att förstå viktiga begrepp om prestanda när de gäller för att använda Språkidentifiering i Azure AI Language.

Systembegränsningar och metodtips för att förbättra prestanda

  • För indata som innehåller innehåll med blandat språk returneras endast ett enda språk. I allmänhet returneras språket med den största representationen i innehållet, men med en lägre konfidenspoäng.
  • Tjänsten stöder ännu inte de romaniserade versionerna av alla språk som inte använder det latinska skriptet. Pinyin stöds till exempel inte för kinesiska och Franco-Arabic stöds inte för arabiska.
  • Vissa ord finns på flera språk. Till exempel är "omöjligt" vanligt för både engelska och franska. För korta exempel som innehåller tvetydiga ord kanske du inte får rätt språk.
  • Om du har en uppfattning om ursprungslandet eller ursprungsregionen för texten, och du stöter på blandade språk, kan du använda countryHint för att skicka in en lands-/regionkod med två bokstäver.
  • I allmänhet är det mer troligt att längre indata identifieras korrekt. Fullständiga fraser eller meningar är mer benägna att kännas igen korrekt än enkla ord eller meningsfragment.
  • Alla språk kommer inte att identifieras. Kontrollera listan över språk och skript som stöds.
  • För att skilja mellan flera skript som används för att skriva vissa språk, till exempel kazakiska, returnerar funktionen för språkidentifiering ett skriptnamn och skriptkod enligt STANDARDEN ISO 15924 för en begränsad uppsättning skript.
  • Tjänsten stöder endast språkidentifiering av text om den finns i det interna skriptet. Pinyin stöds till exempel inte för kinesiska och Franco-Arabic stöds inte för arabiska.
  • På grund av okända luckor i våra träningsdata kanske vissa dialekter och språksorter som är mindre representerade i webbdata kanske inte känns igen korrekt.

Se även