Dela via


Vanliga frågor och svar om anpassad namngiven entitetsigenkänning

Hitta svar på vanliga frågor om begrepp och scenarier som rör anpassad NER i Azure AI Language.

Hur gör jag för att komma igång med tjänsten?

Mer information finns i vår snabbstart eller hur du skapar projekt.

Vilka gränser har tjänsten?

Mer information finns itjänstbegränsningar.

Hur många taggade filer behövs?

I allmänhet leder olika och representativa taggade data till bättre resultat, med tanke på att taggningen görs exakt, konsekvent och fullständigt. Det finns inget angivet antal taggade instanser för att en modell ska fungera bra. Prestanda som är mycket beroende av ditt schema och tvetydigheten i schemat. Tvetydiga entitetstyper behöver fler taggar. Prestanda beror också på kvaliteten på taggningen. Det rekommenderade antalet taggade instanser per entitet är 50.

Hur lång tid ska det ta att träna en modell?

Träningsprocessen kan ta lång tid. Som en grov uppskattning är den förväntade träningstiden för filer med en sammanlagd längd på 12 800 000 tecken 6 timmar.

Hur gör jag för att skapa min anpassade modell programmatiskt?

Kommentar

För närvarande kan du bara skapa en modell med hjälp av REST-API:et eller Language Studio.

Du kan använda REST-API:erna för att skapa dina anpassade modeller. Följ den här snabbstarten för att komma igång med att skapa ett projekt och skapa en modell via API:er för exempel på hur du anropar redigerings-API:et.

När du är redo att börja använda din modell för att göra förutsägelser kan du använda REST-API:et eller klientbiblioteket.

Här är en lista över åtgärder som du vidtar i Azure AI Foundry:

  • Träna flera modeller på samma datauppsättning i ett enda projekt.
  • Visa modellens prestanda.
  • Distribuera och testa din modell och lägg till eller ta bort etiketter från dina data.
  • Välj hur datauppsättningen ska delas upp i tränings- och testuppsättningar.

Dina data kan delas upp slumpmässigt i tränings- och testuppsättningar, men det innebär att modellutvärderingen kanske inte baseras på samma testuppsättning, vilket gör resultaten icke-kompatibla. Vi rekommenderar att du utvecklar en egen testuppsättning och använder den för att utvärdera båda modellerna för att mäta förbättringar korrekt.

Se till att granska tjänstgränserna för att förstå det maximala antalet tränade modeller som tillåts per projekt.

Garanterar en låg eller hög modellpoäng dåliga eller bra prestanda i produktionen?

Modellutvärderingen kanske inte alltid är omfattande. Omfånget beror på följande faktorer:

  • Testuppsättningens storlek. Om testuppsättningen är för liten är poängen för bra/dåliga inte lika representativa för modellens faktiska prestanda. Även om en viss entitetstyp saknas eller underrepresenteras i testuppsättningen påverkar den modellens prestanda.
  • Mångfalden av dina data. Om dina data bara innehåller ett begränsat antal scenarier eller exempel på den text som du förväntar dig i produktion, kanske din modell inte stöter på alla möjliga situationer. Därför kan modellen prestera dåligt när den ställs inför okända scenarier.
  • Representationen i dina data. Om den datamängd som används för att träna modellen inte är representativ för de data som skulle introduceras för modellen i produktion påverkas modellens prestanda avsevärt.

Mer information finns idataval och schemadesign.

Hur gör jag för att förbättra modellprestandan?

  • Visa modellförvirringsmatrisen. Om du märker att en viss entitetstyp ofta inte förutsägs korrekt kan du överväga att lägga till fler taggade instanser för den här klassen.

När två olika entitetstyper ofta förutsägs som varandra indikerar det att schemat saknar klarhet. För att förbättra prestanda bör du överväga att kombinera dessa två entitetstyper till en enda enhetlig typ. Om två entitetstyper konsekvent misstas för varandra under förutsägelsen tyder det här resultatet på tvetydighet i schemat. Genom att sammanfoga dem i en entitetstyp kan du förbättra den övergripande modellprecisionen.

  • Granska förutsägelser för testuppsättningar. Om en av entitetstyperna har många fler taggade instanser än de andra kan din modell vara partisk mot den här typen. Lägg till mer data i de andra entitetstyperna eller ta bort exempel från den dominerande typen.

  • Läs mer om dataurval och schemadesign.

  • Granska testuppsättningen. Granska de förutsagda entiteterna tillsammans med taggade entiteter och få en tydligare förståelse för modellens noggrannhet. Den här jämförelsen kan hjälpa dig att avgöra om justeringar av schemat eller tagguppsättningen behövs.

Varför får jag olika resultat när jag uppdaterar min modell?

  • När du tränar din modell kan du avgöra om du vill att dina data ska delas upp slumpmässigt i tränings- och testuppsättningar. Om du väljer att fortsätta finns det ingen garanti för att modellutvärderingen utförs på samma testuppsättning, vilket innebär att resultaten kanske inte är direkt jämförbara. Genom att göra det riskerar du att utvärdera modellen på en annan testuppsättning, vilket gör det omöjligt att på ett tillförlitligt sätt jämföra resultaten.

  • Om du tränar om samma modell är testuppsättningen densamma, men du kanske märker en liten ändring i förutsägelserna från modellen. Problemet uppstår eftersom den tränade modellen saknar tillräcklig robusthet. Det här resultatet beror på hur väl dina data representerar olika scenarier, hur distinkta datapunkterna är och den övergripande kvaliteten på datataggningen. Flera faktorer påverkar modellens prestanda. Modellens robusthet, datamängdens särskiljningsförmåga och mångfald samt precisionen och enhetligheten hos de taggar som tilldelats data spelar viktiga roller. För att uppnå optimala resultat måste du se till att datamängden inte bara representerar måldomänen korrekt utan även erbjuder unika exempel och att alla taggar tillämpas med både konsekvens och noggrannhet i data.

Hur gör jag för att få förutsägelser på olika språk?

Först måste du aktivera det flerspråkiga alternativet när du skapar projektet , eller så kan du aktivera det senare från sidan projektinställningar. När du har tränat och distribuerat din modell kan du börja fråga den på flera språk. Du kan få olika resultat för olika språk. För att förbättra noggrannheten för alla språk lägger du till fler taggade instanser i projektet på det språket för att introducera den tränade modellen till mer syntax för det språket.

Jag har tränat min modell, men jag kan inte testa den

Du måste distribuera din modell innan du kan testa den.

Hur gör jag för att använda min tränade modell för förutsägelser?

När du har distribuerat din modell anropar du förutsägelse-API:et med hjälp av antingen REST-API:et eller klientbiblioteken.

Datasekretess och säkerhet

Dina data lagras bara i ditt Azure Storage-konto. Anpassad NER har endast åtkomst för läsning från den under träningsprocessen. Anpassade NER-användare har fullständig kontroll för att visa, exportera eller ta bort användarinnehåll, antingen via Azure AI Foundry eller programmatiskt med hjälp av REST-API:er. Mer information finns iData, sekretess och säkerhet för Azure AI Language

Hur klonar jag mitt projekt?

Om du vill klona projektet måste du använda export-API:et för att exportera projekttillgångarna och sedan importera dem till ett nytt projekt. Se REST API-referensen för båda åtgärderna.

Nästa steg