Sammanfattning

1 minut

Anmärkning

Mer information finns på fliken Text och bilder !

Datorseende bygger på analys och manipulering av numeriska pixelvärden i bilder. Maskininlärningsmodeller tränas med hjälp av en stor mängd bilder för att möjliggöra vanliga scenarier för visuellt innehåll, till exempel bildklassificering, objektidentifiering, semantisk segmentering, undertextgenerering med mera.

De modeller som används för datorseende har utvecklats från statistikbaserade bildklassificerare genom konvolutionella neurala nätverk till dagens transformer-baserade multimodala modeller. Avancerade modeller kan inte bara tolka visuella indata, utan också generera visuella utdata.

Tips/Råd

Mer information finns i Vad är datorsyn?.

Feedback

Var den här sidan till hjälp?