Uppgifter och tekniker för datorseende
Anmärkning
Mer information finns på fliken Text och bilder !
Termen "datorseende" avser en rad uppgifter och tekniker där AI-programvara bearbetar visuella indata; vanligtvis från bilder, videor eller live-kameraströmmar. Datorseende är ett väletablerat område inom AI, och de tekniker som används för att extrahera information från visuella indata har utvecklats avsevärt genom åren.
Bildklassificering
En av de äldsta lösningarna för visuellt innehåll är en teknik som kallas bildklassificering, där en modell som har tränats med ett stort antal bilder används för att förutsäga en textetikett baserat på en bilds innehåll.
Anta till exempel att en livsmedelsbutik vill implementera ett system för smart utcheckning som identifierar produkter automatiskt. Kunden kan till exempel placera frukt eller grönsaker i en skala i kassan, och ett AI-program som är anslutet till en kamera kan automatiskt identifiera typerna av produkter (äpple, apelsin, banan och så vidare) och debitera lämplig mängd baserat på dess vikt. För att den här lösningen ska fungera måste en modell tränas med en stor mängd bilder, var och en märkt med rätt namn. Resultatet är en modell som kan använda visuella funktioner i en bild för att förutsäga dess huvudämne.
Objektdetektering
Anta att livsmedelsbutiken vill ha ett mer avancerat system, där kassan kan skanna flera objekt i kassan och identifiera var och en av dem. En vanlig metod för den här typen av problem kallas "objektidentifiering". Objektidentifieringsmodeller undersöker flera regioner i en bild för att hitta enskilda objekt och deras platser. Den resulterande förutsägelsen från modellen innehåller vilka objekt som identifierades och de specifika regionerna i bilden där de visas – vilket anges av koordinaterna för den rektangulära avgränsningsrutan.
Semantisk segmentering
Ett annat, mer avancerat sätt att identifiera objekt i en bild, kallas "semantisk segmentering". I den här metoden tränas en modell att hitta objekt och klassificera enskilda bildpunkter i bilden baserat på det objekt som de tillhör. Resultatet av den här processen är en mycket mer exakt förutsägelse av platsen för objekt i bilden.
Kontextuell bildanalys
De senaste multimodala datorsynmodellerna tränas för att hitta kontextuella relationer mellan objekt i bilder och texten som beskriver dem. Resultatet är en förmåga att semantiskt tolka en bild för att avgöra vilka objekt och aktiviteter den visar. och generera lämpliga beskrivningar eller föreslå relevanta taggar.
En person som äter ett äpple.