Uppgifter och tekniker för datorseende

Slutförd

Anmärkning

Mer information finns på fliken Text och bilder !

Termen "datorseende" avser en rad uppgifter och tekniker där AI-programvara bearbetar visuella indata; vanligtvis från bilder, videor eller live-kameraströmmar. Datorseende är ett väletablerat område inom AI, och de tekniker som används för att extrahera information från visuella indata har utvecklats avsevärt genom åren.

Bildklassificering

En av de äldsta lösningarna för visuellt innehåll är en teknik som kallas bildklassificering, där en modell som har tränats med ett stort antal bilder används för att förutsäga en textetikett baserat på en bilds innehåll.

Anta till exempel att en livsmedelsbutik vill implementera ett system för smart utcheckning som identifierar produkter automatiskt. Kunden kan till exempel placera frukt eller grönsaker i en skala i kassan, och ett AI-program som är anslutet till en kamera kan automatiskt identifiera typerna av produkter (äpple, apelsin, banan och så vidare) och debitera lämplig mängd baserat på dess vikt. För att den här lösningen ska fungera måste en modell tränas med en stor mängd bilder, var och en märkt med rätt namn. Resultatet är en modell som kan använda visuella funktioner i en bild för att förutsäga dess huvudämne.

Fotografier av en apelsin, ett äpple och en banan.

Objektdetektering

Anta att livsmedelsbutiken vill ha ett mer avancerat system, där kassan kan skanna flera objekt i kassan och identifiera var och en av dem. En vanlig metod för den här typen av problem kallas "objektidentifiering". Objektidentifieringsmodeller undersöker flera regioner i en bild för att hitta enskilda objekt och deras platser. Den resulterande förutsägelsen från modellen innehåller vilka objekt som identifierades och de specifika regionerna i bilden där de visas – vilket anges av koordinaterna för den rektangulära avgränsningsrutan.

Foto av apelsin, äpple och banan med markeringsrutor.

Semantisk segmentering

Ett annat, mer avancerat sätt att identifiera objekt i en bild, kallas "semantisk segmentering". I den här metoden tränas en modell att hitta objekt och klassificera enskilda bildpunkter i bilden baserat på det objekt som de tillhör. Resultatet av den här processen är en mycket mer exakt förutsägelse av platsen för objekt i bilden.

Foto av apelsin, äpple och banan med överlagrade masker.

Kontextuell bildanalys

De senaste multimodala datorsynmodellerna tränas för att hitta kontextuella relationer mellan objekt i bilder och texten som beskriver dem. Resultatet är en förmåga att semantiskt tolka en bild för att avgöra vilka objekt och aktiviteter den visar. och generera lämpliga beskrivningar eller föreslå relevanta taggar.

Foto av en person som äter ett äpple.

En person som äter ett äpple.