Vision transformatorer och multimodala modeller

Slutförd

Anmärkning

Mer information finns på fliken Text och bilder !

CNN-nätverk har varit kärnan i datorsynslösningar i många år. De används ofta för att lösa problem med bildklassificering enligt beskrivningen tidigare, men de är också grunden för mer komplexa modeller för visuellt innehåll. Objektidentifieringsmodeller kombinerar till exempel CNN-funktionsextraheringslager med identifiering av regioner av intresse för bilder för att hitta flera objektklasser i samma bild. Många framsteg inom datorseende under årtiondena har drivits av förbättringar i CNN-baserade modeller.

Men i ett annat AI-område – bearbetning av naturligt språk (NLP), har en annan typ av neural nätverksarkitektur, kallad transformerare , möjliggjort utveckling av avancerade språkmodeller.

Semantisk modellering för språk – Transformatorer

Transformatorer fungerar genom att bearbeta stora mängder data och koda språktoken (som representerar enskilda ord eller fraser) som vektorbaserade inbäddningar (matriser med numeriska värden). En teknik som kallas uppmärksamhet används för att tilldela inbäddningsvärden som återspeglar olika aspekter av hur varje token används i kontexten för andra token. Du kan se inbäddningarna som vektorer i flerdimensionellt utrymme, där varje dimension bäddar in ett språkattribut för en token baserat på dess kontext i träningstexten och skapar semantiska relationer mellan token. Tokens som används ofta i liknande kontexter definierar vektorer som är noggrant anpassade jämfört med orelaterade ord.

Diagram över tokenvektorer i ett 3D-rymd.

Token som är semantiskt lika kodas i liknande riktningar och skapar en semantisk språkmodell som gör det möjligt att skapa avancerade NLP-lösningar för textanalys, översättning, språkgenerering och andra uppgifter.

Anmärkning

I verkligheten skapar kodare i transformatornätverk vektorer med många fler dimensioner, vilket definierar komplexa semantiska relationer mellan token baserat på linjära algebraiska beräkningar. Matematiken är komplex, liksom arkitekturen i en transformeringsmodell. Vårt mål här är bara att ge en konceptuell förståelse för hur kodning skapar en modell som kapslar in relationer mellan entiteter.

Semantisk modell för bilder – visionstransformatorer

Transformatorernas framgång som ett sätt att skapa språkmodeller har fått AI-forskare att överväga om samma metod skulle vara effektiv för bilddata. Resultatet är utvecklingen av viT-modeller ( Vision Transformer ), där en modell tränas med hjälp av en stor mängd bilder. I stället för att koda textbaserade token extraherar transformatorn korrigeringar av pixelvärden från bilden och genererar en linjär vektor från pixelvärdena.

Diagram över ett foto med lappar tilldelade till vektorer.

Samma uppmärksamhetsteknik som används i språkmodeller för att bädda in kontextuella relationer mellan token, används också för att fastställa kontextuella relationer mellan patcharna. Den viktigaste skillnaden är att i stället för att koda språkliga egenskaper i inbäddningsvektorerna baseras de inbäddade värdena på visuella funktioner, till exempel färg, form, kontrast, struktur och så vidare. Resultatet är en uppsättning inbäddningsvektorer som skapar en flerdimensionell "karta" över visuella funktioner baserat på hur de ofta visas i träningsbilderna.

Diagram över visionsinbäddningar.

Precis som med språkmodeller resulterar inbäddningarna i att visuella funktioner som används i liknande kontext tilldelas liknande vektorriktningar. Till exempel kan de visuella funktioner som är vanliga i en hatt vara kontextuellt relaterade till de visuella funktioner som är vanliga i ett huvud. eftersom de två sakerna ofta ses tillsammans. Modellen har ingen förståelse för vad en "hatt" eller ett "huvud" är; men det kan härleda en semantisk relation mellan de visuella egenskaperna.

Sammanför allt – Multimodala modeller

En språktransformator skapar inbäddningar som definierar ett språkordförråd som kodar semantiska relationer mellan ord. En visionstransformator skapar ett visuellt ordförråd som gör samma sak för visuella funktioner. När träningsdata innehåller bilder med tillhörande textbeskrivningar kan vi kombinera kodarna från båda dessa transformatorer i en multimodal modell; och använda en teknik som kallas korsmodelluppmärksamhet för att definiera en enhetlig rumslig representation av inbäddningsvektorerna, på det här sättet.

Diagram över en multimodal modell som kombinerar inbäddningar av språk och visioner.

Den här kombinationen av inbäddningar av språk och visioner gör det möjligt för modellen att urskilja semantiska relationer mellan språk- och visuella funktioner. Den här funktionen gör det i sin tur möjligt för modellen att förutsäga komplexa beskrivningar för bilder som den inte tidigare har sett, genom att identifiera visuella funktioner och söka i det delade vektorutrymmet efter associerat språk.

Foto av en person i en park med hatt och ryggsäck.

En person i en park med hatt och ryggsäck