Bildgenerering
Anmärkning
Mer information finns på fliken Text och bilder !
Samma multimodala modellarkitektur som gör det möjligt för AI att skapa naturliga språksvar på visuella indata kan också användas för att skapa bilder som svar på frågor på naturligt språk. Genom att identifiera de visuella funktioner som är associerade med språket kan en bildsyntesmodell ta en beskrivning av en önskad bild eller video och generera den.
De flesta moderna bildgenereringsmodeller använder en teknik som kallas diffusion, där en uppmaning används för att identifiera en uppsättning relaterade visuella funktioner som kan kombineras för att skapa en bild. Bilden skapas sedan iterativt och börjar med en slumpmässig uppsättning pixelvärden och tar bort "brus" för att skapa struktur. Efter varje iteration utvärderar modellen bilden hittills för att jämföra den med prompten, tills en slutlig bild som visar önskad scen skapas.
Till exempel kan uppmaningen "En hund som bär en pinne i munnen" resultera i en diffusionsprocess med följande iterationer:
Vissa modeller kan använda en liknande process för att generera video. Videogenereringsprocessen använder samma teknik för att identifiera visuella funktioner som är associerade med språktoken, men tar också hänsyn till faktorer som det fysiska beteendet hos objekt i den verkliga världen (till exempel att se till att en hund går med fötterna på marken) och den temporala progressionen (så att videon visar en logisk aktivitetssekvens).