Koncept för visionsaktiverad chattmodell

2025-09-17

Visionsaktiverade chattmodeller är stora multimodala modeller (LMM) som utvecklats av OpenAI och som kan analysera bilder och ge textsvar på frågor om dem. De omfattar både bearbetning av naturligt språk och visuell förståelse. Den här guiden innehåller information om deras funktioner och begränsningar. Information om vilka modeller som stöder bildindata finns på sidan Modeller.

Information om hur du provar visionsaktiverade chattmodeller finns i snabbstarten.

Visionsaktiverade chattar

De visionsaktiverade modellerna svarar på allmänna frågor om vad som finns i bilderna du laddar upp.

Indatabegränsningar

I det här avsnittet beskrivs begränsningarna för visionsaktiverade chattmodeller.

Bildstöd

Maximal bildstorlek för indata: Den maximala storleken för indatabilder är begränsad till 20 MB.
Låg upplösningsprecision: När bilder analyseras med inställningen "låg upplösning" möjliggör den snabbare svar och använder färre indatatoken för vissa användningsfall. Detta kan dock påverka precisionen för objekt- och textigenkänning i bilden.
Begränsning av bildchatt: När du laddar upp bilder i Azure AI Foundry-portalen eller API:et finns det en gräns på 10 bilder per chattsamtal.

Särskild prisinformation

Viktigt!

Prisinformationen kan komma att ändras i framtiden.

Visionsaktiverade modeller ackumulerar avgifter som andra Azure OpenAI-chattmodeller. Du betalar en pris per token för anvisningarna och slutförandena, som beskrivs på sidan Prissättning. Basavgifterna och ytterligare funktioner beskrivs här:

Grundpriser för GPT-4 Turbo med Vision är:

Indata: 0,01 USD per 1 000 token
Utdata: $0.03 per 1000 tokens

Mer information om hur text och bilder översätts till token finns i avsnittet Tokens i översikten .

Exempel på bildprisberäkning

Viktigt!

Följande innehåll är bara ett exempel och priserna kan komma att ändras i framtiden.

För ett typiskt användningsfall tar du en bild med både synliga objekt och text och en 100-tokens promptinmatning. När tjänsten bearbetar prompten genererar den 100 token för utdata. I bilden kan både text och objekt identifieras. Priset för den här transaktionen skulle vara:

Objekt	Detalj	Kostnad
Textpromptinmatning	100 texttoken	$0.001
Exempel på bildindata (se Bildtoken)	170 + 85 bildtoken	$0.00255
Förbättrade tilläggsfunktioner för OCR	$1.50 /1000 transaktioner	0,0015 USD
Förbättrade tilläggsfunktioner för object grounding	$1.50 /1000 transaktioner	0,0015 USD
Utdatatoken	100 token (antas)	$0.003
Total		$0.00955

Kom igång använda visionsaktiverade modeller genom att följa snabbstarten.
Om du vill ha en mer djupgående titt på API:erna följer du guiden instruktioner.
Se API-referensen för slutföranden och inbäddningar

Feedback

Var den här sidan till hjälp?