Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Visionsaktiverade chattmodeller är stora multimodala modeller (LMM) som utvecklats av OpenAI och som kan analysera bilder och ge textsvar på frågor om dem. De omfattar både bearbetning av naturligt språk och visuell förståelse. Den här guiden innehåller information om deras funktioner och begränsningar. Information om vilka modeller som stöder bildindata finns på sidan Modeller.
Information om hur du provar visionsaktiverade chattmodeller finns i snabbstarten.
Visionsaktiverade chattar
De visionsaktiverade modellerna svarar på allmänna frågor om vad som finns i bilderna du laddar upp.
Indatabegränsningar
I det här avsnittet beskrivs begränsningarna för visionsaktiverade chattmodeller.
Bildstöd
- Maximal bildstorlek för indata: Den maximala storleken för indatabilder är begränsad till 20 MB.
- Låg upplösningsprecision: När bilder analyseras med inställningen "låg upplösning" möjliggör den snabbare svar och använder färre indatatoken för vissa användningsfall. Detta kan dock påverka precisionen för objekt- och textigenkänning i bilden.
- Begränsning av bildchatt: När du laddar upp bilder i Azure AI Foundry-portalen eller API:et finns det en gräns på 10 bilder per chattsamtal.
Särskild prisinformation
Viktigt!
Prisinformationen kan komma att ändras i framtiden.
Visionsaktiverade modeller ackumulerar avgifter som andra Azure OpenAI-chattmodeller. Du betalar en pris per token för anvisningarna och slutförandena, som beskrivs på sidan Prissättning. Basavgifterna och ytterligare funktioner beskrivs här:
Grundpriser för GPT-4 Turbo med Vision är:
- Indata: 0,01 USD per 1 000 token
- Utdata: $0.03 per 1000 tokens
Mer information om hur text och bilder översätts till token finns i avsnittet Tokens i översikten .
Exempel på bildprisberäkning
Viktigt!
Följande innehåll är bara ett exempel och priserna kan komma att ändras i framtiden.
För ett typiskt användningsfall tar du en bild med både synliga objekt och text och en 100-tokens promptinmatning. När tjänsten bearbetar prompten genererar den 100 token för utdata. I bilden kan både text och objekt identifieras. Priset för den här transaktionen skulle vara:
| Objekt | Detalj | Kostnad |
|---|---|---|
| Textpromptinmatning | 100 texttoken | $0.001 |
| Exempel på bildindata (se Bildtoken) | 170 + 85 bildtoken | $0.00255 |
| Förbättrade tilläggsfunktioner för OCR | $1.50 /1000 transaktioner | 0,0015 USD |
| Förbättrade tilläggsfunktioner för object grounding | $1.50 /1000 transaktioner | 0,0015 USD |
| Utdatatoken | 100 token (antas) | $0.003 |
| Total | $0.00955 |
Relaterat innehåll
- Kom igång använda visionsaktiverade modeller genom att följa snabbstarten.
- Om du vill ha en mer djupgående titt på API:erna följer du guiden instruktioner.
- Se API-referensen för slutföranden och inbäddningar