Dela via


Frågevisionsmodeller

I den här artikeln får du lära dig hur du skriver frågeförfrågningar för grundmodeller som är optimerade för visionsuppgifter och skickar dem till din modell som betjänar slutpunkten.

Mosaic AI Model Serving tillhandahåller ett enhetligt API för att förstå och analysera bilder med hjälp av en mängd olika grundmodeller, vilket låser upp kraftfulla multimodala funktioner. Den här funktionen är tillgänglig via utvalda värdmodeller hos Databricks som en del av Foundation Model-API:er och endpoints som hanterar externa modeller.

Kravspecifikation

Frågeexempel

OpenAI-klient

Om du vill använda OpenAI-klienten anger du modellens slutpunktsnamn som model indata.


from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")

# OpenAI request
completion = client.chat.completions.create(
    model="databricks-claude-3-7-sonnet",
    messages=[
        {
            "role": "user",
            "content": [
                {"type": "text", "text": "what's in this image?"},
                {
                    "type": "image_url",
                    "image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
                },
            ],
        }
    ],
)

print(completion.choices[0].message.content)

API:et för chattavslut stöder flera bildindata, vilket gör att modellen kan analysera varje bild och syntetisera information från alla indata för att generera ett svar på uppmaningen.


from openai import OpenAI
import base64
import httpx

client = OpenAI(
    api_key="dapi-your-databricks-token",
    base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)

# Encode multiple images

image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")

# OpenAI request

completion = client.chat.completions.create(
    model="databricks-claude-3-7-sonnet",
    messages=[{
        "role": "user",
        "content": [
            {"type": "text", "text": "What are in these images? Is there any difference between them?"},
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
            },
            {
            "type": "image_url",
            "image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
            },
          ],
      }
  ],
)

print(completion.choices[0].message.content)

SQL

Viktigt!

I följande exempel används den inbyggda SQL-funktionen ai_query. Den här funktionen finns i offentlig förhandsversion och definitionen kan ändras.

Följande anropar en grundmodell som stöds av Databricks Foundation Model APIs för multimodal inmatning genom AI-funktionen ai_query().


> SELECT *, ai_query(
  'databricks-llama-4-maverick',
 'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");

Modeller som stöds

Se Grundläggande modelltyper för visionsmodeller som stöds.

Krav för indatabild

Modeller Stödda format Flera bilder per begäran Begränsningar för bildstorlek Rekommendationer för storleksändring av bilder Överväganden för bildkvalitet
databricks-gpt-5
  • JPEG
  • PNG
  • WebP
  • GIF (Ej animerad GIF)
Upp till 500 enskilda bildindata per begäran Filstorleksgräns: Upp till 10 MB total nyttolaststorlek per begäran N/A
  • Inga vattenstämplar eller logotyper
  • Klart nog för en människa att förstå
databricks-gpt-5-mini
  • JPEG
  • PNG
  • WebP
  • GIF (Ej animerad GIF)
Upp till 500 enskilda bildindata per begäran Filstorleksgräns: Upp till 10 MB total nyttolaststorlek per begäran N/A
  • Inga vattenstämplar eller logotyper
  • Klart nog för en människa att förstå
databricks-gpt-5-nano
  • JPEG
  • PNG
  • WebP
  • GIF (Ej animerad GIF)
Upp till 500 enskilda bildindata per begäran Filstorleksgräns: Upp till 10 MB total nyttolaststorlek per begäran N/A
  • Inga vattenstämplar eller logotyper
  • Klart nog för en människa att förstå
databricks-gemma-3-12b
  • JPEG
  • PNG
  • WebP
  • GIF
Upp till 5 bilder för API-begäranden
  • Alla angivna avbildningar bearbetas i en begäran.
Filstorleksgräns: totalt 10 MB för alla bilder per API-begäran N/A N/A
databricks-llama-4-maverick
  • JPEG
  • PNG
  • WebP
  • GIF
Upp till 5 bilder för API-begäranden
  • Alla angivna avbildningar bearbetas i en begäran.
Filstorleksgräns: totalt 10 MB för alla bilder per API-begäran N/A N/A
  • databricks-claude-sonnet-4-5
  • databricks-claude-opus-4-1
  • databricks-claude-sonnet-4
  • databricks-claude-3-7-sonnet
  • JPEG
  • PNG
  • GIF
  • WebP
  • Upp till 20 bilder för Claude.ai
  • Upp till 100 avbildningar för API-begäranden
  • Alla angivna bilder bearbetas i en begäran, vilket är användbart för att jämföra eller kontrastera dem.
  • Bilder som är större än 8000x8000 px avvisas.
  • Om fler än 20 bilder skickas i en API-begäran är den maximala tillåtna storleken per bild2 000 x 2 000 px.
För optimala prestanda kan du ändra storlek på bilder innan de laddas upp om de är för stora.
  • Om en bilds långa kant överskrider 1 568 bildpunkter eller om dess storlek överskrider ~1 600 token skalas den automatiskt ned samtidigt som höjdförhållandet bevaras.
  • Mycket små bilder (under 200 bildpunkter på valfri kant) kan försämra prestanda.
  • Håll bilderna inom 1,15 megapixlar och högst 1 568 bildpunkter i båda dimensionerna för att minska svarstiden.
  • Klarhet: Undvik suddiga eller pixelerade bilder.
  • Text i bilder:
    • Kontrollera att texten är läsbar och inte för smal.
    • Undvik att beskära viktiga visuella kontexter bara för att förstora texten.

Bild-till-tokenkonvertering

Det här avsnittet gäller endast api:er för Foundation Model. Externa modeller finns i leverantörens dokumentation.

Varje bild i en begäran till en grundmodell lägger till din tokenanvändning. Se priskalkylatorn för att uppskatta bildpriser baserat på den tokenanvändning och modell som du använder.

Begränsningar för bildtolkning

Det här avsnittet gäller endast api:er för Foundation Model. Externa modeller finns i leverantörens dokumentation.

Följande är begränsningar för bildtolkning för de värdbaserade grundmodeller som stöds av Databricks:

Model Begränsningar
Följande Claude-modeller stöds:
  • databricks-claude-sonnet-4-5
  • databricks-claude-opus-4-1
  • databricks-claude-sonnet-4
  • databricks-claude-3-7-sonnet
Följande är gränserna för Claude-modeller på Databricks:
  • Undvik att använda Claude för uppgifter som kräver perfekt precision eller känslig analys utan mänsklig tillsyn.
  • Personidentifiering: Det går inte att identifiera eller namnge personer i bilder.
  • Noggrannhet: Kan misstolka låg kvalitet, roterade eller mycket små bilder (200 px).
  • Rumsligt resonemang: Har svårt med exakta layouter, till exempel att läsa analoga klockor eller schackpositioner.
  • Räkna: Ger ungefärligt antal, men kan vara felaktigt för många små objekt.
  • AI-genererade bilder: Det går inte att identifiera syntetiska eller falska bilder på ett tillförlitligt sätt.
  • Olämpligt innehåll: Blockerar explicita eller principöverträdande bilder.
  • Sjukvård: Passar inte för komplexa medicinska undersökningar (till exempel CT- och MR-undersökningar). Det är inget diagnostikverktyg.

Ytterligare resurser