Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
I den här artikeln får du lära dig hur du skriver frågeförfrågningar för grundmodeller som är optimerade för visionsuppgifter och skickar dem till din modell som betjänar slutpunkten.
Mosaic AI Model Serving tillhandahåller ett enhetligt API för att förstå och analysera bilder med hjälp av en mängd olika grundmodeller, vilket låser upp kraftfulla multimodala funktioner. Den här funktionen är tillgänglig via utvalda värdmodeller hos Databricks som en del av Foundation Model-API:er och endpoints som hanterar externa modeller.
Kravspecifikation
- Se kraven.
- Installera lämpligt paket i klustret baserat på det frågeklientalternativ du väljer.
Frågeexempel
OpenAI-klient
Om du vill använda OpenAI-klienten anger du modellens slutpunktsnamn som model indata.
from openai import OpenAI
import base64
import httpx
client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)
# encode image
image_url = "https://upload.wikimedia.org/wikipedia/commons/a/a7/Camponotus_flavomarginatus_ant.jpg"
image_data = base64.standard_b64encode(httpx.get(image_url).content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[
{
"role": "user",
"content": [
{"type": "text", "text": "what's in this image?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
API:et för chattavslut stöder flera bildindata, vilket gör att modellen kan analysera varje bild och syntetisera information från alla indata för att generera ett svar på uppmaningen.
from openai import OpenAI
import base64
import httpx
client = OpenAI(
api_key="dapi-your-databricks-token",
base_url="https://example.staging.cloud.databricks.com/serving-endpoints"
)
# Encode multiple images
image1_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image1_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
image2_url = "https://upload.wikimedia.org/wikipedia/commons/thumb/d/dd/Gfp-wisconsin-madison-the-nature-boardwalk.jpg/2560px-Gfp-wisconsin-madison-the-nature-boardwalk.jpg"
image2_data = base64.standard_b64encode(httpx.get(image1_url).content).decode("utf-8")
# OpenAI request
completion = client.chat.completions.create(
model="databricks-claude-3-7-sonnet",
messages=[{
"role": "user",
"content": [
{"type": "text", "text": "What are in these images? Is there any difference between them?"},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image1_data}"},
},
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{image2_data}"},
},
],
}
],
)
print(completion.choices[0].message.content)
SQL
Viktigt!
I följande exempel används den inbyggda SQL-funktionen ai_query. Den här funktionen finns i offentlig förhandsversion och definitionen kan ändras.
Följande anropar en grundmodell som stöds av Databricks Foundation Model APIs för multimodal inmatning genom AI-funktionen ai_query().
> SELECT *, ai_query(
'databricks-llama-4-maverick',
'what is this image about?', files => content)
as output FROM READ_FILES("/Volumes/main/multimodal/unstructured/image.jpeg");
Modeller som stöds
Se Grundläggande modelltyper för visionsmodeller som stöds.
Krav för indatabild
| Modeller | Stödda format | Flera bilder per begäran | Begränsningar för bildstorlek | Rekommendationer för storleksändring av bilder | Överväganden för bildkvalitet |
|---|---|---|---|---|---|
databricks-gpt-5 |
|
Upp till 500 enskilda bildindata per begäran | Filstorleksgräns: Upp till 10 MB total nyttolaststorlek per begäran | N/A |
|
databricks-gpt-5-mini |
|
Upp till 500 enskilda bildindata per begäran | Filstorleksgräns: Upp till 10 MB total nyttolaststorlek per begäran | N/A |
|
databricks-gpt-5-nano |
|
Upp till 500 enskilda bildindata per begäran | Filstorleksgräns: Upp till 10 MB total nyttolaststorlek per begäran | N/A |
|
databricks-gemma-3-12b |
|
Upp till 5 bilder för API-begäranden
|
Filstorleksgräns: totalt 10 MB för alla bilder per API-begäran | N/A | N/A |
databricks-llama-4-maverick |
|
Upp till 5 bilder för API-begäranden
|
Filstorleksgräns: totalt 10 MB för alla bilder per API-begäran | N/A | N/A |
|
|
|
|
För optimala prestanda kan du ändra storlek på bilder innan de laddas upp om de är för stora.
|
|
Bild-till-tokenkonvertering
Det här avsnittet gäller endast api:er för Foundation Model. Externa modeller finns i leverantörens dokumentation.
Varje bild i en begäran till en grundmodell lägger till din tokenanvändning. Se priskalkylatorn för att uppskatta bildpriser baserat på den tokenanvändning och modell som du använder.
Begränsningar för bildtolkning
Det här avsnittet gäller endast api:er för Foundation Model. Externa modeller finns i leverantörens dokumentation.
Följande är begränsningar för bildtolkning för de värdbaserade grundmodeller som stöds av Databricks:
| Model | Begränsningar |
|---|---|
Följande Claude-modeller stöds:
|
Följande är gränserna för Claude-modeller på Databricks:
|