Aan de slag met het uitvoeren van query's voor LLM's in Databricks

2025-08-07

In dit artikel wordt beschreven hoe u aan de slag gaat met Foundation Model-API's om LLM's op Databricks te leveren en er query's op uit te voeren.

De eenvoudigste manier om aan de slag te gaan met het leveren en opvragen van LLM-modellen in Databricks is het gebruik van Foundation Model-API's op basis van betalen per token . De API's bieden toegang tot populaire basismodellen van betalen per token-eindpunten die automatisch beschikbaar zijn in de gebruikersinterface van uw Databricks-werkruimte. Zie databricks-gehoste basismodellen die beschikbaar zijn in Foundation Model-API's.

U kunt ook betalen per token-modellen testen en chatten met behulp van de AI Playground. Zie Chatten met LLM's en prototypegeneratieve AI-apps met behulp van AI Playground.

Voor productieworkloads, met name die met een nauwkeurig afgestemd model of waarvoor prestatiegaranties zijn vereist, raadt Databricks aan om Foundation Model-API's te gebruiken op een ingerichte doorvoereindpunt .

Requirements

Een Databricks-werkruimte in een ondersteunde regio voor Foundation Model-API's betalen per token.
Een persoonlijk toegangstoken van Databricks om eindpunten van Mosaic AI Model Serving op te vragen en te openen met behulp van de OpenAI-client.

Important

Als best practice voor beveiliging voor productiescenario's raadt Databricks u aan om OAuth-tokens voor machine-naar-machine te gebruiken voor verificatie tijdens de productie.

Voor testen en ontwikkelen raadt Databricks aan om een persoonlijk toegangstoken te gebruiken dat hoort bij service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Aan de slag met Foundation Model-API's

Het volgende voorbeeld is bedoeld om te worden uitgevoerd in een Databricks-notebook. In het codevoorbeeld wordt het Meta Llama 3.1 405B Instruct-model opgevraagd dat wordt geleverd op het eindpunt databricks-meta-llama-3-1-405b-instructvoor betalen per token.

In dit voorbeeld gebruikt u de OpenAI-client om een query uit te voeren op het model door het model-veld te vullen met de naam van het serveereindpunt dat het model host waarop u een query wilt uitvoeren. Gebruik uw persoonlijke toegangstoken om DATABRICKS_TOKEN te vullen en uw Databricks-werkruimte-exemplaar om de OpenAI-client met Databricks te verbinden.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Note

Als u het volgende bericht ImportError: cannot import name 'OpenAI' from 'openai'tegenkomt, voert u een upgrade uit van uw openai versie met behulp van !pip install -U openai. Nadat u het pakket hebt geïnstalleerd, voert u dbutils.library.restartPython() uit.

Verwachte uitvoer:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Volgende stappen

Gebruik de AI-speeltuin om verschillende modellen uit te proberen in een vertrouwde chatinterface.
Basismodellen gebruiken.
Access-modellen die buiten Databricks worden gehost met behulp van externe modellen.
Meer informatie over het implementeren van nauwkeurig afgestemde modellen met behulp van ingerichte doorvoereindpunten.
Verken methoden om de kwaliteit en eindpuntstatus van het model te bewaken.

Feedback

Is deze pagina nuttig?