Delen via


Aan de slag met het uitvoeren van query's voor LLM's in Databricks

In dit artikel wordt beschreven hoe u aan de slag gaat met Foundation Model-API's om LLM's op Databricks te leveren en er query's op uit te voeren.

De eenvoudigste manier om aan de slag te gaan met het leveren en opvragen van LLM-modellen in Databricks is het gebruik van Foundation Model-API's op basis van betalen per token . De API's bieden toegang tot populaire basismodellen van betalen per token-eindpunten die automatisch beschikbaar zijn in de gebruikersinterface van uw Databricks-werkruimte. Zie databricks-gehoste basismodellen die beschikbaar zijn in Foundation Model-API's.

U kunt ook betalen per token-modellen testen en chatten met behulp van de AI Playground. Zie Chatten met LLM's en prototypegeneratieve AI-apps met behulp van AI Playground.

Voor productieworkloads, met name die met een nauwkeurig afgestemd model of waarvoor prestatiegaranties zijn vereist, raadt Databricks aan om Foundation Model-API's te gebruiken op een ingerichte doorvoereindpunt .

Requirements

Important

Als best practice voor beveiliging voor productiescenario's raadt Databricks u aan om OAuth-tokens voor machine-naar-machine te gebruiken voor verificatie tijdens de productie.

Voor testen en ontwikkelen raadt Databricks aan om een persoonlijk toegangstoken te gebruiken dat hoort bij service-principals in plaats van werkruimtegebruikers. Zie Tokens voor een service-principal beheren om tokens voor service-principals te maken.

Aan de slag met Foundation Model-API's

Het volgende voorbeeld is bedoeld om te worden uitgevoerd in een Databricks-notebook. In het codevoorbeeld wordt het Meta Llama 3.1 405B Instruct-model opgevraagd dat wordt geleverd op het eindpunt databricks-meta-llama-3-1-405b-instructvoor betalen per token.

In dit voorbeeld gebruikt u de OpenAI-client om een query uit te voeren op het model door het model-veld te vullen met de naam van het serveereindpunt dat het model host waarop u een query wilt uitvoeren. Gebruik uw persoonlijke toegangstoken om DATABRICKS_TOKEN te vullen en uw Databricks-werkruimte-exemplaar om de OpenAI-client met Databricks te verbinden.

from openai import OpenAI
import os

DATABRICKS_TOKEN = os.environ.get("DATABRICKS_TOKEN")

client = OpenAI(
  api_key=DATABRICKS_TOKEN, # your personal access token
  base_url='https://<workspace_id>.databricks.com/serving-endpoints', # your Databricks workspace instance
)

chat_completion = client.chat.completions.create(
  messages=[
    {
      "role": "system",
      "content": "You are an AI assistant",
    },
    {
      "role": "user",
      "content": "What is a mixture of experts model?",
    }
  ],
  model="databricks-meta-llama-3-1-405b-instruct",
  max_tokens=256
)

print(chat_completion.choices[0].message.content)

Note

Als u het volgende bericht ImportError: cannot import name 'OpenAI' from 'openai'tegenkomt, voert u een upgrade uit van uw openai versie met behulp van !pip install -U openai. Nadat u het pakket hebt geïnstalleerd, voert u dbutils.library.restartPython() uit.

Verwachte uitvoer:


{
  "id": "xxxxxxxxxxxxx",
  "object": "chat.completion",
  "created": "xxxxxxxxx",
  "model": "databricks-meta-llama-3-1-405b-instruct",
  "choices": [
    {
      "index": 0,
      "message":
        {
          "role": "assistant",
          "content": "A Mixture of Experts (MoE) model is a machine learning technique that combines the predictions of multiple expert models to improve overall performance. Each expert model specializes in a specific subset of the data, and the MoE model uses a gating network to determine which expert to use for a given input."
        },
      "finish_reason": "stop"
    }
  ],
  "usage":
    {
      "prompt_tokens": 123,
      "completion_tokens": 23,
      "total_tokens": 146
    }
}

Volgende stappen