Dela via


Gränser och kvoter för API:er för grundmodell

Den här sidan beskriver gränserna och kvoterna för Api:er för Databricks Foundation-modell.

Databricks Foundation-modell-API:er tillämpar hastighetsgränser för att säkerställa tillförlitlig prestanda och rättvis resursallokering för alla användare. Dessa gränser varierar beroende på arbetsytans plattformsnivå, grundmodelltyp och hur du distribuerar din grundmodell.

Gränser för slutpunktsfrekvens för betala per token

Slutpunkter för betala per token styrs av tokenbaserade och frågebaserade hastighetsgränser. Tokenbaserade hastighetsgränser styr det maximala antalet token som kan bearbetas per minut och tillämpas separat för indata- och utdatatoken.

  • Indatatoken per minut (ITPM): Det maximala antalet indatatoken (från dina frågor) som kan bearbetas inom ett 60-sekundersfönster. En ITPM-hastighetsgräns styr dataflödet för indatatoken för en slutpunkt.
  • Utdatatoken per minut (OTPM) : Det maximala antalet utdatatoken (från modellens svar) som kan genereras inom ett 60-sekundersfönster. En OTPM-hastighetsgräns styr utdatatokens dataflöde för en slutpunkt.
  • Frågor per timme: Det maximala antalet frågor eller begäranden som kan bearbetas inom ett fönster på 60 minuter. För produktionsprogram med varaktiga användningsmönster rekommenderar Databricks etablerade dataflödesslutpunkter som ger garanterad kapacitet.

Hur gränser spåras och framtvingas

Den mest restriktiva hastighetsgränsen (ITPM, OTPM, QPH) gäller vid en viss tidpunkt. Även om du till exempel inte har nått itpm-gränsen är du fortfarande hastighetsbegränsad om du överskrider gränsen för QPH eller OTPM. När gränsen för ITPM eller OTPM nås får efterföljande begäranden ett 429-fel som anger att för många begäranden har tagits emot. Det här meddelandet kvarstår tills hastighetsbegränsningsfönstret återställs.

Databricks spårar och tillämpar hastighetsbegränsningar för token per minut (TPM) med hjälp av följande funktioner:

Feature Detaljer
Kontroll av tokenredovisning och förhandsinträde
  • Indatatokenräkning: Indatatoken räknas från den faktiska prompten vid begärandetillfället.
  • Uppskattning av utdatatoken: Om du anger max_tokens i din begäran använder Databricks det här värdet för att uppskatta och reservera utdatatokens kapacitet innan begäran tas emot för bearbetning.
  • Validering före antagning: Databricks kontrollerar om din begäran överskrider ITPM- eller OTPM-gränserna innan bearbetningen påbörjas. Om max_tokens det skulle leda till att du överskrider OTPM-gränserna avvisar Databricks begäran omedelbart med ett 429-fel.
  • Faktiska eller uppskattade utdata: När svaret har genererats räknas de faktiska utdatatoken. Viktigt är att om den faktiska tokenanvändningen är mindre än den reserverade max_tokens, krediterar Databricks skillnaden tillbaka till din hastighetsgräns, vilket gör dessa token omedelbart tillgängliga för andra begäranden.
  • Inga max_tokens anges: Om du inte anger max_tokensanvänder Databricks en standardreservation och det faktiska antalet token avstäms efter generering. Not: Claude Sonnet 4 är som standard 1 000 utdatatoken när max_tokens det inte har angetts, vilket returnerar avslutsorsaken "längd" när den nås. Det här är inte modellens maximala kontextlängd. Claude 3.7 Sonnet har ingen sådan standard.
Burst-kapacitet och utjämning
  • Burst-buffert: Hastighetsbegränsningen innehåller en liten buffert för att hantera korta trafiktoppar över den nominella hastigheten.
  • Skjutfönster: Tokenförbrukning spåras med hjälp av en algoritm för skjutfönster som ger smidigare hastighetsbegränsning än hårda gränser per minut.
  • Token bucket-algoritm: Databricks använder en implementering av token bucket som möjliggör viss burst-kapacitet samtidigt som den genomsnittliga hastighetsgränsen bibehålls över tid.

Följande är ett exempel på hur förintagningskontroll och kredituppföljningsbeteende fungerar.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Hastighetsbegränsningar per modell

I följande tabeller sammanfattas ITPM-, OTPM- och QPH-hastighetsgränserna för API-slutpunkter för foundation-modell för betala per token för arbetsytor på Enterprise-nivå:

Stora språkmodeller ITPM-gräns GRÄNS FÖR OTPM QPH-gräns Noteringar
GPT OSS 120B 200,000 10 000 Allmän LLM
GPT OSS 20B 200,000 10 000 Mindre GPT-variant
Gemma 3 12B 200,000 10 000 7,200 Googles Gemma-modell
Llama 4 Maverick 200,000 10 000 2,400 Senaste Llama-versionen
Llama 3.3 70B Instruera 200,000 10 000 2,400 Mellanstor Llama-modell
Llama 3.1 8B Instruera 200,000 10 000 7,200 Lightweight Llama-modell
Llama 3.1 405B Instruera 5,000 500 1,200
  • Största Llama-modell – reducerade gränser på grund av storlek
Antropiska Claude-modeller ITPM-gräns GRÄNS FÖR OTPM Noteringar
Claude 3.7 Sonnet 50,000 5,000 Balanserad Claude-modell
Claude Sonnet 4 50,000 5,000
Claude Opus 4.1 50,000 5,000 Den mest kompatibla Claude-modellen
Claude Sonnet 4.5 50,000 5,000 Senaste Sonnet-versionen
Inbäddningsmodeller ITPM-gräns GRÄNS FÖR OTPM QPH-gräns Noteringar
GTE Large (En) N/A N/A 540,000 Textinbäddningsmodell – genererar inte normaliserade inbäddningar
Stor BGE (En) N/A N/A 2,160,000 Textinbäddningsmodell

Metodtips för att hantera TPM-hastighetsbegränsningar

Steg 1. Övervaka tokenanvändning

Spåra både antal in- och utdatatoken separat i dina program:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Steg 2. Implementera logik för återförsök

Lägg till exponentiell backoff när du stöter på hastighetsbegränsningsfel:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Steg 3. Optimera tokenanvändning

  • Minimera promptens längd: Använd koncisa, välstrukturerade prompter
  • Kontrollutdatalängd: Använd max_tokens parameter för att begränsa svarsstorleken
  • Ange max_tokens explicit för Claude Sonnet 4: Ange max_tokens alltid när du använder Claude Sonnet 4 för att undvika standardgränsen på 1 000 token
  • Batch effektivt: Gruppera relaterade begäranden när det är möjligt medan du håller dig inom gränserna

Steg 4. Överväg att välja modell

  • Mindre modeller för uppgifter med stora volymer: Använd modeller som Llama 3.1 8B för uppgifter som kräver högre dataflöde
  • Stora modeller för komplexa uppgifter: Reservera Llama 3.1 405B för uppgifter som kräver maximal kapacitet

Övervaka och felsöka

Övervaka användningsmönstren för token för att optimera prestanda:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Hantera hastighetsbegränsningsfel

När du överskrider hastighetsgränserna returnerar API:et ett 429 Too Many Requests fel:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Felsvaret innehåller:

  • limit_type: Vilken specifik gräns har överskridits (ITPM, OTPM, QPS eller QPH)
  • limit: Det konfigurerade gränsvärdet
  • current: Din aktuella användning
  • retry_after: Föreslagen väntetid i sekunder

Vanliga problem och lösningar

Problematik Lösning
Vanliga 429-fel Implementera exponentiell backoff, minska begärandefrekvensen och begära högre hastighetsgränser
ITPM-gränsen har nåtts Optimera promptens längd
OTPM-gränsen har nåtts Använd max_tokens för att begränsa svarslängden
QPH-gränsen har nåtts Fördela begäranden jämnare över tid

Etablerade dataflödesgränser

För produktionsarbetsbelastningar som kräver högre gränser erbjuder etablerade slutpunkter för dataflöde:

  • Inga TPM-begränsningar: Bearbeta kapacitet baserat på etablerade resurser
  • Högre hastighetsgränser: Upp till 200 frågor per sekund per arbetsyta
  • Förutsägbar prestanda: Dedikerade resurser säkerställer konsekvent svarstid

Begränsningar för utdata-token

I följande tabell sammanfattas utdatatokens gränser för varje modell som stöds:

Model Gräns för utdatatoken
GPT OSS 120B 25,000
GPT OSS 20B 25,000
Gemma 3 12B 8,192
Llama 4 Maverick 8,192
Llama 3.1 405B 4,096
Llama 3.1 70B 8,192
Llama 3.1 8B 8,192

Ytterligare gränser

Följande är begränsningar för etablerade dataflödesarbetsbelastningar:

  • Om du vill distribuera en Meta Llama-modell från system.ai i Unity-katalogen måste du välja tillämplig Instruktion-version . Basversioner av Meta Llama-modellerna stöds inte för distribution från Unity Catalog. Se Distribuera etablerade dataflödesslutpunkter.
  • För etablerade dataflödesarbetsbelastningar som använder Llama 4 Maverick:
    • Stöd för den här modellen för etablerade dataflödesarbetsbelastningar finns i offentlig förhandsversion.
    • Autoskalning stöds inte.
    • Måttpaneler stöds inte.
    • Trafikdelning stöds inte på en slutpunkt som hanterar Llama 4 Maverick. Du kan inte hantera flera modeller på en slutpunkt som hanterar Llama 4 Maverick.

Regional tillgänglighet och databehandling

Information om tillgänglighet för Databricks-värdbaserade basmodellregioner finns i Översikt över Foundation Model.

Information om databehandling och uppehållstillstånd finns i Databearbetning och residens.

Ytterligare resurser