Gränser och kvoter för API:er för grundmodell

2025-10-31

Den här sidan beskriver gränserna och kvoterna för Api:er för Databricks Foundation-modell.

Databricks Foundation-modell-API:er tillämpar hastighetsgränser för att säkerställa tillförlitlig prestanda och rättvis resursallokering för alla användare. Dessa gränser varierar beroende på arbetsytans plattformsnivå, grundmodelltyp och hur du distribuerar din grundmodell.

Gränser för slutpunktsfrekvens för betala per token

Slutpunkter för betala per token styrs av tokenbaserade och frågebaserade hastighetsgränser. Tokenbaserade hastighetsgränser styr det maximala antalet token som kan bearbetas per minut och tillämpas separat för indata- och utdatatoken.

Indatatoken per minut (ITPM): Det maximala antalet indatatoken (från dina frågor) som kan bearbetas inom ett 60-sekundersfönster. En ITPM-hastighetsgräns styr dataflödet för indatatoken för en slutpunkt.
Utdatatoken per minut (OTPM) : Det maximala antalet utdatatoken (från modellens svar) som kan genereras inom ett 60-sekundersfönster. En OTPM-hastighetsgräns styr utdatatokens dataflöde för en slutpunkt.
Frågor per timme: Det maximala antalet frågor eller begäranden som kan bearbetas inom ett fönster på 60 minuter. För produktionsprogram med varaktiga användningsmönster rekommenderar Databricks etablerade dataflödesslutpunkter som ger garanterad kapacitet.

Hur gränser spåras och framtvingas

Den mest restriktiva hastighetsgränsen (ITPM, OTPM, QPH) gäller vid en viss tidpunkt. Även om du till exempel inte har nått itpm-gränsen är du fortfarande hastighetsbegränsad om du överskrider gränsen för QPH eller OTPM. När gränsen för ITPM eller OTPM nås får efterföljande begäranden ett 429-fel som anger att för många begäranden har tagits emot. Det här meddelandet kvarstår tills hastighetsbegränsningsfönstret återställs.

Databricks spårar och tillämpar hastighetsbegränsningar för token per minut (TPM) med hjälp av följande funktioner:

Feature Detaljer

Kontroll av tokenredovisning och förhandsinträde

Feature	Detaljer
Kontroll av tokenredovisning och förhandsinträde	Indatatokenräkning: Indatatoken räknas från den faktiska prompten vid begärandetillfället. Uppskattning av utdatatoken: Om du anger `max_tokens` i din begäran använder Databricks det här värdet för att uppskatta och reservera utdatatokens kapacitet innan begäran tas emot för bearbetning. Validering före antagning: Databricks kontrollerar om din begäran överskrider ITPM- eller OTPM-gränserna innan bearbetningen påbörjas. Om `max_tokens` det skulle leda till att du överskrider OTPM-gränserna avvisar Databricks begäran omedelbart med ett 429-fel. Faktiska eller uppskattade utdata: När svaret har genererats räknas de faktiska utdatatoken. Viktigt är att om den faktiska tokenanvändningen är mindre än den reserverade `max_tokens`, krediterar Databricks skillnaden tillbaka till din hastighetsgräns, vilket gör dessa token omedelbart tillgängliga för andra begäranden. Inga max_tokens anges: Om du inte anger `max_tokens`använder Databricks en standardreservation och det faktiska antalet token avstäms efter generering. Not: Claude Sonnet 4 är som standard 1 000 utdatatoken när `max_tokens` det inte har angetts, vilket returnerar avslutsorsaken "längd" när den nås. Det här är inte modellens maximala kontextlängd. Claude 3.7 Sonnet har ingen sådan standard.
Burst-kapacitet och utjämning	Burst-buffert: Hastighetsbegränsningen innehåller en liten buffert för att hantera korta trafiktoppar över den nominella hastigheten. Skjutfönster: Tokenförbrukning spåras med hjälp av en algoritm för skjutfönster som ger smidigare hastighetsbegränsning än hårda gränser per minut. Token bucket-algoritm: Databricks använder en implementering av token bucket som möjliggör viss burst-kapacitet samtidigt som den genomsnittliga hastighetsgränsen bibehålls över tid.

Indatatokenräkning: Indatatoken räknas från den faktiska prompten vid begärandetillfället.
Uppskattning av utdatatoken: Om du anger max_tokens i din begäran använder Databricks det här värdet för att uppskatta och reservera utdatatokens kapacitet innan begäran tas emot för bearbetning.
Validering före antagning: Databricks kontrollerar om din begäran överskrider ITPM- eller OTPM-gränserna innan bearbetningen påbörjas. Om max_tokens det skulle leda till att du överskrider OTPM-gränserna avvisar Databricks begäran omedelbart med ett 429-fel.
Faktiska eller uppskattade utdata: När svaret har genererats räknas de faktiska utdatatoken. Viktigt är att om den faktiska tokenanvändningen är mindre än den reserverade max_tokens, krediterar Databricks skillnaden tillbaka till din hastighetsgräns, vilket gör dessa token omedelbart tillgängliga för andra begäranden.
Inga max_tokens anges: Om du inte anger max_tokensanvänder Databricks en standardreservation och det faktiska antalet token avstäms efter generering. Not: Claude Sonnet 4 är som standard 1 000 utdatatoken när max_tokens det inte har angetts, vilket returnerar avslutsorsaken "längd" när den nås. Det här är inte modellens maximala kontextlängd. Claude 3.7 Sonnet har ingen sådan standard.

Burst-kapacitet och utjämning

Burst-buffert: Hastighetsbegränsningen innehåller en liten buffert för att hantera korta trafiktoppar över den nominella hastigheten.
Skjutfönster: Tokenförbrukning spåras med hjälp av en algoritm för skjutfönster som ger smidigare hastighetsbegränsning än hårda gränser per minut.
Token bucket-algoritm: Databricks använder en implementering av token bucket som möjliggör viss burst-kapacitet samtidigt som den genomsnittliga hastighetsgränsen bibehålls över tid.

Följande är ett exempel på hur förintagningskontroll och kredituppföljningsbeteende fungerar.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Hastighetsbegränsningar per modell

I följande tabeller sammanfattas ITPM-, OTPM- och QPH-hastighetsgränserna för API-slutpunkter för foundation-modell för betala per token för arbetsytor på Enterprise-nivå:

Stora språkmodeller	ITPM-gräns	GRÄNS FÖR OTPM	QPH-gräns	Noteringar
GPT OSS 120B	200,000	10 000		Allmän LLM
GPT OSS 20B	200,000	10 000		Mindre GPT-variant
Gemma 3 12B	200,000	10 000	7,200	Googles Gemma-modell
Llama 4 Maverick	200,000	10 000	2,400	Senaste Llama-versionen
Llama 3.3 70B Instruera	200,000	10 000	2,400	Mellanstor Llama-modell
Llama 3.1 8B Instruera	200,000	10 000	7,200	Lightweight Llama-modell
Llama 3.1 405B Instruera	5,000	500	1,200	Största Llama-modell – reducerade gränser på grund av storlek

Antropiska Claude-modeller	ITPM-gräns	GRÄNS FÖR OTPM	Noteringar
Claude 3.7 Sonnet	50,000	5,000	Balanserad Claude-modell
Claude Sonnet 4	50,000	5,000
Claude Opus 4.1	50,000	5,000	Den mest kompatibla Claude-modellen
Claude Sonnet 4.5	50,000	5,000	Senaste Sonnet-versionen

Inbäddningsmodeller	ITPM-gräns	GRÄNS FÖR OTPM	QPH-gräns	Noteringar
GTE Large (En)	N/A	N/A	540,000	Textinbäddningsmodell – genererar inte normaliserade inbäddningar
Stor BGE (En)	N/A	N/A	2,160,000	Textinbäddningsmodell

Metodtips för att hantera TPM-hastighetsbegränsningar

Steg 1. Övervaka tokenanvändning

Spåra både antal in- och utdatatoken separat i dina program:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Steg 2. Implementera logik för återförsök

Lägg till exponentiell backoff när du stöter på hastighetsbegränsningsfel:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Steg 3. Optimera tokenanvändning

Minimera promptens längd: Använd koncisa, välstrukturerade prompter
Kontrollutdatalängd: Använd max_tokens parameter för att begränsa svarsstorleken
Ange max_tokens explicit för Claude Sonnet 4: Ange max_tokens alltid när du använder Claude Sonnet 4 för att undvika standardgränsen på 1 000 token
Batch effektivt: Gruppera relaterade begäranden när det är möjligt medan du håller dig inom gränserna

Steg 4. Överväg att välja modell

Mindre modeller för uppgifter med stora volymer: Använd modeller som Llama 3.1 8B för uppgifter som kräver högre dataflöde
Stora modeller för komplexa uppgifter: Reservera Llama 3.1 405B för uppgifter som kräver maximal kapacitet

Övervaka och felsöka

Övervaka användningsmönstren för token för att optimera prestanda:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Hantera hastighetsbegränsningsfel

När du överskrider hastighetsgränserna returnerar API:et ett 429 Too Many Requests fel:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

Felsvaret innehåller:

limit_type: Vilken specifik gräns har överskridits (ITPM, OTPM, QPS eller QPH)
limit: Det konfigurerade gränsvärdet
current: Din aktuella användning
retry_after: Föreslagen väntetid i sekunder

Vanliga problem och lösningar

Problematik	Lösning
Vanliga 429-fel	Implementera exponentiell backoff, minska begärandefrekvensen och begära högre hastighetsgränser
ITPM-gränsen har nåtts	Optimera promptens längd
OTPM-gränsen har nåtts	Använd `max_tokens` för att begränsa svarslängden
QPH-gränsen har nåtts	Fördela begäranden jämnare över tid

Etablerade dataflödesgränser

För produktionsarbetsbelastningar som kräver högre gränser erbjuder etablerade slutpunkter för dataflöde:

Inga TPM-begränsningar: Bearbeta kapacitet baserat på etablerade resurser
Högre hastighetsgränser: Upp till 200 frågor per sekund per arbetsyta
Förutsägbar prestanda: Dedikerade resurser säkerställer konsekvent svarstid

Begränsningar för utdata-token

I följande tabell sammanfattas utdatatokens gränser för varje modell som stöds:

Model	Gräns för utdatatoken
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Gemma 3 12B	8,192
Llama 4 Maverick	8,192
Llama 3.1 405B	4,096
Llama 3.1 70B	8,192
Llama 3.1 8B	8,192

Ytterligare gränser

Följande är begränsningar för etablerade dataflödesarbetsbelastningar:

Om du vill distribuera en Meta Llama-modell från system.ai i Unity-katalogen måste du välja tillämplig Instruktion-version . Basversioner av Meta Llama-modellerna stöds inte för distribution från Unity Catalog. Se Distribuera etablerade dataflödesslutpunkter.
För etablerade dataflödesarbetsbelastningar som använder Llama 4 Maverick:
- Stöd för den här modellen för etablerade dataflödesarbetsbelastningar finns i offentlig förhandsversion.
- Autoskalning stöds inte.
- Måttpaneler stöds inte.
- Trafikdelning stöds inte på en slutpunkt som hanterar Llama 4 Maverick. Du kan inte hantera flera modeller på en slutpunkt som hanterar Llama 4 Maverick.

Regional tillgänglighet och databehandling

Information om tillgänglighet för Databricks-värdbaserade basmodellregioner finns i Översikt över Foundation Model.

Information om databehandling och uppehållstillstånd finns i Databearbetning och residens.

Ytterligare resurser

Feedback

Var den här sidan till hjälp?

Dela via

Gränser och kvoter för API:er för grundmodell

Gränser för slutpunktsfrekvens för betala per token

Hur gränser spåras och framtvingas

Hastighetsbegränsningar per modell

Metodtips för att hantera TPM-hastighetsbegränsningar

Steg 1. Övervaka tokenanvändning

Steg 2. Implementera logik för återförsök

Steg 3. Optimera tokenanvändning

Steg 4. Överväg att välja modell

Övervaka och felsöka

Hantera hastighetsbegränsningsfel

Vanliga problem och lösningar

Etablerade dataflödesgränser

Begränsningar för utdata-token

Ytterligare gränser

Regional tillgänglighet och databehandling

Ytterligare resurser

Feedback

Ytterligare resurser