Limieten en quota voor Foundation-model-API's

2025-10-31

Op deze pagina worden de limieten en quota beschreven voor Databricks Foundation Model-API's.

Databricks Foundation Model-API's dwingen frequentielimieten af om betrouwbare prestaties en eerlijke resourcetoewijzing voor alle gebruikers te garanderen. Deze limieten variëren op basis van de platformlaag van de werkruimte, het type basismodel en de manier waarop u uw basismodel implementeert.

Frequentielimieten voor betalen per token

Eindpunten voor betalen per token worden bepaald door frequentielimieten op basis van tokens en query's. Snelheidslimieten op basis van tokens bepalen het maximum aantal tokens dat per minuut kan worden verwerkt en afzonderlijk worden afgedwongen voor invoer- en uitvoertokens.

Invoertokens per minuut (ITPM): het maximum aantal invoertokens (van uw prompts) dat binnen een venster van 60 seconden kan worden verwerkt. Een ITPM-frequentielimiet bepaalt de doorvoer van het invoertoken van een eindpunt.
Uitvoertokens per minuut (OTPM): het maximum aantal uitvoertokens (van de antwoorden van het model) dat kan worden gegenereerd binnen een venster van 60 seconden. Een OTPM-frequentielimiet bepaalt de doorvoer van het uitvoertoken van een eindpunt.
Query's per uur: het maximum aantal query's of aanvragen dat binnen een periode van 60 minuten kan worden verwerkt. Voor productietoepassingen met duurzame gebruikspatronen raadt Databricks ingerichte doorvoereindpunten aan, die gegarandeerde capaciteit bieden.

Hoe limieten worden bijgehouden en afgedwongen

De meest beperkende frequentielimiet (ITPM, OTPM, QPH) is op elk gewenst moment van toepassing. Zelfs als u uw ITPM-limiet niet hebt bereikt, bent u nog steeds beperkt als u de QPH- of OTPM-limiet overschrijdt. Wanneer ITPM- of OTPM-limiet is bereikt, ontvangen volgende aanvragen een 429-fout die aangeeft dat er te veel aanvragen zijn ontvangen. Dit bericht blijft behouden totdat het venster frequentielimiet opnieuw wordt ingesteld.

Databricks houdt tokens per minuut (TPM) bij en dwingt deze af met behulp van de volgende functies:

Eigenschap Bijzonderheden

Tokenboekhouding en controles vóór toelating

Eigenschap	Bijzonderheden
Tokenboekhouding en controles vóór toelating	Invoertoken tellen: invoertokens worden geteld van uw werkelijke prompt op aanvraagtijd. Schatting van uitvoertoken: Als u in uw aanvraag opgeeft `max_tokens` , gebruikt Databricks deze waarde om de capaciteit van het uitvoertoken te schatten en te reserveren voordat de aanvraag wordt toegelaten voor verwerking. Validatie vooraf: Databricks controleert of uw aanvraag de ITPM- of OTPM-limieten overschrijdt voordat de verwerking begint. Als `max_tokens` dit ertoe zou leiden dat u OTPM-limieten overschrijdt, weigert Databricks de aanvraag onmiddellijk met een 429-fout. Werkelijke versus geschatte uitvoer: nadat het antwoord is gegenereerd, worden de werkelijke uitvoertokens geteld. Belangrijk is dat als het werkelijke tokengebruik kleiner is dan het gereserveerde `max_tokens`, Databricks het verschil weer toewijst aan uw frequentielimiet, waardoor deze tokens onmiddellijk beschikbaar zijn voor andere aanvragen. Er is geen max_tokens opgegeven: Als u dit niet opgeeft `max_tokens`, gebruikt Databricks een standaardreservering en wordt het werkelijke aantal tokens na het genereren afgestemd. Notitie: Claude Sonnet 4 is met name standaard ingesteld op 1.000 uitvoertokens wanneer `max_tokens` deze niet is ingesteld, en retourneert eindreden "lengte" wanneer bereikt. Dit is niet de maximale contextlengte van het model. Claude 3.7 Sonnet heeft zo'n standaardwaarde niet.
Burst-capaciteit en vloeiender maken	Burst-buffer: de snelheidsbegrenzer bevat een kleine buffer om korte pieken van verkeer boven het nominale tarief te verwerken. Schuifvenster: Tokenverbruik wordt bijgehouden met behulp van een glijdvensteralgoritme dat een soepelere snelheidsbeperking biedt dan harde grenzen per minuut. Tokenbucketalgoritme: Databricks maakt gebruik van een tokenbucket-implementatie die burstcapaciteit mogelijk maakt, terwijl de gemiddelde snelheidslimiet in de loop van de tijd wordt gehandhaafd.

Invoertoken tellen: invoertokens worden geteld van uw werkelijke prompt op aanvraagtijd.
Schatting van uitvoertoken: Als u in uw aanvraag opgeeft max_tokens , gebruikt Databricks deze waarde om de capaciteit van het uitvoertoken te schatten en te reserveren voordat de aanvraag wordt toegelaten voor verwerking.
Validatie vooraf: Databricks controleert of uw aanvraag de ITPM- of OTPM-limieten overschrijdt voordat de verwerking begint. Als max_tokens dit ertoe zou leiden dat u OTPM-limieten overschrijdt, weigert Databricks de aanvraag onmiddellijk met een 429-fout.
Werkelijke versus geschatte uitvoer: nadat het antwoord is gegenereerd, worden de werkelijke uitvoertokens geteld. Belangrijk is dat als het werkelijke tokengebruik kleiner is dan het gereserveerde max_tokens, Databricks het verschil weer toewijst aan uw frequentielimiet, waardoor deze tokens onmiddellijk beschikbaar zijn voor andere aanvragen.
Er is geen max_tokens opgegeven: Als u dit niet opgeeft max_tokens, gebruikt Databricks een standaardreservering en wordt het werkelijke aantal tokens na het genereren afgestemd. Notitie: Claude Sonnet 4 is met name standaard ingesteld op 1.000 uitvoertokens wanneer max_tokens deze niet is ingesteld, en retourneert eindreden "lengte" wanneer bereikt. Dit is niet de maximale contextlengte van het model. Claude 3.7 Sonnet heeft zo'n standaardwaarde niet.

Burst-capaciteit en vloeiender maken

Burst-buffer: de snelheidsbegrenzer bevat een kleine buffer om korte pieken van verkeer boven het nominale tarief te verwerken.
Schuifvenster: Tokenverbruik wordt bijgehouden met behulp van een glijdvensteralgoritme dat een soepelere snelheidsbeperking biedt dan harde grenzen per minuut.
Tokenbucketalgoritme: Databricks maakt gebruik van een tokenbucket-implementatie die burstcapaciteit mogelijk maakt, terwijl de gemiddelde snelheidslimiet in de loop van de tijd wordt gehandhaafd.

Hier volgt een voorbeeld van de werking van de pre-toelatingscontrole en het gedrag van de kredietback.

# Request with max_tokens specified
request = {
    "prompt": "Write a story about...",  # 10 input tokens
    "max_tokens": 500  # System reserves 500 output tokens
}

# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately

# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests

Frequentielimieten per model

De volgende tabellen bevatten een overzicht van de ITPM-, OTPM- en QPH-frequentielimieten voor api-eindpunten voor betalen per token Foundation voor werkruimten in de Enterprise-laag:

Grote taalmodellen	ITPM-limiet	OTPM-limiet	QPH-limiet	Opmerkingen
GPT OSS 120B	200,000	10,000		LLM voor algemeen gebruik
GPT OSS 20B	200,000	10,000		Kleinere GPT-variant
Gemma 3 12B	200,000	10,000	7,200	Gemma-model van Google
Llama 4 Maverick	200,000	10,000	2,400	Nieuwste Llama-release
Llama 3.3 70B Instrueer	200,000	10,000	2,400	Middelgrote Llama-model
Llama 3.1 8B Instruct	200,000	10,000	7,200	Lichtgewicht Llama-model
Llama 3.1 405B Instrueren	5.000	500	1,200	Grootste Llama-model - gereduceerde limieten vanwege grootte

Antropische Claude-modellen	ITPM-limiet	OTPM-limiet	Opmerkingen
Claude 3.7 Sonnet	50,000	5.000	Evenwichtig Claude-model
Claude Sonnet 4	50,000	5.000
Claude Opus 4.1	50,000	5.000	Meest geschikte Claude model
Claude Sonnet 4.5	50,000	5.000	Nieuwste Sonnet-versie

Modellen insluiten	ITPM-limiet	OTPM-limiet	QPH-limiet	Opmerkingen
GTE Large (en)	N/A	N/A	540,000	Model voor insluiten van tekst- genereert geen genormaliseerde insluitingen
BGE Large (En)	N/A	N/A	2,160,000	Model voor insluiten van tekst

Best practices voor TPM-frequentielimieten beheren

Stap 1. Tokengebruik bewaken

Houd het aantal invoer- en uitvoertoken afzonderlijk bij in uw toepassingen:

# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens

# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
    # Implement backoff strategy
    pass

Stap 2. Logica voor opnieuw proberen implementeren

Voeg exponentieel uitstel toe wanneer er fouten met frequentielimiet optreden:

import time
import random

def retry_with_exponential_backoff(
    func,
    initial_delay: float = 1,
    exponential_base: float = 2,
    jitter: bool = True,
    max_retries: int = 10,
):
    """Retry a function with exponential backoff."""

    num_retries = 0
    delay = initial_delay

    while num_retries < max_retries:
        try:
            return func()
        except Exception as e:
            if "rate_limit" in str(e) or "429" in str(e):
                num_retries += 1

                if jitter:
                    delay *= exponential_base * (1 + random.random())
                else:
                    delay *= exponential_base

                time.sleep(delay)
            else:
                raise e

    raise Exception(f"Maximum retries {max_retries} exceeded")

Stap 3. Tokengebruik optimaliseren

Promptlengte minimaliseren: beknopte, goed gestructureerde prompts gebruiken
Uitvoerlengte bepalen: parameter gebruiken max_tokens om de antwoordgrootte te beperken
Stel max_tokens expliciet in voor Claude Sonnet 4: Geef altijd op max_tokens wanneer u Claude Sonnet 4 gebruikt om de standaardlimiet van 1000 token te voorkomen
Batch efficiënt: groepsgerelateerde aanvragen indien mogelijk terwijl ze binnen de limieten blijven

Stap 4. Modelselectie overwegen

Kleinere modellen voor taken met een hoog volume: gebruik modellen zoals Llama 3.1 8B voor taken waarvoor een hogere doorvoer is vereist
Grote modellen voor complexe taken: Reserve Llama 3.1 405B voor taken waarvoor maximale capaciteit is vereist

Bewaking en problemen oplossen

Bewaak uw tokengebruikspatronen om de prestaties te optimaliseren:

# Example: Log token usage for monitoring
import logging

logger = logging.getLogger(__name__)

def log_token_usage(response):
    usage = response.usage
    logger.info(f"Input tokens: {usage.prompt_tokens}")
    logger.info(f"Output tokens: {usage.completion_tokens}")
    logger.info(f"Total tokens: {usage.total_tokens}")

    # Alert if approaching limits
    if usage.prompt_tokens > ITPM_LIMIT * 0.8:
        logger.warning("Approaching ITPM limit")
    if usage.completion_tokens > OTPM_LIMIT * 0.8:
        logger.warning("Approaching OTPM limit")

Frequentielimietfouten verwerken

Wanneer u de frequentielimieten overschrijdt, retourneert de API een 429 Too Many Requests fout:

{
  "error": {
    "message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
    "type": "rate_limit_exceeded",
    "code": 429,
    "limit_type": "input_tokens_per_minute",
    "limit": 200000,
    "current": 200150,
    "retry_after": 15
  }
}

De foutreactie bevat:

limit_type: Welke specifieke limiet is overschreden (ITPM, OTPM, QPS of QPH)
limit: De geconfigureerde limietwaarde
current: Uw huidige gebruik
retry_after: Voorgestelde wachttijd in seconden

Veelvoorkomende problemen en oplossingen

Probleem	Solution
Frequente 429-fouten	Exponentieel uitstel implementeren, aanvraagsnelheid verminderen en hogere frequentielimieten aanvragen
ITPM-limiet bereikt	Promptlengte optimaliseren
OTPM-limiet bereikt	Gebruiken `max_tokens` om de antwoordlengte te beperken
QPH-limiet bereikt	Aanvragen gelijkmatiger verdelen over een bepaalde periode

Ingerichte doorvoerlimieten

Voor productieworkloads waarvoor hogere limieten zijn vereist, bieden ingerichte doorvoereindpunten het volgende:

Geen TPM-beperkingen: capaciteit verwerken op basis van ingerichte resources
Hogere frequentielimieten: maximaal 200 query's per seconde per werkruimte
Voorspelbare prestaties: Toegewezen resources zorgen voor consistente latentie

Limieten voor uitvoertoken

De volgende tabel bevat een overzicht van de uitvoertokenlimieten voor elke ondersteunde modellen:

Model	Limiet voor uitvoertoken
GPT OSS 120B	25,000
GPT OSS 20B	25,000
Gemma 3 12B	8,192
Llama 4 Maverick	8,192
Llama 3.1 405B	4,096
Llama 3.1 70B	8,192
Llama 3.1 8B	8,192

Aanvullende limieten

Hier zijn de beperkingen voor geconfigureerde doorvoerworkloads:

Als u een Meta Llama-model wilt implementeren vanuit system.ai Unity Catalog, moet u de toepasselijke Instruct-versie kiezen. Basisversies van de Meta Llama-modellen worden niet ondersteund voor implementatie vanuit Unity Catalog. Zie Ingerichte doorvoereindpunten implementeren.
Voor ingerichte doorvoerworkloads die gebruikmaken van Llama 4 Maverick:
- Ondersteuning voor dit model voor ingerichte doorvoerworkloads bevindt zich in openbare preview.
- Automatisch schalen wordt niet ondersteund.
- Deelvensters voor metrische gegevens worden niet ondersteund.
- Het splitsen van verkeer wordt niet ondersteund op een eindpunt dat Llama 4 Maverick dient. U kunt niet meerdere modellen bedienen op een eindpunt dat Llama 4 Maverick bedient.

Regionale beschikbaarheid en gegevensverwerking

Zie het overzicht van Foundation Model voor de beschikbaarheid van de basismodelregio's die door Databricks worden gehost.

Zie Gegevensverwerking en verblijfsgegevens voor meer informatie over gegevensverwerking en -verblijf.

Aanvullende bronnen

Feedback

Is deze pagina nuttig?