Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Op deze pagina worden de limieten en quota beschreven voor Databricks Foundation Model-API's.
Databricks Foundation Model-API's dwingen frequentielimieten af om betrouwbare prestaties en eerlijke resourcetoewijzing voor alle gebruikers te garanderen. Deze limieten variëren op basis van de platformlaag van de werkruimte, het type basismodel en de manier waarop u uw basismodel implementeert.
Frequentielimieten voor betalen per token
Eindpunten voor betalen per token worden bepaald door frequentielimieten op basis van tokens en query's. Snelheidslimieten op basis van tokens bepalen het maximum aantal tokens dat per minuut kan worden verwerkt en afzonderlijk worden afgedwongen voor invoer- en uitvoertokens.
- Invoertokens per minuut (ITPM): het maximum aantal invoertokens (van uw prompts) dat binnen een venster van 60 seconden kan worden verwerkt. Een ITPM-frequentielimiet bepaalt de doorvoer van het invoertoken van een eindpunt.
- Uitvoertokens per minuut (OTPM): het maximum aantal uitvoertokens (van de antwoorden van het model) dat kan worden gegenereerd binnen een venster van 60 seconden. Een OTPM-frequentielimiet bepaalt de doorvoer van het uitvoertoken van een eindpunt.
- Query's per uur: het maximum aantal query's of aanvragen dat binnen een periode van 60 minuten kan worden verwerkt. Voor productietoepassingen met duurzame gebruikspatronen raadt Databricks ingerichte doorvoereindpunten aan, die gegarandeerde capaciteit bieden.
Hoe limieten worden bijgehouden en afgedwongen
De meest beperkende frequentielimiet (ITPM, OTPM, QPH) is op elk gewenst moment van toepassing. Zelfs als u uw ITPM-limiet niet hebt bereikt, bent u nog steeds beperkt als u de QPH- of OTPM-limiet overschrijdt. Wanneer ITPM- of OTPM-limiet is bereikt, ontvangen volgende aanvragen een 429-fout die aangeeft dat er te veel aanvragen zijn ontvangen. Dit bericht blijft behouden totdat het venster frequentielimiet opnieuw wordt ingesteld.
Databricks houdt tokens per minuut (TPM) bij en dwingt deze af met behulp van de volgende functies:
| Eigenschap | Bijzonderheden |
|---|---|
| Tokenboekhouding en controles vóór toelating |
|
| Burst-capaciteit en vloeiender maken |
|
Hier volgt een voorbeeld van de werking van de pre-toelatingscontrole en het gedrag van de kredietback.
# Request with max_tokens specified
request = {
"prompt": "Write a story about...", # 10 input tokens
"max_tokens": 500 # System reserves 500 output tokens
}
# Pre-admission check:
# - Verifies 10 tokens against ITPM limit
# - Reserves 500 tokens against OTPM limit
# - If either would exceed limits, returns 429 immediately
# If admitted, actual response uses only 350 tokens
# The systen credits back 150 tokens (500 - 350) to your OTPM allowance
# These 150 tokens are immediately available for other requests
Frequentielimieten per model
De volgende tabellen bevatten een overzicht van de ITPM-, OTPM- en QPH-frequentielimieten voor api-eindpunten voor betalen per token Foundation voor werkruimten in de Enterprise-laag:
| Grote taalmodellen | ITPM-limiet | OTPM-limiet | QPH-limiet | Opmerkingen |
|---|---|---|---|---|
| GPT OSS 120B | 200,000 | 10,000 | LLM voor algemeen gebruik | |
| GPT OSS 20B | 200,000 | 10,000 | Kleinere GPT-variant | |
| Gemma 3 12B | 200,000 | 10,000 | 7,200 | Gemma-model van Google |
| Llama 4 Maverick | 200,000 | 10,000 | 2,400 | Nieuwste Llama-release |
| Llama 3.3 70B Instrueer | 200,000 | 10,000 | 2,400 | Middelgrote Llama-model |
| Llama 3.1 8B Instruct | 200,000 | 10,000 | 7,200 | Lichtgewicht Llama-model |
| Llama 3.1 405B Instrueren | 5.000 | 500 | 1,200 |
|
| Antropische Claude-modellen | ITPM-limiet | OTPM-limiet | Opmerkingen |
|---|---|---|---|
| Claude 3.7 Sonnet | 50,000 | 5.000 | Evenwichtig Claude-model |
| Claude Sonnet 4 | 50,000 | 5.000 | |
| Claude Opus 4.1 | 50,000 | 5.000 | Meest geschikte Claude model |
| Claude Sonnet 4.5 | 50,000 | 5.000 | Nieuwste Sonnet-versie |
| Modellen insluiten | ITPM-limiet | OTPM-limiet | QPH-limiet | Opmerkingen |
|---|---|---|---|---|
| GTE Large (en) | N/A | N/A | 540,000 | Model voor insluiten van tekst- genereert geen genormaliseerde insluitingen |
| BGE Large (En) | N/A | N/A | 2,160,000 | Model voor insluiten van tekst |
Best practices voor TPM-frequentielimieten beheren
Stap 1. Tokengebruik bewaken
Houd het aantal invoer- en uitvoertoken afzonderlijk bij in uw toepassingen:
# Example: Track token usage
response = model.generate(prompt)
input_tokens = response.usage.prompt_tokens
output_tokens = response.usage.completion_tokens
total_tokens = response.usage.total_tokens
# Check against limits
if input_tokens > ITPM_LIMIT or output_tokens > OTPM_LIMIT:
# Implement backoff strategy
pass
Stap 2. Logica voor opnieuw proberen implementeren
Voeg exponentieel uitstel toe wanneer er fouten met frequentielimiet optreden:
import time
import random
def retry_with_exponential_backoff(
func,
initial_delay: float = 1,
exponential_base: float = 2,
jitter: bool = True,
max_retries: int = 10,
):
"""Retry a function with exponential backoff."""
num_retries = 0
delay = initial_delay
while num_retries < max_retries:
try:
return func()
except Exception as e:
if "rate_limit" in str(e) or "429" in str(e):
num_retries += 1
if jitter:
delay *= exponential_base * (1 + random.random())
else:
delay *= exponential_base
time.sleep(delay)
else:
raise e
raise Exception(f"Maximum retries {max_retries} exceeded")
Stap 3. Tokengebruik optimaliseren
- Promptlengte minimaliseren: beknopte, goed gestructureerde prompts gebruiken
-
Uitvoerlengte bepalen: parameter gebruiken
max_tokensom de antwoordgrootte te beperken -
Stel max_tokens expliciet in voor Claude Sonnet 4: Geef altijd op
max_tokenswanneer u Claude Sonnet 4 gebruikt om de standaardlimiet van 1000 token te voorkomen - Batch efficiënt: groepsgerelateerde aanvragen indien mogelijk terwijl ze binnen de limieten blijven
Stap 4. Modelselectie overwegen
- Kleinere modellen voor taken met een hoog volume: gebruik modellen zoals Llama 3.1 8B voor taken waarvoor een hogere doorvoer is vereist
- Grote modellen voor complexe taken: Reserve Llama 3.1 405B voor taken waarvoor maximale capaciteit is vereist
Bewaking en problemen oplossen
Bewaak uw tokengebruikspatronen om de prestaties te optimaliseren:
# Example: Log token usage for monitoring
import logging
logger = logging.getLogger(__name__)
def log_token_usage(response):
usage = response.usage
logger.info(f"Input tokens: {usage.prompt_tokens}")
logger.info(f"Output tokens: {usage.completion_tokens}")
logger.info(f"Total tokens: {usage.total_tokens}")
# Alert if approaching limits
if usage.prompt_tokens > ITPM_LIMIT * 0.8:
logger.warning("Approaching ITPM limit")
if usage.completion_tokens > OTPM_LIMIT * 0.8:
logger.warning("Approaching OTPM limit")
Frequentielimietfouten verwerken
Wanneer u de frequentielimieten overschrijdt, retourneert de API een 429 Too Many Requests fout:
{
"error": {
"message": "Rate limit exceeded: ITPM limit of 200,000 tokens reached",
"type": "rate_limit_exceeded",
"code": 429,
"limit_type": "input_tokens_per_minute",
"limit": 200000,
"current": 200150,
"retry_after": 15
}
}
De foutreactie bevat:
-
limit_type: Welke specifieke limiet is overschreden (ITPM, OTPM, QPS of QPH) -
limit: De geconfigureerde limietwaarde -
current: Uw huidige gebruik -
retry_after: Voorgestelde wachttijd in seconden
Veelvoorkomende problemen en oplossingen
| Probleem | Solution |
|---|---|
| Frequente 429-fouten | Exponentieel uitstel implementeren, aanvraagsnelheid verminderen en hogere frequentielimieten aanvragen |
| ITPM-limiet bereikt | Promptlengte optimaliseren |
| OTPM-limiet bereikt | Gebruiken max_tokens om de antwoordlengte te beperken |
| QPH-limiet bereikt | Aanvragen gelijkmatiger verdelen over een bepaalde periode |
Ingerichte doorvoerlimieten
Voor productieworkloads waarvoor hogere limieten zijn vereist, bieden ingerichte doorvoereindpunten het volgende:
- Geen TPM-beperkingen: capaciteit verwerken op basis van ingerichte resources
- Hogere frequentielimieten: maximaal 200 query's per seconde per werkruimte
- Voorspelbare prestaties: Toegewezen resources zorgen voor consistente latentie
Limieten voor uitvoertoken
De volgende tabel bevat een overzicht van de uitvoertokenlimieten voor elke ondersteunde modellen:
| Model | Limiet voor uitvoertoken |
|---|---|
| GPT OSS 120B | 25,000 |
| GPT OSS 20B | 25,000 |
| Gemma 3 12B | 8,192 |
| Llama 4 Maverick | 8,192 |
| Llama 3.1 405B | 4,096 |
| Llama 3.1 70B | 8,192 |
| Llama 3.1 8B | 8,192 |
Aanvullende limieten
Hier zijn de beperkingen voor geconfigureerde doorvoerworkloads:
- Als u een Meta Llama-model wilt implementeren vanuit
system.aiUnity Catalog, moet u de toepasselijke Instruct-versie kiezen. Basisversies van de Meta Llama-modellen worden niet ondersteund voor implementatie vanuit Unity Catalog. Zie Ingerichte doorvoereindpunten implementeren. - Voor ingerichte doorvoerworkloads die gebruikmaken van Llama 4 Maverick:
- Ondersteuning voor dit model voor ingerichte doorvoerworkloads bevindt zich in openbare preview.
- Automatisch schalen wordt niet ondersteund.
- Deelvensters voor metrische gegevens worden niet ondersteund.
- Het splitsen van verkeer wordt niet ondersteund op een eindpunt dat Llama 4 Maverick dient. U kunt niet meerdere modellen bedienen op een eindpunt dat Llama 4 Maverick bedient.
Regionale beschikbaarheid en gegevensverwerking
Zie het overzicht van Foundation Model voor de beschikbaarheid van de basismodelregio's die door Databricks worden gehost.
Zie Gegevensverwerking en verblijfsgegevens voor meer informatie over gegevensverwerking en -verblijf.