AI toepassen op gegevens met behulp van Azure Databricks AI Functions

2025-10-21

Belangrijk

Deze functie bevindt zich in openbare preview.

In dit artikel worden Azure Databricks AI Functions en de ondersteunde functies beschreven.

Wat zijn AI-functies?

AI-functies zijn ingebouwde functies die u kunt gebruiken om AI toe te passen, zoals tekstomzetting of sentimentanalyse, op uw gegevens die zijn opgeslagen op Databricks. Ze kunnen overal worden uitgevoerd op Databricks, waaronder Databricks SQL, notebooks, Lakeflow-declaratieve pijplijnen en werkstromen.

AI-functies zijn eenvoudig te gebruiken, snel en schaalbaar. Analisten kunnen ze gebruiken om gegevensinformatie toe te passen op hun eigen gegevens, terwijl gegevenswetenschappers en machine learning-engineers ze kunnen gebruiken om batchpijplijnen op productieniveau te bouwen.

AI-functies bieden taakspecifieke en algemene functies.

Taakspecifieke functies bieden AI-mogelijkheden op hoog niveau voor taken zoals het samenvatten van tekst en vertaling. Deze taakspecifieke functies worden mogelijk gemaakt door geavanceerde AI-modellen die worden gehost en beheerd door Databricks. Zie taakspecifieke AI-functies voor ondersteunde functies en modellen.
ai_query is een functie voor algemeen gebruik waarmee u elk type AI-model kunt toepassen op uw gegevens. Zie de functie Algemeen gebruik: ai_query.

taakspecifieke AI-functies

Taakspecifieke functies zijn bedoeld voor een bepaalde taak, zodat u routineacties kunt automatiseren, zoals eenvoudige samenvattingen en snelle vertalingen. Databricks raadt deze functies aan om aan de slag te gaan, omdat ze een geavanceerde AI-modellen aanroepen die door Databricks worden onderhouden en geen aanpassingen vereisen.

Zie Klantbeoordelingen analyseren met BEHULP van AI Functions voor een voorbeeld.

De volgende tabel bevat ondersteunde functies en de taak die ze uitvoeren.

Functie	Beschrijving
AI_analyse_sentiment	Sentimentanalyse uitvoeren op invoertekst met behulp van een geavanceerd generatief AI-model.
ai_classify	Classificeer invoertekst op basis van labels die u opgeeft met behulp van een geavanceerde AI-model.
ai_extract	Extraheren van entiteiten die zijn opgegeven door labels uit tekst met behulp van een geavanceerde AI-model.
ai_corrigeer_grammatica	Corrigeer grammaticale fouten in tekst met behulp van een geavanceerde AI-model.
ai_gen	Beantwoord de door de gebruiker verstrekte prompt met behulp van een geavanceerd AI-model.
ai_mask	Met behulp van een geavanceerd AI-model maskeer opgegeven entiteiten in tekst.
ai_parse_document	Extraheren van gestructureerde inhoud uit ongestructureerde documenten met behulp van een geavanceerde AI-model.
ai_similarity	Vergelijk twee tekenreeksen en bereken de semantische overeenkomstenscore met behulp van een geavanceerde AI-model.
ai_summarize	Genereer een samenvatting van tekst met behulp van SQL en het geavanceerde AI-model.
ai_translate	Tekst vertalen naar een opgegeven doeltaal met behulp van een geavanceerde AI-model.
ai_forecast	Prognosegegevens tot een opgegeven horizon. Deze tabelwaardefunctie is ontworpen om tijdreeksgegevens in de toekomst te extrapoleren.
vector_search	Zoek naar een Mozaïek AI Vector Search-index en voer query's uit met behulp van een geavanceerd AI-model.

Algemene gebruiksfunctie: `ai_query`

Met de functie ai_query() kunt u elk AI-model toepassen op gegevens voor zowel generatieve AI- als klassieke ML-taken, waaronder het extraheren van informatie, het samenvatten van inhoud, het identificeren van fraude en het voorspellen van omzet. Zie de functie voor syntaxisdetails en parametersai_query.

De volgende tabel bevat een overzicht van de ondersteunde modeltypen, de bijbehorende modellen en de vereisten voor de configuratie van het eindpunt voor elk model.

Typ	Beschrijving	Ondersteunde modellen	Vereisten
Vooraf geïmplementeerde modellen	Deze basismodellen worden gehost door Databricks en bieden vooraf geconfigureerde eindpunten die u kunt opvragen met behulp van `ai_query`. Zie Ondersteunde basismodellen op Mosaic AI Model Serving waarvoor modellen worden ondersteund voor elke functie Model serving en hun beschikbaarheid in de regio.	Deze modellen worden ondersteund en geoptimaliseerd om aan de slag te gaan met batchdeductie- en productiewerkstromen: `databricks-claude-sonnet-4` `databricks-gpt-oss-20b` `databricks-gpt-oss-120b` `databricks-gemma-3-12b` `databricks-llama-4-maverick` `databricks-meta-llama-3-3-70b-instruct` `databricks-meta-llama-3-1-8b-instruct` `databricks-gte-large-en` Andere door Databricks gehoste modellen zijn beschikbaar voor gebruik met AI Functions, maar worden niet aanbevolen voor productiewerkstromen voor batch-inferentie op schaal. Deze andere modellen worden beschikbaar gesteld voor realtime inferentie met behulp van Foundation Model API's op basis van betaling per token.	Databricks Runtime 15.4 LTS of hoger is vereist voor het gebruik van deze functionaliteit. Er is geen eindpuntinrichting of -configuratie vereist. Uw gebruik van deze modellen is onderhevig aan de licenties en voorwaarden voor ontwikkelaars van toepasselijke modellen en beschikbaarheid in de AI Functions-regio.
Neem je eigen model mee	U kunt uw eigen modellen meenemen en er query's op uitvoeren met BEHULP van AI Functions. AI Functions biedt flexibiliteit, zodat u query's kunt uitvoeren op modellen voor realtime inference of de batchinferencescenario's.	Nauwkeurig afgestemde basismodellen die zijn geïmplementeerd op Mosaic AI Model Serving Foundation-modellen die buiten Databricks worden gehost. Deze modellen worden beschikbaar gesteld met behulp van externe modellen. Zie Access Foundation-modellen die buiten Databricks worden gehost voor een lijst met ondersteunde externe modellen. Aangepaste traditionele Machine Learning- en Deep Learning-modellen	Voor fijn-afgestemde basismodellen moet u een geconfigureerde doorvoereindpunt maken in Model Serving. Zie Gebruik ai_query met fundamentele modellen voor notebookvoorbeelden. Voor externe modellen moet u een extern model voor eindpunten maken. Voor aangepaste traditionele ML- en DL-modellen moet u een aangepast model voor eindpunten maken. Zie Gebruik `ai_query` met traditionele ML-modellen voor een notebookvoorbeeld.

Ai_query gebruiken met basismodellen

In het volgende voorbeeld ziet u hoe u ai_query gebruikt met behulp van een basismodel dat wordt gehost door Databricks.

Zie ai_query de functie voor syntaxisdetails en parameters.
Zie Multimodale invoerinvoer voor voorbeelden van multimodale invoerquery's.
Zie voorbeelden voor geavanceerde scenario's voor hulp bij het configureren van parameters voor geavanceerde use cases, zoals:
- Fouten verwerken met behulp van failOnError
- Gestructureerde uitvoer in Azure Databricks voor het opgeven van gestructureerde uitvoer voor uw queryantwoorden.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Voorbeeldnotebook: Batch-inferentie en gestructureerde gegevensextractie

In het volgende voorbeeldnotitieblok ziet u hoe u eenvoudige gestructureerde gegevensextractie uitvoert met behulp van ai_query het transformeren van onbewerkte, ongestructureerde gegevens naar georganiseerde, bruikbare informatie via geautomatiseerde extractietechnieken. In dit notebook ziet u ook hoe u Mosaic AI Agent Evaluatie kunt gebruiken om de nauwkeurigheid te evalueren met behulp van grondwaarheidsgegevens.

Notebook voor batchinference en gestructureerde gegevensextractie

Notebook krijgen

Gebruiken `ai_query` met traditionele ML-modellen

ai_query ondersteunt traditionele ML-modellen, waaronder volledig aangepaste modellen. Deze modellen moeten worden geïmplementeerd op eindpunten van Model Serving. Zie de ai_query functie voor syntaxisdetails en parameters.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

Voorbeeldnotitieblok: Batch-inferentie met behulp van BERT voor named entity recognition

In het volgende notebook ziet u een voorbeeld van een traditioneel ML-model batch inferentie door middel van BERT.

Batch-inferentie met behulp van BERT voor herkenning van genaamde entiteiten in notebook

Notebook krijgen

AI-functies gebruiken in bestaande Python-werkstromen

AI Functions kan eenvoudig worden geïntegreerd in bestaande Python-werkstromen.

De uitvoer van de ai_query wordt als volgt naar een uitvoertabel geschreven:


df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Hieronder wordt de samengevatte tekst in een tabel geschreven:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

AI-functies gebruiken in productiewerkstromen

Voor grootschalige batchdeductie kunt u taakspecifieke AI-functies of de functie ai_query voor algemeen gebruik integreren in uw productiewerkstromen, zoals Lakeflow-declaratieve pijplijnen, Databricks-werkstromen en Structured Streaming. Dit maakt verwerking op schaal mogelijk op productieniveau. Zie Batch-inferentie-pijplijnen implementeren voor voorbeelden en details.

Voortgang van AI-functies bewaken

Als u wilt weten hoeveel deducties zijn voltooid of mislukt en prestatieproblemen hebben opgelost, kunt u de voortgang van AI-functies bewaken met behulp van de functie queryprofiel.

In Databricks Runtime 16.1 ML en hoger, vanuit het queryvenster van de SQL-editor in uw werkruimte:

Selecteer de koppeling, Wordt uitgevoerd--- onderaan het venster Onbewerkte resultaten . Het prestatievenster wordt rechts weergegeven.
Klik op Queryprofiel weergeven om prestatiedetails weer te geven.
Klik op AI-query om metrische gegevens voor die specifieke query weer te geven, inclusief het aantal voltooide en mislukte deducties en de totale tijd die de aanvraag heeft geduurd.

Voortgang van AI-functie bewaken

Kosten voor batch-inferentieworkloads weergeven

In de volgende voorbeelden ziet u hoe u batch-inferenceworkloads filtert op basis van jobs, compute, SQL-warehouses en Lakeflow Declarative Pipelines.

Zie Monitor kosten van modelbediening voor algemene voorbeelden van hoe u kosten kunt bekijken voor uw batch-inference workloads die gebruikmaken van AI Functions.

Jobs

De volgende query laat zien welke taken worden gebruikt voor batch-inferentie met behulp van de system.workflow.jobs systeemtabel. Zie Taakkosten en prestaties bewaken met systeemtabellen.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Hieronder ziet u welke clusters worden gebruikt voor batchdeductie met behulp van de system.compute.clusters systeemtabel.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Declaratieve pijplijnen van Lakeflow

Hieronder ziet u welke Lakeflow-declaratieve-pijplijnen worden gebruikt voor batchinferentie met behulp van de system.lakeflow.pipelines systeemtabel.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL Warehouse

Hieronder ziet u welke SQL-warehouses worden gebruikt voor batchdeductie met behulp van de system.compute.warehouses systeemtabel.

SELECT *
FROM system.billing.usage u
  JOIN system.compute.warehouses x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.warehouse_id = x.warehouse_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Feedback

Is deze pagina nuttig?