Dela via


Tillämpa AI på data med hjälp av Azure Databricks AI Functions

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Den här artikeln beskriver Azure Databricks AI Functions och de funktioner som stöds.

Vad är AI Functions?

AI Functions är inbyggda funktioner som du kan använda för att tillämpa AI, till exempel textöversättning eller attitydanalys, på dina data som lagras på Databricks. De kan köras var som helst på Databricks, inklusive Databricks SQL, notebooks, Lakeflow Declarative Pipelines och arbetsflöden.

AI Functions är enkla att använda, snabba och skalbara. Analytiker kan använda dem för att tillämpa dataintelligens på sina egna data, medan dataforskare och maskininlärningstekniker kan använda dem för att skapa batchpipelines i produktionsklass.

AI Functions tillhandahåller uppgiftsspecifika och allmänna funktioner.

  • Uppgiftsspecifika funktioner ger ai-funktioner på hög nivå för uppgifter som att sammanfatta text och översättning. Dessa uppgiftsspecifika funktioner drivs av de senaste generativa AI-modellerna som är värd för och hanterade av Databricks. Se Uppgiftsspecifika AI-funktioner för funktioner och modeller som stöds.
  • ai_query är en generell funktion som gör att du kan använda alla typer av AI-modeller på dina data. Se -funktionen för generell användning: ai_query.

uppgiftsspecifika AI-funktioner

Uppgiftsspecifika funktioner är begränsade till en viss uppgift så att du kan automatisera rutinåtgärder, till exempel enkla sammanfattningar och snabböversättningar. Databricks rekommenderar dessa funktioner för att komma igång eftersom de anropar en toppmodern generativ AI-modeller som underhålls av Databricks och inte kräver någon anpassning.

Ett exempel finns i Analysera kundrecensioner med hjälp av AI Functions.

I följande tabell visas funktioner som stöds och den uppgift som de utför.

Funktion Beskrivning
ai_analysera_känslor Utför attitydanalys på indatatext med hjälp av en toppmodern generativ AI-modell.
ai_classify Klassificera indatatext enligt etiketter som du anger med hjälp av en toppmodern generativ AI-modell.
ai_extract Extrahera entiteter som anges av etiketter från text med hjälp av en toppmodern generativ AI-modell.
ai_korrigera_grammatik Korrigera grammatiska fel i text med hjälp av en toppmodern generativ AI-modell.
ai_gen Svara på uppmaningen från användaren med hjälp av en toppmodern generativ AI-modell.
ai_mask Maskera angivna entiteter i text med hjälp av en toppmodern generativ AI-modell.
ai_parse_document Extrahera strukturerat innehåll från ostrukturerade dokument med hjälp av en toppmodern generativ AI-modell.
ai_similarity Jämför två strängar och beräkna den semantiska likhetspoängen med hjälp av en toppmodern generativ AI-modell.
ai_summarize Generera en sammanfattning av text med hjälp av SQL och den senaste generativa AI-modellen.
ai_translate Översätta text till ett angivet målspråk med hjälp av en toppmodern generativ AI-modell.
ai_forecast Prognostisera data upp till en angiven horisont. Den här tabellvärdesfunktionen är utformad för att extrapolera tidsseriedata i framtiden.
vector_search Sök efter och fråga ett Mosaic AI Vector Search index med hjälp av en toppmodern generativ AI-modell.

Allmän funktionsändamål: ai_query

Med funktionen ai_query() kan du använda alla AI-modeller för data för både generativa AI- och klassiska ML-uppgifter, inklusive att extrahera information, sammanfatta innehåll, identifiera bedrägerier och prognostisera intäkter. Syntaxinformation och parametrar finns i ai_query funktion.

I följande tabell sammanfattas de modelltyper som stöds, de associerade modellerna och modellen som betjänar konfigurationskraven för slutpunkter för var och en.

Typ Beskrivning Modeller som stöds Krav
Fördistribuerade modeller Dessa grundmodeller hanteras av Databricks och erbjuder förkonfigurerade slutpunkter som du kan köra frågor mot med hjälp av ai_query. Se Grundmodeller som stöds på Mosaic AI Model Serving för vilka modeller stöds för varje modellserveringsfunktion och deras regiontillgänglighet. Dessa modeller stöds och optimeras för att komma igång med batchinferens och produktionsarbetsflöden:
  • databricks-claude-sonnet-4
  • databricks-gpt-oss-20b
  • databricks-gpt-oss-120b
  • databricks-gemma-3-12b
  • databricks-llama-4-maverick
  • databricks-meta-llama-3-3-70b-instruct
  • databricks-meta-llama-3-1-8b-instruct
  • databricks-gte-large-en

Andra Databricks-värdbaserade modeller är tillgängliga för användning med AI-funktioner, men rekommenderas inte för produktionsarbetsflöden för batchinlärning i stor skala. Dessa andra modeller är tillgängliga för realtidsinferens med hjälp av Foundation Model API:er med betalning per token.
Databricks Runtime 15.4 LTS eller senare krävs för att använda den här funktionen. Kräver ingen slutpunktsetablering eller konfiguration. Din användning av dessa modeller omfattas av tillämpliga modellutvecklarlicenser och villkor och tillgänglighet för AI Functions-regionen.
Ta med din egen modell Du kan ta med dina egna modeller och köra frågor mot dem med hjälp av AI Functions. AI Functions erbjuder flexibilitet så att du kan köra frågor mot modeller för scenarier med slutsatsdragning i realtid eller batchinferens.

Använda ai_query med grundmodeller

I följande exempel visas hur du använder ai_query med hjälp av en grundmodell som hanteras av Databricks.


SELECT text, ai_query(
    "databricks-meta-llama-3-3-70b-instruct",
    "Summarize the given text comprehensively, covering key points and main ideas concisely while retaining relevant details and examples. Ensure clarity and accuracy without unnecessary repetition or omissions: " || text
) AS summary
FROM uc_catalog.schema.table;

Exempel på notebook-fil: Batch-slutsatsdragning och strukturerad dataextrahering

Följande notebook-exempel visar hur du utför grundläggande strukturerad dataextrahering med hjälp av ai_query för att omvandla råa, ostrukturerade data till organiserad, användbar information via automatiserade extraheringstekniker. Den här notebook-filen visar också hur du använder Mosaic AI Agent Evaluation för att utvärdera noggrannheten med hjälp av grundsanningsdata.

Batch-slutsatsdragning och strukturerad dataextraheringsanteckningsbok

Hämta anteckningsbok

Använda ai_query med traditionella ML-modeller

ai_query stöder traditionella ML-modeller, inklusive helt anpassade modeller. Dessa modeller måste distribueras på modellserverslutpunkter. Syntaxinformation och parametrar finns i ai_query funktion funktion.

SELECT text, ai_query(
  endpoint => "spam-classification",
  request => named_struct(
    "timestamp", timestamp,
    "sender", from_number,
    "text", text),
  returnType => "BOOLEAN") AS is_spam
FROM catalog.schema.inbox_messages
LIMIT 10

Exempel på notebook-fil: Batch-slutsatsdragning med BERT för namngiven entitetsigenkänning

Följande notebook visar ett exempel på batchinferens för en traditionell ML-modell med BERT.

Batch-slutsatsdragning med BERT för notebook-fil för namngiven entitetsigenkänning

Hämta anteckningsbok

Använda AI Functions i befintliga Python-arbetsflöden

AI Functions kan enkelt integreras i befintliga Python-arbetsflöden.

Följande skriver utdata från ai_query till en utdatatabell:


df_out = df.selectExpr(
  "ai_query('databricks-meta-llama-3-3-70b-instruct', CONCAT('Please provide a summary of the following text: ', text), modelParameters => named_struct('max_tokens', 100, 'temperature', 0.7)) as summary"
)
df_out.write.mode("overwrite").saveAsTable('output_table')

Följande skriver denna sammanfattade text i en tabell:

df_summary = df.selectExpr("ai_summarize(text) as summary")
df_summary.write.mode('overwrite').saveAsTable('summarized_table')

Använda AI Functions i produktionsarbetsflöden

För storskalig batchinferens kan du integrera uppgiftsspecifika AI-funktioner eller den generella funktionen ai_query i dina produktionsarbetsflöden, såsom Lakeflow Declarative Pipelines, Databricks-arbetsflöden och Structured Streaming. Detta möjliggör bearbetning i produktionsklass i stor skala. Se Distribuera batchinferenspipelines för exempel och detaljer.

Övervaka AI-funktioners förlopp

För att förstå hur många slutsatsdragningar som har slutförts eller misslyckats och felsöka prestanda kan du övervaka förloppet för AI Functions med hjälp av frågeprofilfunktionen.

I Databricks Runtime 16.1 ML och senare, från SQL-redigerarens frågefönster i din arbetsyta:

  1. Välj länken Körning--- längst ned i fönstret Råresultat. Prestandafönstret visas till höger.
  2. Klicka på Visa frågeprofil för att se prestandainformation.
  3. Klicka på AI Query för att se mått för den specifika frågan, inklusive antalet slutförda och misslyckade slutsatsdragningar och den totala tid som begäran tog att slutföra.

Övervaka AI-funktioners utveckling

Visa kostnader för batch-inferensjobb

I de följande exemplen visar vi hur du filtrerar batchinferenstjänstgöringar baserat på jobb, beräkningskraft, SQL-datalager och Lakeflow deklarativa pipelines.

Se Övervaka kostnader för modellserving för allmänna exempel på hur du visar kostnader för dina batchinferencearbetsbelastningar som använder AI Functions.

Jobb

Följande fråga visar vilka jobb som används för batchinferens med hjälp av systemtabellen system.workflow.jobs . Se Övervaka jobbkostnader och prestanda med systemtabeller.


SELECT *
FROM system.billing.usage u
  JOIN system.workflow.jobs x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.job_id = x.job_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Compute

Följande visar vilka kluster som används för batchinferens med hjälp av systemtabellen system.compute.clusters .

SELECT *
FROM system.billing.usage u
  JOIN system.compute.clusters x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.cluster_id = x.cluster_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

Deklarativa pipelines för Lakeflow

Följande visar vilka Lakeflow Declarative Pipelines som för närvarande används för batchinferens med systemtabellen system.lakeflow.pipelines.

SELECT *
FROM system.billing.usage u
  JOIN system.lakeflow.pipelines x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.dlt_pipeline_id = x.pipeline_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";

SQL-lager

Följande visar vilka SQL-lager som används för batchinferens med hjälp av systemtabellen system.compute.warehouses .

SELECT *
FROM system.billing.usage u
  JOIN system.compute.warehouses x
    ON u.workspace_id = x.workspace_id
    AND u.usage_metadata.warehouse_id = x.warehouse_id
  WHERE u.usage_metadata.workspace_id = <workspace_id>
    AND u.billing_origin_product = "MODEL_SERVING"
    AND u.product_features.model_serving.offering_type = "BATCH_INFERENCE";