Dela via


Distribuera en agent för generativa AI-program

Distribuera DIN AI-agent på Mosaic AI Model Serving med hjälp av deploy() funktionen från Agent Framework Python API. Distribution skapar en serverslutpunkt med inbyggda verktyg för skalbarhet, övervakning och samarbete.

Din distribuerade agent integreras automatiskt med MLflow 3-utvärderings- och övervakningsfunktioner , inklusive realtidsspårning, granskningsappen för feedback från intressenter och övervakning.

Requirements

MLflow 3

  • Registrera din agent i Unity Catalog.
  • Installera MLflow 3.1.3 eller senare för att distribuera agenter med hjälp av API:et deploy() från databricks.agents.
  • Distribution av agenter utanför en Databricks-notebook-fil kräver databricks-agents SDK version 1.1.0 eller senare.

Installera förutsättningarna:

# Install prerequisites
%pip install mlflow>=3.1.3 databricks-agents>=1.1.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

MLflow 2.x

Important

Databricks rekommenderar att du använder MLflow 3 för att distribuera agenter eftersom vissa MLflow 2-loggningsfunktioner kommer att bli inaktuella. Se detaljerade distributionsåtgärder.

  • Registrera din agent i Unity Catalog.
  • Installera MLflow 2.13.1 eller senare för att distribuera agenter med hjälp av API:et deploy() från databricks.agents.
  • Distribuera agenter utanför en Databricks notebook kräver databricks-agents SDK version 0.12.0 eller senare.

Installera förutsättningarna:

# Install prerequisites
%pip install mlflow>=2.13.1 databricks-agents>=0.12.0

# Restart Python to make sure the new packages are picked up
dbutils.library.restartPython()

Distribuera agenter med hjälp av deploy()

Distribuera din agent till en modell som betjänar slutpunkten:

from databricks import agents

deployment = agents.deploy(uc_model_name, uc_model_info.version)

# Retrieve the query endpoint URL for making API requests
deployment.query_endpoint

När du anropar deploy()konfigurerar Databricks automatiskt produktionsinfrastrukturen och integrerar din agent med MLflow gen AI-funktioner genom att göra följande:

Varning

Om du distribuerar en agent från en notebook-fil som lagras i en Databricks Git-mapp fungerar inte MLflow 3-realtidsspårning som standard.

Om du vill aktivera spårning i realtid, ställer du in experimentet som ett icke-Git-associerat experiment med mlflow.set_experiment() innan du kör agents.deploy().

Funktionen deploy() utför följande åtgärder som standard:

  • Skapar en modell som betjänar slutpunkten som värd för din agent med automatisk skalning och belastningsutjämning
  • Etablerar säker autentisering för din agent för åtkomst till underliggande resurser
  • Möjliggör realtidsövervakning via MLflow-experimentspårning och automatiserad kvalitetsbedömning av produktionstrafik
  • Konfigurerar samarbete mellan intressenter med hjälp av granskningsappen för feedbackinsamling

Mer information finns i Detaljerade distributionsåtgärder.

Anpassa distribution

Skicka ytterligare argument till deploy() för att anpassa distributionen. Du kan till exempel aktivera skalning till noll för inaktiva slutpunkter genom att skicka scale_to_zero_enabled=True. Detta minskar kostnaderna men ökar tiden för att hantera inledande frågor.

Fler parametrar finns i Databricks Agents Python API.

Hämta och ta bort agentdistributioner

Hämta eller hantera befintliga agentdistributioner. Se Python-API:et för Databricks-agenter.

from databricks.agents import list_deployments, get_deployments, delete_deployment

# Print all current deployments
deployments = list_deployments()
print(deployments)

# Get the deployment for a specific agent model name and version
agent_model_name = ""    # Set to your Unity Catalog model name
agent_model_version = 1  # Set to your agent model version
deployment = get_deployments(model_name=agent_model_name, model_version=agent_model_version)

# List all deployments
all_deployments = list_deployments()

# Delete an agent deployment
delete_deployment(model_name=agent_model_name, model_version=agent_model_version)

Autentisering för beroende resurser

Agenter behöver ofta autentisera till andra resurser för att slutföra uppgifter när de distribueras. En agent kan till exempel behöva komma åt ett Vector Search-index för att köra frågor mot ostrukturerade data.

Information om autentiseringsmetoder, inklusive när du ska använda dem och hur du konfigurerar dem, finns i Autentisering för AI-agenter.

Detaljerade distributionsåtgärder

I följande tabell visas detaljerade distributionsåtgärder som är resultatet av ett deploy() anrop. Distributioner kan ta upp till 15 minuter att slutföra.

MLflow 3

deploy() åtgärd Description
Skapa modell som betjänar slutpunkt Skapar en skalbar REST API-slutpunkt som hanterar din agent till användarinriktade program med automatisk belastningsutjämning.
Etablera säker autentisering Ger automatiskt kortlivade autentiseringsuppgifter som gör att din agent kan komma åt Databricks-hanterade resurser (Vector Search-index , Unity Catalog-funktioner osv.) med minsta nödvändiga behörigheter.
Databricks verifierar att slutpunktsägaren har rätt behörigheter innan autentiseringsuppgifter utfärdas, vilket förhindrar obehörig åtkomst.
För icke-Databricks-resurser skickar du miljövariabler med hemligheter till deploy(). Se Konfigurera åtkomst till resurser från modellserverslutpunkter.
Aktivera granskningsapp Tillhandahåller ett webbgränssnitt där intressenter kan interagera med din agent och ge feedback. Se Samla in feedback från domänexperten.
Aktivera spårning i realtid Loggar alla agentinteraktioner till ett MLflow-experiment i realtid, vilket ger omedelbar synlighet för övervakning och felsökning.
  • Spår från din slutpunkt skrivs till det för närvarande aktiva MLflow-experimentet (inställt med mlflow.set_experiment())
  • Alla agenter i slutpunkten delar samma experiment för spårningslagring
  • Spårningar skriver även till slutsatsdragningstabeller för långsiktig lagring
Aktivera produktionsövervakning (beta) Konfigurerar automatiserad kvalitetsbedömning som kör bedömningsverktyg på produktionsdata. Se produktionsövervakning.
Aktivera slutsatsdragningstabeller Skapar tabeller som loggar indata och svar för granskning och analys.
Logga REST API-begäranden och gå igenom app-feedback Loggar API-begäranden och feedback till en slutsatstabell.
Varning:Feedbackmodellen är inaktuell och tas bort i en framtida version. Uppgradera till MLflow 3 och använd API:et log_feedback i stället. Se Samla in feedback från användare.
  • Skapa feedbackmodell för att acceptera och logga feedback från granskningsappen.
  • Den här modellen tillhandahålls i samma CPU-modellens serveringsslutpunkt som används av din distribuerade agent.

MLflow 2

deploy() åtgärd Description
Skapa modell som betjänar slutpunkt Skapar en skalbar REST API-slutpunkt som hanterar din agent till användarinriktade program med automatisk belastningsutjämning.
Etablera säker autentisering Ger automatiskt kortlivade autentiseringsuppgifter som gör att din agent kan komma åt Databricks-hanterade resurser (Vector Search-index , Unity Catalog-funktioner osv.) med minsta nödvändiga behörigheter.
Databricks verifierar att slutpunktsägaren har rätt behörigheter innan autentiseringsuppgifter utfärdas, vilket förhindrar obehörig åtkomst.
För icke-Databricks-resurser skickar du miljövariabler med hemligheter till deploy(). Se Konfigurera åtkomst till resurser från modellserverslutpunkter.
Aktivera granskningsapp Tillhandahåller ett webbgränssnitt där intressenter kan interagera med din agent och ge feedback. Se Samla in feedback från domänexperten.
Aktivera slutsatsdragningstabeller Skapar tabeller som loggar indata och svar för granskning och analys.
Varning: Begärandeloggar och utvärderingsloggar är inaktuella och tas bort i en framtida version. Se utfasning av begärandeloggar och utvärderingsloggar för migreringsvägledning.
Logga REST API-begäranden och granska app-feedback (inaktuell) Loggar API-begäranden och feedback till en slutsatstabell.
Varning:Feedbackmodellen är inaktuell och tas bort i en framtida version. Uppgradera till MLflow 3 och använd API:et log_feedback i stället. Se Samla in feedback från användare.
  • Skapa feedbackmodell för att acceptera och logga feedback från granskningsappen.
  • Den här modellen tillhandahålls i samma CPU-modellens serveringsslutpunkt som används av din distribuerade agent.

Nästa steg