Distribuera och köra MLflow-modeller i Spark-jobb

2025-05-03

I den här artikeln får du lära dig hur du distribuerar och kör din MLflow-modell i Spark-jobb för att utföra slutsatsdragning över stora mängder data eller som en del av dataomvandlingsjobb.

Om det här exemplet

Det här exemplet visar hur du kan distribuera en MLflow-modell som registrerats i Azure Machine Learning till Spark-jobb som körs i hanterade Spark-kluster (förhandsversion), Azure Databricks eller Azure Synapse Analytics för att utföra slutsatsdragning över stora mängder data.

Modellen är baserad på datauppsättningen för UCI-hjärtsjukdomar. Databasen innehåller 76 attribut, men vi använder en delmängd av 14 av dem. Modellen försöker förutsäga förekomsten av hjärtsjukdomar hos en patient. Det är heltalsvärde från 0 (ingen närvaro) till 1 (närvaro). Den har tränats med en XGBBoost klassificerare och all nödvändig förbearbetning har paketerats som en scikit-learn pipeline, vilket gör den här modellen till en pipeline från slutpunkt till slutpunkt som går från rådata till förutsägelser.

Informationen i den här artikeln baseras på kodexempel som finns i lagringsplatsen azureml-examples . Om du vill köra kommandona lokalt utan att behöva kopiera/klistra in filer klonar du lagringsplatsen och ändrar sedan katalogerna till sdk/using-mlflow/deploy.

git clone https://github.com/Azure/azureml-examples --depth 1
cd sdk/python/using-mlflow/deploy

Förutsättningar

Innan du följer stegen i den här artikeln kontrollerar du att du har följande förutsättningar:

Installera och konfigurera Azure CLI och ml tillägget till Azure CLI. Mer information finns i Installera och konfigurera CLI (v2).

Installera MLflow SDK-paketet mlflow och Azure Machine Learning-plugin-programmet azureml-mlflow för MLflow:
```
pip install mlflow azureml-mlflow
```
Tips/Råd

Du kan använda mlflow-skinny paketet, som är ett enkelt MLflow-paket utan SQL-lagring, server, användargränssnitt eller datavetenskapsberoenden. Vi rekommenderar det här paketet för användare som främst behöver MLflow-spårnings- och loggningsfunktionerna, men inte hela sviten med funktioner, inklusive distributioner.
Skapa en Azure Machine Learning-arbetsyta. Information om hur du skapar en arbetsyta finns i Skapa resurser som du behöver för att komma igång. Granska de åtkomstbehörigheter som du behöver för att utföra MLflow-åtgärder på din arbetsyta.
Om du vill utföra fjärrspårning eller spåra experiment som körs utanför Azure Machine Learning konfigurerar du MLflow så att det pekar på spårnings-URI:n för din Azure Machine Learning-arbetsyta. Mer information om hur du ansluter MLflow till din arbetsyta finns i Konfigurera MLflow för Azure Machine Learning.

Du måste ha en MLflow-modell registrerad på din arbetsyta. Det här exemplet registrerar en modell som tränats för datauppsättningen Diabetes, i synnerhet.

Anslut till din arbetsyta

Först ska vi ansluta till Azure Machine Learning-arbetsytan där din modell är registrerad.

Azure Machine Learning-beräkning
Fjärrberäkning

Spårning har redan konfigurerats åt dig. Dina standardautentiseringsuppgifter används också när du arbetar med MLflow.

Konfigurera spårnings-URI

Hämta spårnings-URI:n för din arbetsyta:
- Azure CLI
- Python SDK
- Studio
- manuellt
GÄLLER FÖR: Azure CLI ml-tillägget v2 (aktuellt)
1. Logga in och konfigurera din arbetsyta:
```
az account set --subscription <subscription-ID>
az configure --defaults workspace=<workspace-name> group=<resource-group-name> location=<location> 
```
2. Hämta spårnings-URI:n med hjälp az ml workspace av kommandot :
```
az ml workspace show --query mlflow_tracking_uri
```
GÄLLER FÖR: Python SDK azure-ai-ml v2 (aktuell)

Du kan använda Azure Machine Learning SDK v2 för Python för att hämta Azure Machine Learning MLflow-spårnings-URI:n. Kontrollera att biblioteket är installerat i beräkningsinstansen azure-ai-ml . Använd sedan följande kod för att hämta den unika MLFLow-spårnings-URI:n som är associerad med din arbetsyta.
1. Använd en instans av MLClient för att logga in på din arbetsyta. Det finns två alternativ för att logga in:
  - Det enklaste sättet är att använda arbetsytans konfigurationsfil:
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential ml_client = MLClient.from_config(credential=DefaultAzureCredential())
    
    Tips/Råd
    
    Du kan ladda ned arbetsytans konfigurationsfil genom att utföra följande steg:
    
    Gå till Azure Machine Learning-studio.
    
    I det övre högra hörnet väljer du namnet på din arbetsyta.
    
    I fönstret Katalog + prenumeration + arbetsyta väljer du Ladda ned konfigurationsfil.
    
    Spara filen config.json i katalogen som du arbetar i.
  - Du kan också använda ditt prenumerations-ID, resursgruppsnamn och arbetsytenamn för att logga in:
    
    from azure.ai.ml import MLClient from azure.identity import DefaultAzureCredential # Enter information about your Azure Machine Learning workspace. subscription_id = "<subscription-ID>" resource_group = "<resource-group-name>" workspace_name = "<workspace-name>" ml_client = MLClient(credential=DefaultAzureCredential(), subscription_id=subscription_id, resource_group_name=resource_group, workspace_name=workspace_name)
    
    Viktigt!
    
    Metoden DefaultAzureCredential försöker hämta autentiseringsuppgifter från den tillgängliga kontexten. Men du kanske vill ange autentiseringsuppgifter på ett annat sätt, till exempel genom att använda webbläsaren på ett interaktivt sätt. I dessa fall kan du använda InteractiveBrowserCredential eller någon annan metod som är tillgänglig i azure.identity paketet.
2. Hämta Azure Machine Learning-spårnings-URI:n:
```
mlflow_tracking_uri = ml_client.workspaces.get(ml_client.workspace_name).mlflow_tracking_uri
```
Använd Azure Machine Learning-studio för att hämta spårnings-URI:n:
1. Öppna Azure Machine Learning-studio och använd dina autentiseringsuppgifter för att logga in.
2. I det övre högra hörnet väljer du namnet på din arbetsyta.
3. I fönstret Katalog + prenumeration + arbetsyta väljer du Visa alla egenskaper i Azure-portalen. Resurssidan för arbetsytan öppnas i Azure Portal.
4. Under Essentials kopierar du URI-värdet för MLflow-spårning.
Du kan konstruera Azure Machine Learning-spårnings-URI:n manuellt. Du behöver ditt prenumerations-ID, den region som arbetsytan distribueras i, resursgruppens namn och namnet på arbetsytan. För att hämta URI:n anger du dessa värden i följande kod:

Varning

Om du använder en privat länkaktiverad arbetsyta använder MLflow-slutpunkten också en privat länk för att kommunicera med Azure Machine Learning. Därför använder spårnings-URI:n ett format som skiljer sig från det i den här artikeln. I det här fallet måste du använda Azure Machine Learning SDK för Python eller Azure Machine Learning CLI v2 för att hämta spårnings-URI:n.
```
region = "<region>"
subscription_id = "<subscription-ID>"
resource_group = "<resource-group-name>"
workspace_name = "<workspace-name>"

mlflow_tracking_uri = f"azureml://{region}.api.azureml.ms/mlflow/v1.0/subscriptions/{subscription_id}/resourceGroups/{resource_group}/providers/Microsoft.MachineLearningServices/workspaces/{workspace_name}"
```
Konfigurera spårnings-URI:n:
- MLflow SDK
- Miljövariabler
set_tracking_uri() Använd metoden för att ange URI:n för MLflow-spårning till spårnings-URI:n för din arbetsyta.
```
import mlflow

mlflow.set_tracking_uri(mlflow_tracking_uri)
```
I beräkningsinstansen använder du följande kod för att ange MLFLOW_TRACKING_URI MLflow-miljövariabeln till spårnings-URI:n för din arbetsyta. Den här tilldelningen gör att alla interaktioner med MLflow i beräkningsinstansen pekar på Azure Machine Learning som standard. Mer information finns i Loggningsfunktioner.
```
MLFLOW_TRACKING_URI=$(az ml workspace show --query mlflow_tracking_uri | sed 's/"//g') 
```
Tips/Råd

Vissa scenarier handlar om att arbeta i en delad miljö som ett Azure Databricks-kluster eller ett Azure Synapse Analytics-kluster. I dessa fall är det användbart att ange MLFLOW_TRACKING_URI miljövariabeln på klusternivå i stället för för för varje session. Om du ställer in variabeln på klusternivå konfigureras automatiskt MLflow-spårnings-URI:n så att den pekar på Azure Machine Learning för alla sessioner i klustret.

Konfigurera autentisering

När spårningen har konfigurerats måste du också konfigurera hur autentiseringen ska ske på den associerade arbetsytan. Som standard utför Azure Machine Learning-plugin-programmet för MLflow interaktiv autentisering genom att öppna standardwebbläsaren för att fråga efter autentiseringsuppgifter. Se Konfigurera MLflow för Azure Machine Learning: Konfigurera autentisering till ytterligare sätt att konfigurera autentisering för MLflow på Azure Machine Learning-arbetsytor.

För interaktiva jobb där en användare är ansluten till sessionen kan du förlita dig på interaktiv autentisering. Ingen ytterligare åtgärd krävs.

Varning

Interaktiv webbläsarautentisering blockerar kodkörning när den frågar efter autentiseringsuppgifter. Den här metoden är inte lämplig för autentisering i obevakade miljöer som träningsjobb. Vi rekommenderar att du konfigurerar ett annat autentiseringsläge i dessa miljöer.

För scenarier som kräver obevakad körning måste du konfigurera ett huvudnamn för tjänsten för att kommunicera med Azure Machine Learning. Information om hur du skapar ett huvudnamn för tjänsten finns i Konfigurera ett huvudnamn för tjänsten.

Använd klientorganisations-ID, klient-ID och klienthemlighet för tjänstens huvudnamn i följande kod:

MLflow SDK
Miljövariabler

import os

os.environ["AZURE_TENANT_ID"] = "<Azure-tenant-ID>"
os.environ["AZURE_CLIENT_ID"] = "<Azure-client-ID>"
os.environ["AZURE_CLIENT_SECRET"] = "<Azure-client-secret>"

export AZURE_TENANT_ID="<Azure-tenant-ID>"
export AZURE_CLIENT_ID="<Azure-client-ID>"
export AZURE_CLIENT_SECRET="<Azure-client-secret>"

Tips/Råd

När du arbetar i delade miljöer rekommenderar vi att du konfigurerar dessa miljövariabler på beräkningsnivå. Vi rekommenderar att du hanterar dem som hemligheter i en instans av Azure Key Vault.

I en Azure Databricks-klusterkonfiguration kan du till exempel använda hemligheter i miljövariabler på följande sätt: AZURE_CLIENT_SECRET={{secrets/<scope-name>/<secret-name>}}. Mer information om hur du implementerar den här metoden i Azure Databricks finns i Referera till en hemlighet i en miljövariabel eller i dokumentationen för din plattform.

Registrera modellen

Vi behöver en modell registrerad i Azure Machine Learning-registret för att utföra slutsatsdragning. I det här fallet har vi redan en lokal kopia av modellen på lagringsplatsen, så vi behöver bara publicera modellen till registret på arbetsytan. Du kan hoppa över det här steget om den modell som du försöker distribuera redan är registrerad.

model_name = 'heart-classifier'
model_local_path = "model"

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"file://{model_local_path}"
)
version = registered_model.version

Om din modell loggades under en körning kan du också registrera den direkt.

Tips/Råd

Om du vill registrera modellen måste du veta var modellen har lagrats. Om du använder autolog funktionen för MLflow beror sökvägen på typen och ramverket för den modell som används. Vi rekommenderar att du kontrollerar jobbutdata för att identifiera namnet på den här mappen. Du kan leta efter mappen som innehåller en fil med namnet MLModel. Om du loggar dina modeller manuellt med hjälp av log_modelär sökvägen det argument som du skickar till en sådan metod. Om du till exempel loggar modellen med mlflow.sklearn.log_model(my_model, "classifier"), är sökvägen där modellen lagras classifier.

model_name = 'heart-classifier'

registered_model = mlflow_client.create_model_version(
    name=model_name, source=f"runs://{RUN_ID}/{MODEL_PATH}"
)
version = registered_model.version

Anmärkning

Sökvägen MODEL_PATH är platsen där modellen är lagrad under körningen.

Hämta indata för poäng

Vi behöver lite indata för att köra våra jobb på. I det här exemplet laddar vi ned exempeldata från Internet och placerar dem i en delad lagring som används av Spark-klustret.

import urllib

urllib.request.urlretrieve("https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv", "/tmp/data")

Flytta data till ett monterat lagringskonto som är tillgängligt för hela klustret.

dbutils.fs.mv("file:/tmp/data", "dbfs:/")

Viktigt!

Den tidigare koden använder dbutils, vilket är ett verktyg som är tillgängligt i Azure Databricks-klustret. Använd lämpligt verktyg beroende på vilken plattform du använder.

Indata placeras sedan i följande mapp:

input_data_path = "dbfs:/data"

Kör modellen i Spark-kluster

I följande avsnitt beskrivs hur du kör MLflow-modeller som registrerats i Azure Machine Learning i Spark-jobb.

Kontrollera att följande bibliotek är installerade i klustret:

- mlflow<3,>=2.1
- cloudpickle==2.2.0
- scikit-learn==1.2.0
- xgboost==1.7.2

Vi använder en notebook-fil för att visa hur du skapar en bedömningsrutin med en MLflow-modell registrerad i Azure Machine Learning. Skapa en notebook-fil och använd PySpark som standardspråk.

Importera de nödvändiga namnrymderna:

import mlflow
import pyspark.sql.functions as f

Konfigurera modell-URI:n. Följande URI ger en modell med namnet heart-classifier i den senaste versionen.
```
model_uri = "models:/heart-classifier/latest"
```
Läs in modellen som en UDF-funktion. En användardefinierad funktion (UDF) är en funktion som definieras av en användare, vilket gör att anpassad logik kan återanvändas i användarmiljön.
```
predict_function = mlflow.pyfunc.spark_udf(spark, model_uri, result_type='double') 
```
Tips/Råd

Använd argumentet result_type för att styra vilken typ som returneras av predict() funktionen.
Läs de data som du vill poängsätta:
```
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data_path).drop("target")
```
I vårt fall är indata i CSV formatet och placeras i mappen dbfs:/data/. Vi släpper också kolumnen target eftersom den här datamängden innehåller målvariabeln som ska förutsägas. I produktionsscenarier har dina data inte den här kolumnen.
Kör funktionen predict_function och placera förutsägelserna på en ny kolumn. I det här fallet placerar vi förutsägelserna i kolumnen predictions.
```
df.withColumn("predictions", score_function(*df.columns))
```
Tips/Råd

predict_function tar emot de kolumner som krävs som argument. I vårt fall förväntas alla kolumner i dataramen av modellen och används därför df.columns . Om din modell kräver en delmängd av kolumnerna kan du introducera dem manuellt. Om modellen har en signatur måste typer vara kompatibla mellan indata och förväntade typer.

Du kan skriva tillbaka dina förutsägelser till lagringen:

scored_data_path = "dbfs:/scored-data"
scored_data.to_csv(scored_data_path)

Köra modellen i ett fristående Spark-jobb i Azure Machine Learning

Azure Machine Learning har stöd för att skapa ett fristående Spark-jobb och skapa en återanvändbar Spark-komponent som kan användas i Azure Machine Learning-pipelines. I det här exemplet distribuerar vi ett bedömningsjobb som körs i ett fristående Spark-jobb i Azure Machine Learning och kör en MLflow-modell för att utföra slutsatsdragning.

Anmärkning

Mer information om Spark-jobb i Azure Machine Learning finns i Skicka Spark-jobb i Azure Machine Learning (förhandsversion).

Ett Spark-jobb kräver ett Python-skript som tar argument. Skapa ett bedömningsskript:

score.py
```
import argparse

parser = argparse.ArgumentParser()
parser.add_argument("--model")
parser.add_argument("--input_data")
parser.add_argument("--scored_data")

args = parser.parse_args()
print(args.model)
print(args.input_data)

# Load the model as an UDF function
predict_function = mlflow.pyfunc.spark_udf(spark, args.model, env_manager="conda")

# Read the data you want to score
df = spark.read.option("header", "true").option("inferSchema", "true").csv(input_data).drop("target")

# Run the function `predict_function` and place the predictions on a new column
scored_data = df.withColumn("predictions", score_function(*df.columns))

# Save the predictions
scored_data.to_csv(args.scored_data)
```
Skriptet ovan tar tre argument --model, --input_data och --scored_data. De första två är indata och representerar den modell vi vill köra och dess indata, den sista är ett utdataelement och det är utdatamappen där förutsägelser kommer att placeras.

Tips/Råd

Installation av Python-paket: Det tidigare bedömningsskriptet läser in MLflow-modellen till en UDF-funktion, men det anger parametern env_manager="conda". När den här parametern har angetts återställer MLflow de nödvändiga paketen som anges i modelldefinitionen i en isolerad miljö där endast UDF-funktionen körs. Mer information finns i mlflow.pyfunc.spark_udf dokumentationen.

Skapa en jobbdefinition:

mlflow-score-spark-job.yml

$schema: http://azureml/sdk-2-0/SparkJob.json
type: spark

code: ./src
entry:
  file: score.py

conf:
  spark.driver.cores: 1
  spark.driver.memory: 2g
  spark.executor.cores: 2
  spark.executor.memory: 2g
  spark.executor.instances: 2

inputs:
  model:
    type: mlflow_model
    path: azureml:heart-classifier@latest
  input_data:
    type: uri_file
    path: https://azuremlexampledata.blob.core.windows.net/data/heart-disease-uci/data/heart.csv
    mode: direct

outputs:
  scored_data:
    type: uri_folder

args: >-
  --model ${{inputs.model}}
  --input_data ${{inputs.input_data}}
  --scored_data ${{outputs.scored_data}}

identity:
  type: user_identity

resources:
  instance_type: standard_e4s_v3
  runtime_version: "3.2"

Tips/Råd

Om du vill använda en bifogad Synapse Spark-pool definierar du compute egenskapen i yaml-exempelspecifikationsfilen som visas ovan i stället för resources egenskapen.

YAML-filerna som visas ovan kan användas i az ml job create kommandot med parametern --file för att skapa ett fristående Spark-jobb enligt följande:
```
az ml job create -f mlflow-score-spark-job.yml
```

Nästa steg

Feedback

Var den här sidan till hjälp?

Dela via

Distribuera och köra MLflow-modeller i Spark-jobb

Om det här exemplet

Förutsättningar

Anslut till din arbetsyta

Registrera modellen

Hämta indata för poäng

Kör modellen i Spark-kluster

Köra modellen i ett fristående Spark-jobb i Azure Machine Learning

Nästa steg

Feedback

Ytterligare resurser