Dela via


Konfigurera en utvecklingsmiljö med Azure Databricks och AutoML i Azure Machine Learning

Viktigt!

Den här artikeln innehåller information om hur du använder Azure Machine Learning SDK v1. SDK v1 är inaktuell från och med den 31 mars 2025. Stödet för det upphör den 30 juni 2026. Du kan installera och använda SDK v1 fram till det datumet. Dina befintliga arbetsflöden med SDK v1 fortsätter att fungera efter supportdatumet. De kan dock utsättas för säkerhetsrisker eller förändringar som bryter kompatibiliteten vid arkitektoniska förändringar i produkten.

Vi rekommenderar att du övergår till SDK v2 före den 30 juni 2026. Mer information om SDK v2 finns i Vad är Azure Machine Learning CLI och Python SDK v2? och SDK v2-referensen.

Lär dig hur du konfigurerar en utvecklingsmiljö i Azure Machine Learning som använder Azure Databricks och automatiserad ML.

Azure Databricks är perfekt för att köra storskaliga intensiva maskininlärningsarbetsflöden på den skalbara Apache Spark-plattformen i Azure-molnet. Den tillhandahåller en samarbetsbaserad notebook-baserad miljö med en PROCESSOR- eller GPU-baserad beräkningsresurs.

Information om andra utvecklingsmiljöer för maskininlärning finns i Konfigurera Python-utvecklingsmiljö.

Förutsättningar

Azure Machine Learning-arbetsyta. Skapa en genom att använda stegen i artikeln Skapa arbetsyteresurser .

Azure Databricks med Azure Machine Learning och AutoML

Azure Databricks integreras med Azure Machine Learning och dess AutoML-funktioner.

Du kan använda Azure Databricks:

Konfigurera Databricks-beräkning

Skapa en Databricks-beräkningsresurs. Vissa inställningar gäller endast om du installerar SDK:t för automatiserad maskininlärning på Databricks.

Det tar några minuter att skapa beräkningsresursen.

Använd de här inställningarna:

Inställning Gäller för Värde
Beräkningsnamn alltid datornamn
Databricks Runtime-version alltid 9.1 LTS
Python-version alltid 3
Arbetstyp
(avgör maximalt antal samtidiga iterationer)
Automatisk ML
bara
Minnesoptimerad virtuell dator föredras
Arbetare alltid 2 eller högre
Aktivera automatisk skalning Automatisk ML
bara
Avmarkera

Vänta tills beräkningen körs innan du fortsätter.

Lägga till Azure Machine Learning SDK i Databricks

När beräkningen körs skapar du ett bibliotek för att koppla rätt Azure Machine Learning SDK-paket till din beräkning.

Om du vill använda automatiserad ML går du vidare till Lägg till Azure Machine Learning SDK med AutoML.

  1. Högerklicka på den aktuella arbetsytemappen där du vill lagra biblioteket. Välj Skapa>bibliotek.

    Dricks

    Om du har en gammal SDK-version avmarkerar du den från beräknings installerade bibliotek och flyttar till papperskorgen. Installera den nya SDK-versionen och starta om beräkningen. Om det uppstår ett problem efter omstarten kopplar du från och kopplar tillbaka beräkningen.

  2. Välj följande alternativ (inga andra SDK-installationer stöds)

    SDK-paketextra Källa PyPi-namn
    För Databricks Ladda upp Python Egg eller PyPI azureml-sdk[databricks]

    Varning

    Inga andra SDK-tillägg kan installeras. Välj endast alternativet [databricks] .

    • Välj inte Anslut automatiskt till alla beräkningar.
    • Välj Bifoga bredvid beräkningsnamnet.
  3. Övervaka efter fel tills statusen ändras till Bifogad, vilket kan ta flera minuter. Om det här steget misslyckas:

    Prova att starta om beräkningen genom att:

    1. I den vänstra rutan väljer du Beräkning.
    2. I tabellen väljer du ditt beräkningsnamn.
    3. På fliken Bibliotek väljer du Starta om.

    En lyckad installation visar Installerad under statuskolumnen.

Lägga till Azure Machine Learning SDK med AutoML i Databricks

Om beräkningen skapades med Databricks Runtime 7.3 LTS (inte ML) kör du följande kommando i den första cellen i anteckningsboken för att installera Azure Machine Learning SDK.

%pip install --upgrade --force-reinstall -r https://aka.ms/automl_linux_requirements.txt

Inställningar för AutoML-konfiguration

När du använder Azure Databricks i AutoML-konfiguration lägger du till följande parametrar:

  • max_concurrent_iterations baseras på antalet arbetsnoder i beräkningen.
  • spark_context=sc baseras på standardkontexten för Spark.

ML-notebook-filer som fungerar med Azure Databricks

Prova:

  • Även om många exempelanteckningsböcker är tillgängliga fungerar endast dessa exempelanteckningsböcker med Azure Databricks.

  • Importera dessa exempel direkt från din arbetsyta:

    1. Högerklicka på en mapp på arbetsytan och välj Importera.
    2. Ange URL:en eller bläddra till en fil som innehåller ett externt format som stöds eller ett ZIP-arkiv med notebook-filer som exporteras från en Databricks-arbetsyta.
    3. Välj Importera.
  • Lär dig hur du skapar en pipeline med Databricks som träningsberäkning.

Felsökning

  • Databricks avbryter en automatiserad maskininlärningskörning: Starta om Azure Databricks-beräkningen när du använder automatiserade maskininlärningsfunktioner i Azure Databricks för att avbryta en körning och starta om en ny experimentkörning.

  • Databricks >10 iterationer för automatiserad maskininlärning: Om du har fler än 10 iterationer i inställningarna för automatiserad maskininlärning anger show_output du till False när du skickar körningen.

  • Databricks-widget för Azure Machine Learning SDK och automatiserad maskininlärning: Azure Machine Learning SDK-widgeten stöds inte i en Databricks-notebook-fil eftersom notebook-filerna inte kan parsa HTML-widgetar. Du kan visa widgeten i portalen med hjälp av den här Python-koden i notebook-cellen i Azure Databricks:

    displayHTML("<a href={} target='_blank'>Azure Portal: {}</a>".format(local_run.get_portal_url(), local_run.id))
    
  • Fel vid installation av paket

    Azure Machine Learning SDK-installationen misslyckas på Azure Databricks när fler paket installeras. Vissa paket, till exempel psutil, kan orsaka konflikter. Undvik installationsfel genom att installera paket genom att frysa biblioteksversionen. Det här problemet gäller Databricks och inte Azure Machine Learning SDK. Du kan också stöta på det här problemet med andra bibliotek. Exempel:

    psutil cryptography==1.5 pyopenssl==16.0.0 ipython==2.2.0
    

    Du kan också använda init-skript om du har problem med installation med Python-bibliotek. Den här metoden stöds inte officiellt. Mer information finns i Klusteromfattande init-skript.

  • Importfel: Det går inte att importera namnet Timedelta från pandas._libs.tslibs: Om du ser det här felet när du använder automatiserad maskininlärning kör du följande två rader i anteckningsboken:

    %sh rm -rf /databricks/python/lib/python3.7/site-packages/pandas-0.23.4.dist-info /databricks/python/lib/python3.7/site-packages/pandas
    %sh /databricks/python/bin/pip install pandas==0.23.4
    
  • Importfel: Ingen modul med namnet "pandas.core.indexes": Om du ser det här felet när du använder automatiserad maskininlärning:

    1. Kör det här kommandot för att installera två paket i din Azure Databricks-beräkning:

      scikit-learn==0.19.1
      pandas==0.22.0
      
    2. Koppla från och koppla sedan tillbaka beräkningen till notebook-filen.

    Om de här stegen inte löser problemet kan du prova att starta om beräkningen.

  • FailToSendFeather: Om du ser ett FailToSendFeather fel när du läser data i Azure Databricks-beräkning läser du följande lösningar:

    • Uppgradera azureml-sdk[automl] paketet till den senaste versionen.
    • Lägg till azureml-dataprep version 1.1.8 eller senare.
    • Lägg till pyarrow version 0.11 eller senare.

Nästa steg