Dela via


Ansluta till Azure Databricks från Python eller R

I den här artikeln får du lära dig hur du använder Databricks ODBC-drivrutinen för att ansluta Azure Databricks till Python- eller R-språk. När du har upprättat anslutningen kan du komma åt data i Azure Databricks från Python- eller R-klienterna. Du kan också använda klienterna för att analysera data ytterligare.

Förutsättningar

  • Du måste ha en Azure Databricks-arbetsyta, ett Spark-kluster och exempeldata som är associerade med klustret. Om du inte redan har dessa förutsättningar, slutför den snabba starten vid Kom igång.

  • Ladda ned Databricks ODBC-drivrutinen från sidan för nedladdning av Databricks-drivrutinen. Installera 64-bitarsversionen av drivrutinen.

  • Konfigurera en personlig åtkomsttoken i Databricks. Anvisningar finns i tokenhantering.

Konfigurera ett DSN

Ett namn på datakällan (DSN) innehåller information om en specifik datakälla. En ODBC-drivrutin behöver detta DSN för att ansluta till en datakälla. I det här avsnittet konfigurerar du ett DSN som kan användas med Databricks ODBC-drivrutinen för att ansluta till Azure Databricks från klienter som Python eller R.

  1. Från Azure Databricks-arbetsytan går du till Databricks-klustret.

    Öppna Databricks-kluster

  2. Under fliken Konfiguration klickar du på fliken JDBC/ODBC och kopierar värdena för Server Hostname och HTTP Path. Du behöver dessa värden för att slutföra stegen i den här artikeln.

    Hämta Databricks-konfiguration

  3. På datorn startar du 64-bitarsprogrammet ODBC-datakällor.

    Starta ODBC Data Sources-appen

  4. Under fliken Användar-DSN, klicka på Lägg till. I dialogrutan Skapa ny datakälla väljer du Simba Spark ODBC-drivrutinoch klickar sedan på Slutför.

    Lägg till ODBC-datakälla

  5. I dialogrutan Simba Spark ODBC Driver anger du följande värden:

    Konfigurera DSN

    Följande tabell innehåller information om de värden som ska anges i dialogrutan.

    Fält Värde
    Namn på datakälla Ange ett namn för datakällan.
    värd/värdar Ange värdet som du kopierade från Databricks-arbetsytan för Serverns värdnamn.
    Hamn Ange 443.
    > mekanism för autentisering Välj Användarnamn och lösenord.
    Användarnamn Ange token.
    Lösenord Ange det tokenvärde som du kopierade från Databricks-arbetsytan.

    Utför följande ytterligare steg i dialogrutan för DSN-konfiguration.

    • Klicka på HTTP-alternativ. I dialogrutan som öppnas klistrar du in värdet för HTTP-sökväg som du kopierade från Databricks-arbetsytan. Klicka på OK.
    • Klicka på SSL-alternativ. I dialogrutan som öppnas markerar du kryssrutan Aktivera SSL-. Klicka på OK.
    • Klicka på Testa för att testa anslutningen till Azure Databricks. Klicka på OK för att spara konfigurationen.
    • I dialogrutan ODBC-datakälladministratör klickar du på OK.

Nu har du konfigurerat ditt DSN. I nästa avsnitt använder du detta DSN för att ansluta till Azure Databricks från Python eller R.

Anslut från R

Anmärkning

Det här avsnittet innehåller information om hur du integrerar en R Studio-klient som körs på skrivbordet med Azure Databricks. Anvisningar om hur du använder R Studio i själva Azure Databricks-klustret finns i R Studio på Azure Databricks.

I det här avsnittet använder du en R-språk-IDE för att referera till data som är tillgängliga i Azure Databricks. Innan du börjar måste du ha följande installerat på datorn.

  • Ett IDE för R-språk. Den här artikeln använder RStudio for Desktop. Du kan installera den från R Studio ladda ned.
  • Om du använder RStudio för Desktop som din IDE installerar du även Microsoft R Client från https://aka.ms/rclient/.

Öppna RStudio och gör följande:

  1. Referens till RODBC-paketet. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare.
  2. Upprätta en anslutning med hjälp av DSN.
  3. Kör en SQL-fråga på data i Azure Databricks. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
  4. Utför vissa åtgärder på frågan för att verifiera utdata.

Följande kodfragment utför följande uppgifter:

# reference the 'RODBC' package
require(RODBC)

# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")

# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")

# print out the column names in the query output
names(res)

# print out the number of rows in the query output
nrow (res)

Ansluta från Python

I det här avsnittet använder du en Python IDE (till exempel IDLE) för att referera till data som är tillgängliga i Azure Databricks. Slutför följande förutsättningar innan du börjar:

  • Installera Python från här. Om du installerar Python från den här länken installeras även IDLE.

  • Installera pyodbc-paketet från en kommandoprompt på datorn. Kör följande kommando:

    pip install pyodbc
    

Öppna IDLE och gör följande:

  1. Importera pyodbc-paketet. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare.
  2. Upprätta en anslutning med hjälp av det DSN som du skapade tidigare.
  3. Kör en SQL-fråga med den anslutning som du skapade. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
  4. Utför åtgärder på frågan för att verifiera utdata.

Följande kodfragment utför följande uppgifter:

# import the `pyodbc` package:
import pyodbc

# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)

# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")

# print the rows retrieved by the query.
for row in cursor.fetchall():
    print(row)

Nästa steg