Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
I den här artikeln får du lära dig hur du använder Databricks ODBC-drivrutinen för att ansluta Azure Databricks till Python- eller R-språk. När du har upprättat anslutningen kan du komma åt data i Azure Databricks från Python- eller R-klienterna. Du kan också använda klienterna för att analysera data ytterligare.
Förutsättningar
Du måste ha en Azure Databricks-arbetsyta, ett Spark-kluster och exempeldata som är associerade med klustret. Om du inte redan har dessa förutsättningar, slutför den snabba starten vid Kom igång.
Ladda ned Databricks ODBC-drivrutinen från sidan för nedladdning av Databricks-drivrutinen. Installera 64-bitarsversionen av drivrutinen.
Konfigurera en personlig åtkomsttoken i Databricks. Anvisningar finns i tokenhantering.
Konfigurera ett DSN
Ett namn på datakällan (DSN) innehåller information om en specifik datakälla. En ODBC-drivrutin behöver detta DSN för att ansluta till en datakälla. I det här avsnittet konfigurerar du ett DSN som kan användas med Databricks ODBC-drivrutinen för att ansluta till Azure Databricks från klienter som Python eller R.
Från Azure Databricks-arbetsytan går du till Databricks-klustret.
Under fliken Konfiguration klickar du på fliken JDBC/ODBC och kopierar värdena för Server Hostname och HTTP Path. Du behöver dessa värden för att slutföra stegen i den här artikeln.
På datorn startar du 64-bitarsprogrammet ODBC-datakällor.
Under fliken Användar-DSN, klicka på Lägg till. I dialogrutan Skapa ny datakälla väljer du Simba Spark ODBC-drivrutinoch klickar sedan på Slutför.
I dialogrutan Simba Spark ODBC Driver anger du följande värden:
Följande tabell innehåller information om de värden som ska anges i dialogrutan.
Fält Värde Namn på datakälla Ange ett namn för datakällan. värd/värdar Ange värdet som du kopierade från Databricks-arbetsytan för Serverns värdnamn. Hamn Ange 443. > mekanism för autentisering Välj Användarnamn och lösenord. Användarnamn Ange token. Lösenord Ange det tokenvärde som du kopierade från Databricks-arbetsytan. Utför följande ytterligare steg i dialogrutan för DSN-konfiguration.
- Klicka på HTTP-alternativ. I dialogrutan som öppnas klistrar du in värdet för HTTP-sökväg som du kopierade från Databricks-arbetsytan. Klicka på OK.
- Klicka på SSL-alternativ. I dialogrutan som öppnas markerar du kryssrutan Aktivera SSL-. Klicka på OK.
- Klicka på Testa för att testa anslutningen till Azure Databricks. Klicka på OK för att spara konfigurationen.
- I dialogrutan ODBC-datakälladministratör klickar du på OK.
Nu har du konfigurerat ditt DSN. I nästa avsnitt använder du detta DSN för att ansluta till Azure Databricks från Python eller R.
Anslut från R
Anmärkning
Det här avsnittet innehåller information om hur du integrerar en R Studio-klient som körs på skrivbordet med Azure Databricks. Anvisningar om hur du använder R Studio i själva Azure Databricks-klustret finns i R Studio på Azure Databricks.
I det här avsnittet använder du en R-språk-IDE för att referera till data som är tillgängliga i Azure Databricks. Innan du börjar måste du ha följande installerat på datorn.
- Ett IDE för R-språk. Den här artikeln använder RStudio for Desktop. Du kan installera den från R Studio ladda ned.
- Om du använder RStudio för Desktop som din IDE installerar du även Microsoft R Client från https://aka.ms/rclient/.
Öppna RStudio och gör följande:
- Referens till
RODBC-paketet. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare. - Upprätta en anslutning med hjälp av DSN.
- Kör en SQL-fråga på data i Azure Databricks. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
- Utför vissa åtgärder på frågan för att verifiera utdata.
Följande kodfragment utför följande uppgifter:
# reference the 'RODBC' package
require(RODBC)
# establish a connection using the DSN you created earlier
conn <- odbcConnect("<ENTER DSN NAME HERE>")
# run a SQL query using the connection you created
res <- sqlQuery(conn, "SELECT * FROM radio_sample_data")
# print out the column names in the query output
names(res)
# print out the number of rows in the query output
nrow (res)
Ansluta från Python
I det här avsnittet använder du en Python IDE (till exempel IDLE) för att referera till data som är tillgängliga i Azure Databricks. Slutför följande förutsättningar innan du börjar:
Installera Python från här. Om du installerar Python från den här länken installeras även IDLE.
Installera
pyodbc-paketet från en kommandoprompt på datorn. Kör följande kommando:pip install pyodbc
Öppna IDLE och gör följande:
- Importera
pyodbc-paketet. På så sätt kan du ansluta till Azure Databricks med hjälp av det DSN som du skapade tidigare. - Upprätta en anslutning med hjälp av det DSN som du skapade tidigare.
- Kör en SQL-fråga med den anslutning som du skapade. I följande kodfragment är radio_sample_data en tabell som redan finns i Azure Databricks.
- Utför åtgärder på frågan för att verifiera utdata.
Följande kodfragment utför följande uppgifter:
# import the `pyodbc` package:
import pyodbc
# establish a connection using the DSN you created earlier
conn = pyodbc.connect("DSN=<ENTER DSN NAME HERE>", autocommit=True)
# run a SQL query using the connection you created
cursor = conn.cursor()
cursor.execute("SELECT * FROM radio_sample_data")
# print the rows retrieved by the query.
for row in cursor.fetchall():
print(row)
Nästa steg
- Information om källor där du kan importera data till Azure Databricks finns i Datakällor för Azure Databricks.