Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Den här självstudien beskriver hur du använder en Azure Databricks-notebook-fil för att importera data från en CSV-fil som innehåller babynamnsdata från health.data.ny.gov till Unity Catalog-volymen med Python, Scala och R. Du lär dig också att ändra ett kolumnnamn, visualisera data och spara i en tabell.
Krav
För att slutföra uppgifterna i den här artikeln måste du uppfylla följande krav:
- Unity Catalog måste vara aktiverat på arbetsytan. Information om hur du kommer igång med Unity Catalog finns i Komma igång med Unity Catalog.
- Du måste ha behörigheten WRITE VOLUMEpå en volym, behörighetenUSE SCHEMAför det överordnade schemat och behörighetenUSE CATALOGför den överordnade katalogen.
- Du måste ha behörighet att använda en befintlig beräkningsresurs eller skapa en ny beräkningsresurs. Se Kom igång-självstudier om Azure Databricks eller se din Databricks-administratör.
Dricks
En slutförd notebook-fil för den här artikeln finns i Importera och visualisera dataanteckningsböcker.
Steg 1: Skapa en ny notebook-fil
Om du vill skapa en notebook-fil på arbetsytan klickar du på  Ny i sidofältet och klickar sedan på Anteckningsbok. En tom anteckningsbok öppnas på arbetsytan.
Ny i sidofältet och klickar sedan på Anteckningsbok. En tom anteckningsbok öppnas på arbetsytan.
Mer information om hur du skapar och hanterar notebook-filer finns i Hantera notebook-filer.
Steg 2: Definiera variabler
I det här steget definierar du variabler som ska användas i den notebook-exempelanteckningsbok som du skapar i den här artikeln.
- Kopiera och klistra in följande kod i den nya tomma notebook-cellen. Ersätt - <catalog-name>,- <schema-name>och- <volume-name>med katalog-, schema- och volymnamnen för en Unity Catalog-volym. Du kan också ersätta värdet- table_namemed ett valfritt tabellnamn. Du sparar babynamndata i den här tabellen senare i den här artikeln.
- Tryck - Shift+Enterför att köra cellen och skapa en ny tom cell.- python- catalog = "<catalog_name>" schema = "<schema_name>" volume = "<volume_name>" download_url = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" file_name = "baby_names.csv" table_name = "baby_names" path_volume = "/Volumes/" + catalog + "/" + schema + "/" + volume path_table = catalog + "." + schema print(path_table) # Show the complete path print(path_volume) # Show the complete path- Scala- val catalog = "<catalog_name>" val schema = "<schema_name>" val volume = "<volume_name>" val downloadUrl = "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" val fileName = "baby_names.csv" val tableName = "baby_names" val pathVolume = s"/Volumes/${catalog}/${schema}/${volume}" val pathTable = s"${catalog}.${schema}" print(pathVolume) // Show the complete path print(pathTable) // Show the complete path- R- catalog <- "<catalog_name>" schema <- "<schema_name>" volume <- "<volume_name>" download_url <- "https://health.data.ny.gov/api/views/jxy9-yhdk/rows.csv" file_name <- "baby_names.csv" table_name <- "baby_names" path_volume <- paste("/Volumes/", catalog, "/", schema, "/", volume, sep = "") path_table <- paste(catalog, ".", schema, sep = "") print(path_volume) # Show the complete path print(path_table) # Show the complete path
Steg 3: Importera CSV-fil
I det här steget importerar du en CSV-fil som innehåller babynamnsdata från health.data.ny.gov till Unity Catalog-volymen.
- Kopiera och klistra in följande kod i den nya tomma notebook-cellen. Den här koden kopierar - rows.csvfilen från health.data.ny.gov till Unity Catalog-volymen med hjälp av kommandot Databricks dbutuils .
- Tryck - Shift+Enterför att köra cellen och flytta sedan till nästa cell.- python- dbutils.fs.cp(f"{download_url}", f"{path_volume}" + "/" + f"{file_name}")- Scala- dbutils.fs.cp(downloadUrl, s"${pathVolume}/${fileName}")- R- dbutils.fs.cp(download_url, paste(path_volume, "/", file_name, sep = ""))
Steg 4: Läsa in CSV-data i en DataFrame
I det här steget skapar du en DataFrame med namnet df från CSV-filen som du tidigare läste in i Unity Catalog-volymen med hjälp av  metodenspark.read.csv .
- Kopiera och klistra in följande kod i den nya tomma notebook-cellen. Den här koden läser in babynamnsdata i DataFrame - dffrån CSV-filen.
- Tryck - Shift+Enterför att köra cellen och flytta sedan till nästa cell.- python- df = spark.read.csv(f"{path_volume}/{file_name}", header=True, inferSchema=True, sep=",")- Scala- val df = spark.read .option("header", "true") .option("inferSchema", "true") .option("delimiter", ",") .csv(s"${pathVolume}/${fileName}")- R- # Load the SparkR package that is already preinstalled on the cluster. library(SparkR) df <- read.df(paste(path_volume, "/", file_name, sep=""), source="csv", header = TRUE, inferSchema = TRUE, delimiter = ",")
Du kan läsa in data från många filformat som stöds.
Steg 5: Visualisera data från notebook-filen
I det här steget använder display() du metoden för att visa innehållet i DataFrame i en tabell i notebook-filen och sedan visualisera data i ett ordmolndiagram i notebook-filen.
- Kopiera och klistra in följande kod i den nya tomma notebook-cellen och klicka sedan på Kör cell för att visa data i en tabell. - python- display(df)- Scala- display(df)- R- display(df)
- Granska resultatet i tabellen. 
- Bredvid fliken Tabell klickar du på + och klickar sedan på Visualisering. 
- I visualiseringsredigeraren klickar du på Visualiseringstyp och kontrollerar att Word-molnet är markerat. 
- Ord. 
- I Frekvensgräns klickar du på - 35.  
- Klicka på Spara. 
Steg 6: Spara DataFrame i en tabell
Viktigt!
Om du vill spara dataramen i Unity Catalog måste du ha CREATE tabellbehörigheter i katalogen och schemat. Information om behörigheter i Unity Catalog finns i Privilegier och skyddsbara objekt i Unity Catalog och Hantera privilegier i Unity Catalog.
- Kopiera och klistra in följande kod i en tom notebook-cell. Den här koden ersätter ett blanksteg i kolumnnamnet. Specialtecken, till exempel blanksteg, tillåts inte i kolumnnamn. Den här koden använder Apache Spark-metoden - withColumnRenamed().- python- df = df.withColumnRenamed("First Name", "First_Name") df.printSchema- Scala- val dfRenamedColumn = df.withColumnRenamed("First Name", "First_Name") // when modifying a DataFrame in Scala, you must assign it to a new variable dfRenamedColumn.printSchema()- R- df <- withColumnRenamed(df, "First Name", "First_Name") printSchema(df)
- Kopiera och klistra in följande kod i en tom notebook-cell. Den här koden sparar innehållet i DataFrame i en tabell i Unity Catalog med hjälp av den tabellnamnsvariabel som du definierade i början av den här artikeln. - python- df.write.mode("overwrite").saveAsTable(f"{path_table}" + "." + f"{table_name}")- Scala- dfRenamedColumn.write.mode("overwrite").saveAsTable(s"${pathTable}.${tableName}")- R- saveAsTable(df, paste(path_table, ".", table_name), mode = "overwrite")
- Kontrollera att tabellen har sparats genom att klicka på Katalog i det vänstra sidofältet för att öppna katalogutforskarens användargränssnitt. Öppna katalogen och sedan schemat för att kontrollera att tabellen visas. 
- Klicka på tabellen för att visa tabellschemat på fliken Översikt . 
- Klicka på Exempeldata för att visa 100 rader data från tabellen. 
Importera och visualisera dataanteckningsböcker
Använd någon av följande notebook-filer för att utföra stegen i den här artikeln. Ersätt <catalog-name>, <schema-name>och <volume-name> med katalog-, schema- och volymnamnen för en Unity Catalog-volym. Du kan också ersätta värdet table_name med ett valfritt tabellnamn.
python
Importera data från CSV med Python
Scala
Importera data från CSV med Scala
R
Importera data från CSV med R
Nästa steg
- För att lära dig mer om tekniker för undersökande dataanalys (EDA), se Handledning: EDA-tekniker med Databricks notebooks.
- Mer information om hur du skapar en ETL-pipeline (extrahera, transformera och läsa in) finns i självstudie: Skapa en ETL-pipeline med Lakeflow Deklarativa pipelines och självstudie: Skapa en ETL-pipeline med Apache Spark på Databricks-plattformen