Dela via


Expandera och läs komprimerade zip-filer

Du kan använda unzip Bash-kommandot för att expandera komprimerade zip-filer eller.zip kataloger med filer. Azure Databricks %shmagiska kommando möjliggör körning av godtycklig Bash-kod, inklusive unzip kommandot.

Apache Spark tillhandahåller interna codecs för interaktion med komprimerade Parquet-filer. De flesta Parquet-filer som skrivits av Azure Databricks slutar med .snappy.parquet, vilket indikerar att de använder snabb komprimering.

Ladda ned och packa upp filen

Använd curl för att ladda ned den komprimerade filen och sedan unzip expandera data. I följande exempel används en zippad CSV-fil som hämtats från Internet. Se Ladda ned data från Internet.

%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip

Flytta filen till en volym

Flytta nu den expanderade filen till en Unity Catalog-volym:

%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv

I det här exemplet har nedladdade data en kommentar på den första raden och en rubrik i den andra. Nu när du har flyttat och expanderat data använder du standardalternativ för att läsa CSV-filer, till exempel:

df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)