Anteckning
Åtkomst till den här sidan kräver auktorisering. Du kan prova att logga in eller ändra kataloger.
Åtkomst till den här sidan kräver auktorisering. Du kan prova att ändra kataloger.
Du kan använda unzip Bash-kommandot för att expandera komprimerade zip-filer eller.zip kataloger med filer. Azure Databricks %shmagiska kommando möjliggör körning av godtycklig Bash-kod, inklusive unzip kommandot.
Apache Spark tillhandahåller interna codecs för interaktion med komprimerade Parquet-filer. De flesta Parquet-filer som skrivits av Azure Databricks slutar med .snappy.parquet, vilket indikerar att de använder snabb komprimering.
Ladda ned och packa upp filen
Använd curl för att ladda ned den komprimerade filen och sedan unzip expandera data. I följande exempel används en zippad CSV-fil som hämtats från Internet. Se Ladda ned data från Internet.
%sh curl https://resources.lendingclub.com/LoanStats3a.csv.zip --output /tmp/LoanStats3a.csv.zip
unzip /tmp/LoanStats3a.csv.zip
Flytta filen till en volym
Flytta nu den expanderade filen till en Unity Catalog-volym:
%sh mv /tmp/LoanStats3a.csv /Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv
I det här exemplet har nedladdade data en kommentar på den första raden och en rubrik i den andra. Nu när du har flyttat och expanderat data använder du standardalternativ för att läsa CSV-filer, till exempel:
df = spark.read.format("csv").option("skipRows", 1).option("header", True).load("/Volumes/my_catalog/my_schema/my_volume/LoanStats3a.csv")
display(df)