Självstudie: Beräkna containerstatistik med databricks

2025-10-09

Den här självstudien visar hur du samlar in statistik om dina containrar med hjälp av Azure Blob Storage-inventering tillsammans med Azure Databricks.

I den här tutorialen lär du dig följande:

Generera en inventeringsrapport
Skapa en Azure Databricks-arbetsyta och notebook-fil
Läs blobinventeringsfilen
Hämta antalet och den totala storleken på blobar, ögonblicksbilder och versioner
Hämta antalet blobar efter blobtyp och innehållstyp

Prerequisites

En Azure-prenumeration – skapa ett konto kostnadsfritt
Ett Azure Storage-konto – skapa ett lagringskonto

Se till att din användaridentitet har rollen Storage Blob Data Contributor tilldelad.

Generera en inventeringsrapport

Aktivera blobinventeringsrapporter för ditt lagringskonto. Se Aktivera Azure Storage-blob-lagerredovisningsrapporter.

Använd följande konfigurationsinställningar:

Setting	Value
Regelnamn	blobinventory
Container	<namnet på containern>
Objekttyp för inventering	Blob
Blobtyper	Blockblobar, sidblobar och tilläggsblobar
Subtypes	inkludera blobversioner, inkludera ögonblicksbilder, inkludera borttagna blobar
Blobinventeringsfält	All
Inventeringsfrekvens	Daily
Exportformat	CSV

Du kan behöva vänta upp till 24 timmar efter att du har aktiverat inventeringsrapporter för att din första rapport ska genereras.

Konfigurera Azure Databricks

I det här avsnittet skapar du en Azure Databricks-arbetsyta och notebook-fil. Senare i denna handledning klistrar du in kodfragment i notebook-celler och sedan kör dem för att samla in containerstatistik.

Skapa en Azure Databricks-arbetsyta. Se Skapa en Azure Databricks-arbetsyta.
Skapa en ny notebook-fil. Se Skapa en notebook.
Välj Python som standardspråk för notebook-filen.

Läs blobinventeringsfilen

Kopiera och klistra in följande kodblock i den första cellen, men kör inte den här koden ännu.

from pyspark.sql.types import StructType, StructField, IntegerType, StringType
import pyspark.sql.functions as F  
storage_account_name = "<storage-account-name>"
storage_account_key = "<storage-account-key>"
container = "<container-name>"
blob_inventory_file = "<blob-inventory-file-name>" 
hierarchial_namespace_enabled = False

if hierarchial_namespace_enabled == False:
  spark.conf.set("fs.azure.account.key.{0}.blob.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("wasbs://{0}@{1}.blob.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

 else:
  spark.conf.set("fs.azure.account.key.{0}.dfs.core.windows.net".format(storage_account_name), storage_account_key)
  df = spark.read.csv("abfss://{0}@{1}.dfs.core.windows.net/{2}".format(container, storage_account_name, blob_inventory_file), header='true', inferSchema='true')

Ersätt följande värden i det här kodblocket:
- Ersätt platshållarvärdet <storage-account-name> med namnet på ditt lagringskonto.
- <storage-account-key> Ersätt platshållarvärdet med kontonyckeln för ditt lagringskonto.
- <container-name> Ersätt platshållarvärdet med containern som innehåller inventeringsrapporterna.
- <blob-inventory-file-name> Ersätt platshållaren med det fullständigt kvalificerade namnet på inventeringsfilen (till exempel: 2023/02/02/02-16-17/blobinventory/blobinventory_1000000_0.csv).
- Om ditt konto har ett hierarkiskt namnområde anger du variabeln hierarchical_namespace_enabled till True.
Tryck på knappen Kör för att köra koden i den här cellen.