Dela via


DatasetSnapshot Klass

Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.

Anmärkning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

Ett DataSnapshot-objekt returneras från create_snapshot -metoden för Dataset klassen.

Ögonblicksbild av datamängd är en kombination av Profil och en valfri materialiserad kopia av data.

Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots

Konstruktor

DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)

Parametrar

Name Description
workspace
Obligatorisk
<xref:azureml.core.Workspace.>

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name
Obligatorisk
str

Namnet på ögonblicksbilden av datauppsättningen.

dataset_id
Obligatorisk
str

Identifieraren för datauppsättningen.

definition_version
Obligatorisk
str

Definitionsversionen av datauppsättningen.

time_stamp
Obligatorisk

Tiden då ögonblicksbilden skapades.

profile_action_id
Obligatorisk
str

Åtgärds-ID för ögonblicksbildprofilen.

datastore_name
Obligatorisk
str

Namnet på datalagret för ögonblicksbilder.

relative_path
Obligatorisk
str

Den relativa sökvägen till ögonblicksbildsdata.

dataset_name
Obligatorisk
str

Namnet på datauppsättningen.

Metoder

compare_profiles

Jämför den aktuella datamängdsprofilen med rhs_dataset profil.

Om det inte finns några profiler skapar den här metoden ett undantag.

get

Hämta ögonblicksbilden av datauppsättningen efter ögonblicksbildens namn.

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

get_profile

Hämta profilen för ögonblicksbilden av datauppsättningen.

get_status

Hämta status för att skapa ögonblicksbilder för datauppsättningen.

is_data_snapshot_available

Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.

to_pandas_dataframe

Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

compare_profiles

Jämför den aktuella datamängdsprofilen med rhs_dataset profil.

Om det inte finns några profiler skapar den här metoden ett undantag.

compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)

Parametrar

Name Description
rhs_dataset_snapshot
Obligatorisk

Ögonblicksbilden av datamängden att jämföra med.

include_columns

En lista över kolumnnamn som ska ingå i jämförelsen.

Standardvärde: None
exclude_columns

En lista över kolumnnamn som ska undantas i jämförelsen.

Standardvärde: None
histogram_compare_method

Ett uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY.

Standardvärde: HistogramCompareMethod.WASSERSTEIN

Returer

Typ Description
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>

Skillnaden mellan profilerna.

get

Hämta ögonblicksbilden av datauppsättningen efter ögonblicksbildens namn.

static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)

Parametrar

Name Description
workspace
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

snapshot_name
Obligatorisk
str

Namnet på ögonblicksbilden av datauppsättningen.

dataset_name
Obligatorisk

Namnet på datauppsättningen.

dataset_id
Obligatorisk

Identifieraren för datauppsättningen.

Returer

Typ Description

Ett DatasetSnapshot-objekt.

get_all

Hämta alla ögonblicksbilder av den angivna datauppsättningen.

static get_all(workspace, dataset_name)

Parametrar

Name Description
workspace
Obligatorisk

Arbetsytan som datauppsättningen är registrerad i.

dataset_name
Obligatorisk

Namnet på datauppsättningen.

Returer

Typ Description

En lista över ögonblicksbilder av datauppsättningar

get_profile

Hämta profilen för ögonblicksbilden av datauppsättningen.

get_profile()

Returer

Typ Description
<xref:azureml.dataprep.DataProfile>

DataProfile för ögonblicksbilden av datauppsättningen

get_status

Hämta status för att skapa ögonblicksbilder för datauppsättningen.

get_status()

Returer

Typ Description
str

Status för ögonblicksbild av datauppsättning.

is_data_snapshot_available

Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.

is_data_snapshot_available()

Returer

Typ Description

Sant om dataögonblicksbilden är tillgänglig.

to_pandas_dataframe

Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_pandas_dataframe()

Returer

Typ Description

En Pandas DataFrame.

Kommentarer

Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.

to_spark_dataframe

Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.

to_spark_dataframe()

Returer

Typ Description

En Spark-dataram.

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller inga data, eftersom Spark Dataframes utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.

wait_for_completion

Vänta tills DatasetSnapshot generaton har slutförts.

wait_for_completion(show_output=True, status_update_frequency=10)

Parametrar

Name Description
show_output

Anger om metoden skriver ut utdata.

Standardvärde: True
status_update_frequency
int

Statusuppdateringsfrekvensen för åtgärdskörning i sekunder.

Standardvärde: 10

Attribut

dataset_id

Hämta datauppsättningsidentifieraren.

Returer

Typ Description
str

Datamängds-ID:t.

name

Hämta namnet på datauppsättningsögonblicksbilden.

Returer

Typ Description
str

Namnet på datamängdens ögonblicksbild.

workspace

Hämta den Azure Machine Learning-arbetsyta där datauppsättningen är registrerad.

Returer

Typ Description

Arbetsytan där datauppsättningen är registrerad.