DatasetSnapshot Klass
Hanterar ögonblicksbilder av datauppsättningar med åtgärder för att få en snapsot, returnera dess status och konvertera den till en dataram.
Anmärkning
Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
Ett DataSnapshot-objekt returneras från create_snapshot -metoden för Dataset klassen.
Ögonblicksbild av datamängd är en kombination av Profil och en valfri materialiserad kopia av data.
Mer information om ögonblicksbilder av datauppsättningar finns i https://aka.ms/azureml/howto/createsnapshots
Konstruktor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parametrar
| Name | Description |
|---|---|
|
workspace
Obligatorisk
|
<xref:azureml.core.Workspace.>
Arbetsytan som datauppsättningen är registrerad i. |
|
snapshot_name
Obligatorisk
|
Namnet på ögonblicksbilden av datauppsättningen. |
|
dataset_id
Obligatorisk
|
Identifieraren för datauppsättningen. |
|
definition_version
Obligatorisk
|
Definitionsversionen av datauppsättningen. |
|
time_stamp
Obligatorisk
|
Tiden då ögonblicksbilden skapades. |
|
profile_action_id
Obligatorisk
|
Åtgärds-ID för ögonblicksbildprofilen. |
|
datastore_name
Obligatorisk
|
Namnet på datalagret för ögonblicksbilder. |
|
relative_path
Obligatorisk
|
Den relativa sökvägen till ögonblicksbildsdata. |
|
dataset_name
Obligatorisk
|
Namnet på datauppsättningen. |
Metoder
| compare_profiles |
Jämför den aktuella datamängdsprofilen med rhs_dataset profil. Om det inte finns några profiler skapar den här metoden ett undantag. |
| get |
Hämta ögonblicksbilden av datauppsättningen efter ögonblicksbildens namn. |
| get_all |
Hämta alla ögonblicksbilder av den angivna datauppsättningen. |
| get_profile |
Hämta profilen för ögonblicksbilden av datauppsättningen. |
| get_status |
Hämta status för att skapa ögonblicksbilder för datauppsättningen. |
| is_data_snapshot_available |
Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig. |
| to_pandas_dataframe |
Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden. |
| to_spark_dataframe |
Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden. |
| wait_for_completion |
Vänta tills DatasetSnapshot generaton har slutförts. |
compare_profiles
Jämför den aktuella datamängdsprofilen med rhs_dataset profil.
Om det inte finns några profiler skapar den här metoden ett undantag.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parametrar
| Name | Description |
|---|---|
|
rhs_dataset_snapshot
Obligatorisk
|
Ögonblicksbilden av datamängden att jämföra med. |
|
include_columns
|
En lista över kolumnnamn som ska ingå i jämförelsen. Standardvärde: None
|
|
exclude_columns
|
En lista över kolumnnamn som ska undantas i jämförelsen. Standardvärde: None
|
|
histogram_compare_method
|
Ett uppräkning som beskriver jämförelsemetoden, till exempel WASSERSTEIN eller ENERGY. Standardvärde: HistogramCompareMethod.WASSERSTEIN
|
Returer
| Typ | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Skillnaden mellan profilerna. |
get
Hämta ögonblicksbilden av datauppsättningen efter ögonblicksbildens namn.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parametrar
| Name | Description |
|---|---|
|
workspace
Obligatorisk
|
Arbetsytan som datauppsättningen är registrerad i. |
|
snapshot_name
Obligatorisk
|
Namnet på ögonblicksbilden av datauppsättningen. |
|
dataset_name
Obligatorisk
|
Namnet på datauppsättningen. |
|
dataset_id
Obligatorisk
|
Identifieraren för datauppsättningen. |
Returer
| Typ | Description |
|---|---|
|
Ett DatasetSnapshot-objekt. |
get_all
Hämta alla ögonblicksbilder av den angivna datauppsättningen.
static get_all(workspace, dataset_name)
Parametrar
| Name | Description |
|---|---|
|
workspace
Obligatorisk
|
Arbetsytan som datauppsättningen är registrerad i. |
|
dataset_name
Obligatorisk
|
Namnet på datauppsättningen. |
Returer
| Typ | Description |
|---|---|
|
En lista över ögonblicksbilder av datauppsättningar |
get_profile
Hämta profilen för ögonblicksbilden av datauppsättningen.
get_profile()
Returer
| Typ | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
DataProfile för ögonblicksbilden av datauppsättningen |
get_status
Hämta status för att skapa ögonblicksbilder för datauppsättningen.
get_status()
Returer
| Typ | Description |
|---|---|
|
Status för ögonblicksbild av datauppsättning. |
is_data_snapshot_available
Kontrollera om den materialiserade kopian av ögonblicksbilden är tillgänglig.
is_data_snapshot_available()
Returer
| Typ | Description |
|---|---|
|
Sant om dataögonblicksbilden är tillgänglig. |
to_pandas_dataframe
Skapa en Pandas DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_pandas_dataframe()
Returer
| Typ | Description |
|---|---|
|
En Pandas DataFrame. |
Kommentarer
Pandas DataFrame är helt materialiserad i minnet. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag. Om du vill kontrollera om ögonblicksbilden innehåller data använder du funktionen is_data_snapshot_available.
to_spark_dataframe
Skapa en Spark DataFrame genom att läsa in data som sparats med ögonblicksbilden.
to_spark_dataframe()
Returer
| Typ | Description |
|---|---|
|
En Spark-dataram. |
Kommentarer
Spark-dataramen som returneras är bara en körningsplan och innehåller inga data, eftersom Spark Dataframes utvärderas lazily. Om ögonblicksbilden skapades med create_data_snapshot=Falsegenereras ett undantag när du försöker komma åt data. Om du vill kontrollera om ögonblicksbilden innehåller data använder du is_data_snapshot_available.
wait_for_completion
Vänta tills DatasetSnapshot generaton har slutförts.
wait_for_completion(show_output=True, status_update_frequency=10)
Parametrar
| Name | Description |
|---|---|
|
show_output
|
Anger om metoden skriver ut utdata. Standardvärde: True
|
|
status_update_frequency
|
Statusuppdateringsfrekvensen för åtgärdskörning i sekunder. Standardvärde: 10
|
Attribut
dataset_id
name
Hämta namnet på datauppsättningsögonblicksbilden.
Returer
| Typ | Description |
|---|---|
|
Namnet på datamängdens ögonblicksbild. |
workspace
Hämta den Azure Machine Learning-arbetsyta där datauppsättningen är registrerad.
Returer
| Typ | Description |
|---|---|
|
Arbetsytan där datauppsättningen är registrerad. |