DatasetSnapshot Klas
Beheert momentopnamen van gegevenssets met bewerkingen om een module op te halen, de status ervan te retourneren en deze te converteren naar een dataframe.
Opmerking
Deze klasse is afgeschaft. Zie https://aka.ms/dataset-deprecation voor meer informatie.
Een DataSnapshot-object wordt geretourneerd door de create_snapshot methode van de Dataset klasse.
Momentopname van gegevenssets is een combinatie van Profiel en een optionele gerealiseerde kopie van de gegevens.
Voor meer informatie over momentopnamen van gegevenssets gaat u naar https://aka.ms/azureml/howto/createsnapshots
Constructor
DatasetSnapshot(workspace, snapshot_name, dataset_id, definition_version=None, time_stamp=None, profile_action_id=None, datastore_name=None, relative_path=None, dataset_name=None)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
<xref:azureml.core.Workspace.>
De werkruimte waarin de gegevensset is geregistreerd. |
|
snapshot_name
Vereist
|
De naam van de momentopname van de gegevensset. |
|
dataset_id
Vereist
|
De id van de gegevensset. |
|
definition_version
Vereist
|
De definitieversie van de gegevensset. |
|
time_stamp
Vereist
|
De aanmaaktijd van de momentopname. |
|
profile_action_id
Vereist
|
De actie-id van het momentopnameprofiel. |
|
datastore_name
Vereist
|
De naam van het gegevensarchief van de momentopname. |
|
relative_path
Vereist
|
Het relatieve pad naar de momentopnamegegevens. |
|
dataset_name
Vereist
|
De naam van de gegevensset. |
Methoden
| compare_profiles |
Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel. Als er geen profielen bestaan, wordt met deze methode een uitzondering gegenereerd. |
| get |
Haal de momentopname van de gegevensset op op naam van de momentopname. |
| get_all |
Haal alle momentopnamen van de opgegeven gegevensset op. |
| get_profile |
Haal het profiel van de momentopname van de gegevensset op. |
| get_status |
Haal de status van het maken van de momentopname van de gegevensset op. |
| is_data_snapshot_available |
Controleer of de gerealiseerde kopie van de momentopname beschikbaar is. |
| to_pandas_dataframe |
Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname. |
| to_spark_dataframe |
Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname. |
| wait_for_completion |
Wacht totdat het genereren van DatasetSnapshot is voltooid. |
compare_profiles
Vergelijk het huidige gegevenssetprofiel met rhs_dataset profiel.
Als er geen profielen bestaan, wordt met deze methode een uitzondering gegenereerd.
compare_profiles(rhs_dataset_snapshot, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameters
| Name | Description |
|---|---|
|
rhs_dataset_snapshot
Vereist
|
De momentopname van de gegevensset waarmee moet worden vergeleken. |
|
include_columns
|
Een lijst met kolomnamen die moeten worden opgenomen in de vergelijking. Default value: None
|
|
exclude_columns
|
Een lijst met kolomnamen die moeten worden uitgesloten in de vergelijking. Default value: None
|
|
histogram_compare_method
|
Een opsomming die de vergelijkingsmethode beschrijft, bijvoorbeeld: WASSERSTEIN of ENERGY. Default value: HistogramCompareMethod.WASSERSTEIN
|
Retouren
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Het verschil tussen de profielen. |
get
Haal de momentopname van de gegevensset op op naam van de momentopname.
static get(workspace, snapshot_name, dataset_name=None, dataset_id=None)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waarin de gegevensset is geregistreerd. |
|
snapshot_name
Vereist
|
De naam van de momentopname van de gegevensset. |
|
dataset_name
Vereist
|
De naam van de gegevensset. |
|
dataset_id
Vereist
|
De id van de gegevensset. |
Retouren
| Type | Description |
|---|---|
|
Een DatasetSnapshot-object. |
get_all
Haal alle momentopnamen van de opgegeven gegevensset op.
static get_all(workspace, dataset_name)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waarin de gegevensset is geregistreerd. |
|
dataset_name
Vereist
|
De naam van de gegevensset. |
Retouren
| Type | Description |
|---|---|
|
Een lijst met momentopnamen van gegevenssets |
get_profile
Haal het profiel van de momentopname van de gegevensset op.
get_profile()
Retouren
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
Het DataProfile van de momentopname van de gegevensset |
get_status
Haal de status van het maken van de momentopname van de gegevensset op.
get_status()
Retouren
| Type | Description |
|---|---|
|
De status van de momentopname van de gegevensset. |
is_data_snapshot_available
Controleer of de gerealiseerde kopie van de momentopname beschikbaar is.
is_data_snapshot_available()
Retouren
| Type | Description |
|---|---|
|
Is waar als de momentopname van de gegevens beschikbaar is. |
to_pandas_dataframe
Maak een Pandas DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.
to_pandas_dataframe()
Retouren
| Type | Description |
|---|---|
|
Een Pandas DataFrame. |
Opmerkingen
Het Pandas DataFrame is volledig gerealiseerd in het geheugen. Als de momentopname is gemaakt met create_data_snapshot=False, wordt er een uitzondering gegenereerd. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u de functie is_data_snapshot_available.
to_spark_dataframe
Maak een Spark DataFrame door de gegevens te laden die zijn opgeslagen met de momentopname.
to_spark_dataframe()
Retouren
| Type | Description |
|---|---|
|
Een Spark DataFrame. |
Opmerkingen
Het geretourneerde Spark Dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes lazily worden geƫvalueerd. Als de momentopname is gemaakt met create_data_snapshot=False, wordt er een uitzondering gegenereerd wanneer u toegang probeert te krijgen tot de gegevens. Als u wilt controleren of de momentopname gegevens bevat, gebruikt u is_data_snapshot_available.
wait_for_completion
Wacht totdat het genereren van DatasetSnapshot is voltooid.
wait_for_completion(show_output=True, status_update_frequency=10)
Parameters
| Name | Description |
|---|---|
|
show_output
|
Geeft aan of de methode de uitvoer afdrukt. Default value: True
|
|
status_update_frequency
|
De updatefrequentie van de actieuitvoeringsstatus in seconden. Default value: 10
|
Kenmerken
dataset_id
name
Haal de naam van de momentopname van de gegevensset op.
Retouren
| Type | Description |
|---|---|
|
De naam van de momentopname van de gegevensset. |
workspace
Haal de Azure Machine Learning-werkruimte op waarin de gegevensset is geregistreerd.
Retouren
| Type | Description |
|---|---|
|
De werkruimte waarin de gegevensset is geregistreerd. |