DatasetDefinition Klass
Definierar en serie steg som anger hur du läser och transformerar data i en datauppsättning.
Anmärkning
Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.
En datauppsättning som är registrerad på en Azure Machine Learning-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats.
För oregistrerade datauppsättningar finns det bara en definition.
Datauppsättningsdefinitioner stöder alla transformeringar som anges för <xref:azureml.dataprep.Dataflow> klassen: se http://aka.ms/azureml/howto/transformdata. Om du vill veta mer om datauppsättningsdefinitioner går du till https://aka.ms/azureml/howto/versiondata.
Initiera datamängdsdefinitionsobjektet.
Konstruktor
DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')
Parametrar
| Name | Description |
|---|---|
|
workspace
Obligatorisk
|
Arbetsytan som datauppsättningen är registrerad i. |
|
dataset_id
Obligatorisk
|
Datauppsättningsidentifieraren. |
|
version_id
Obligatorisk
|
Definitionsversionen. |
|
dataflow
Obligatorisk
|
Dataflödesobjektet. |
|
dataflow_json
Obligatorisk
|
Dataflödes-json. |
|
notes
Obligatorisk
|
Valfri information om definitionen. |
|
etag
Obligatorisk
|
Etag. |
|
created_time
Obligatorisk
|
Skapandetiden för definitionen. |
|
modified_time
Obligatorisk
|
Den senaste ändrade tiden för definitionen. |
|
deprecated_by_dataset_id
Obligatorisk
|
ID:t för datauppsättningen som inaktuella den här definitionen. |
|
deprecated_by_definition_version
Obligatorisk
|
Den version av definitionen som inaktuella den här definitionen. |
|
data_path
Obligatorisk
|
Datasökvägen. |
|
dataset
Obligatorisk
|
Det överordnade datamängdsobjektet. |
Metoder
| archive |
Arkivera datauppsättningsdefinitionen. |
| create_snapshot |
Skapa en ögonblicksbild av den registrerade datauppsättningen. |
| deprecate |
Inaktuell datauppsättning med en pekare till den nya datauppsättningen. |
| reactivate |
Återaktivera datauppsättningsdefinitionen. Fungerar med datauppsättningsdefinitioner som har föråldrats eller arkiverats. |
| to_pandas_dataframe |
Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datamängdsdefinitionen. |
| to_spark_dataframe |
Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet. |
archive
Arkivera datauppsättningsdefinitionen.
archive()
Returer
| Typ | Description |
|---|---|
|
Ingen. |
Kommentarer
Efter arkiveringen resulterar alla försök att hämta datamängden i ett fel. Om arkiveras av misstag använder du reactivate för att aktivera den.
create_snapshot
Skapa en ögonblicksbild av den registrerade datauppsättningen.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parametrar
| Name | Description |
|---|---|
|
snapshot_name
Obligatorisk
|
Namnet på ögonblicksbilden. Namn på ögonblicksbilder bör vara unika i en datauppsättning. |
|
compute_target
|
ComputeTarget eller
str
Beräkningsmålet för att skapa ögonblicksbildsprofilen. Om den utelämnas används den lokala beräkningen. Standardvärde: None
|
|
create_data_snapshot
|
Om sant skapas en materialiserad kopia av data. Standardvärde: False
|
|
target_datastore
|
Måldatalagringen där ögonblicksbilden ska sparas. Om den utelämnas skapas ögonblicksbilden i standardlagringen för arbetsytan. Standardvärde: None
|
Returer
| Typ | Description |
|---|---|
|
Ett DatasetSnapshot-objekt. |
Kommentarer
Ögonblicksbilder samlar in sammanfattningsstatistik för tidpunkten för underliggande data och en valfri kopia av själva data. Mer information om hur du skapar ögonblicksbilder finns i https://aka.ms/azureml/howto/createsnapshots.
deprecate
Inaktuell datauppsättning med en pekare till den nya datauppsättningen.
deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)
Parametrar
| Name | Description |
|---|---|
|
deprecate_by_dataset_id
Obligatorisk
|
Det datamängds-ID som ansvarar för utfasningen av den aktuella datamängden. |
|
deprecated_by_definition_version
|
Den datamängdsdefinitionsversion som ansvarar för utfasningen av den aktuella datamängdsdefinitionen. Standardvärde: None
|
Returer
| Typ | Description |
|---|---|
|
Ingen. |
Kommentarer
Inaktuella datamängdsdefinitioner loggar varningar när de används. Om du vill blockera en datamängdsdefinition helt från att förbrukas arkiverar du den.
Om en datamängdsdefinition är inaktuell av misstag använder du reactivate den för att aktivera den.
reactivate
Återaktivera datauppsättningsdefinitionen.
Fungerar med datauppsättningsdefinitioner som har föråldrats eller arkiverats.
reactivate()
Returer
| Typ | Description |
|---|---|
|
Ingen. |
to_pandas_dataframe
Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datamängdsdefinitionen.
to_pandas_dataframe()
Returer
| Typ | Description |
|---|---|
|
En Pandas DataFrame. |
Kommentarer
Returnera en Pandas DataFrame som är helt materialiserad i minnet.
to_spark_dataframe
Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.
to_spark_dataframe()
Returer
| Typ | Description |
|---|---|
|
En Spark-dataram. |
Kommentarer
Spark-dataramen som returneras är bara en körningsplan och innehåller inga data, eftersom Spark Dataframes utvärderas lazily.