DatasetDefinition Klass

Definierar en serie steg som anger hur du läser och transformerar data i en datauppsättning.

Anmärkning

Den här klassen är inaktuell. Mer information finns i https://aka.ms/dataset-deprecation.

En datauppsättning som är registrerad på en Azure Machine Learning-arbetsyta kan ha flera definitioner som var och en skapas genom att anropa update_definition. Varje definition har en unik identifierare. Den aktuella definitionen är den senaste som skapats.

För oregistrerade datauppsättningar finns det bara en definition.

Datauppsättningsdefinitioner stöder alla transformeringar som anges för <xref:azureml.dataprep.Dataflow> klassen: se http://aka.ms/azureml/howto/transformdata. Om du vill veta mer om datauppsättningsdefinitioner går du till https://aka.ms/azureml/howto/versiondata.

Initiera datamängdsdefinitionsobjektet.

Konstruktor

DatasetDefinition(workspace=None, dataset_id=None, version_id=None, dataflow=None, dataflow_json=None, notes=None, etag=None, created_time=None, modified_time=None, state=None, deprecated_by_dataset_id=None, deprecated_by_definition_version=None, data_path=None, dataset=None, file_type='Unknown')

Parametrar

Name	Description
workspace Obligatorisk	str Arbetsytan som datauppsättningen är registrerad i.
dataset_id Obligatorisk	str Datauppsättningsidentifieraren.
version_id Obligatorisk	str Definitionsversionen.
dataflow Obligatorisk	str Dataflödesobjektet.
dataflow_json Obligatorisk	Dataflödes-json.
notes Obligatorisk	str Valfri information om definitionen.
etag Obligatorisk	str Etag.
created_time Obligatorisk	datetime Skapandetiden för definitionen.
modified_time Obligatorisk	datetime Den senaste ändrade tiden för definitionen.
deprecated_by_dataset_id Obligatorisk	str ID:t för datauppsättningen som inaktuella den här definitionen.
deprecated_by_definition_version Obligatorisk	str Den version av definitionen som inaktuella den här definitionen.
data_path Obligatorisk	DataPath Datasökvägen.
dataset Obligatorisk	Dataset Det överordnade datamängdsobjektet.

Metoder

archive	Arkivera datauppsättningsdefinitionen.
create_snapshot	Skapa en ögonblicksbild av den registrerade datauppsättningen.
deprecate	Inaktuell datauppsättning med en pekare till den nya datauppsättningen.
reactivate	Återaktivera datauppsättningsdefinitionen. Fungerar med datauppsättningsdefinitioner som har föråldrats eller arkiverats.
to_pandas_dataframe	Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datamängdsdefinitionen.
to_spark_dataframe	Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.

create_snapshot

Skapa en ögonblicksbild av den registrerade datauppsättningen.

create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)

Parametrar

Name	Description
snapshot_name Obligatorisk	str Namnet på ögonblicksbilden. Namn på ögonblicksbilder bör vara unika i en datauppsättning.
compute_target	ComputeTarget eller str Beräkningsmålet för att skapa ögonblicksbildsprofilen. Om den utelämnas används den lokala beräkningen. Standardvärde: None
create_data_snapshot	bool Om sant skapas en materialiserad kopia av data. Standardvärde: False
target_datastore	Union[AbstractAzureStorageDatastore, str] Måldatalagringen där ögonblicksbilden ska sparas. Om den utelämnas skapas ögonblicksbilden i standardlagringen för arbetsytan. Standardvärde: None

Returer

Typ	Description
DatasetSnapshot	Ett DatasetSnapshot-objekt.

Kommentarer

Ögonblicksbilder samlar in sammanfattningsstatistik för tidpunkten för underliggande data och en valfri kopia av själva data. Mer information om hur du skapar ögonblicksbilder finns i https://aka.ms/azureml/howto/createsnapshots.

deprecate

Inaktuell datauppsättning med en pekare till den nya datauppsättningen.

deprecate(deprecate_by_dataset_id, deprecated_by_definition_version=None)

Parametrar

Name	Description
deprecate_by_dataset_id Obligatorisk	uuid Det datamängds-ID som ansvarar för utfasningen av den aktuella datamängden.
deprecated_by_definition_version	str Den datamängdsdefinitionsversion som ansvarar för utfasningen av den aktuella datamängdsdefinitionen. Standardvärde: None

Returer

Typ	Description
None	Ingen.

Kommentarer

Inaktuella datamängdsdefinitioner loggar varningar när de används. Om du vill blockera en datamängdsdefinition helt från att förbrukas arkiverar du den.

Om en datamängdsdefinition är inaktuell av misstag använder du reactivate den för att aktivera den.

reactivate

Återaktivera datauppsättningsdefinitionen.

Fungerar med datauppsättningsdefinitioner som har föråldrats eller arkiverats.

reactivate()

Returer

Typ	Description
None	Ingen.

to_pandas_dataframe

Skapa en Pandas-dataram genom att köra transformeringspipelinen som definieras av den här datamängdsdefinitionen.

to_pandas_dataframe()

Returer

Typ	Description
DataFrame	En Pandas DataFrame.

Kommentarer

Returnera en Pandas DataFrame som är helt materialiserad i minnet.

to_spark_dataframe

Skapa en Spark DataFrame som kan köra transformeringspipelinen som definieras av det här dataflödet.

to_spark_dataframe()

Returer

Typ	Description
DataFrame	En Spark-dataram.

Kommentarer

Spark-dataramen som returneras är bara en körningsplan och innehåller inga data, eftersom Spark Dataframes utvärderas lazily.

Feedback

Var den här sidan till hjälp?

Dela via

DatasetDefinition Klass

Konstruktor

Parametrar

Metoder

archive

Returer

Kommentarer

create_snapshot

Parametrar

Returer

Kommentarer

deprecate

Parametrar

Returer

Kommentarer

reactivate

Returer

to_pandas_dataframe

Returer

Kommentarer

to_spark_dataframe

Returer

Kommentarer

Feedback