AbstractDataset Klass

Basklass för datauppsättningar i Azure Machine Learning.

Referera till TabularDatasetFactory klass och FileDatasetFactory klass för att skapa instanser av datamängden.

Konstruktor för klassen AbstractDataset.

Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av TabularDatasetFactory klass och FileDatasetFactory klass.

Konstruktor

AbstractDataset()

Metoder

add_tags	Lägg till nyckelvärdepar i taggarnas ordlista för den här datamängden.
as_named_input	Ange ett namn för den här datamängden som ska användas för att hämta den materialiserade datamängden i körningen.
get_all	Hämta alla registrerade datamängder på arbetsytan.
get_by_id	Hämta en datauppsättning som sparas på arbetsytan.
get_by_name	Hämta en registrerad datauppsättning från arbetsytan med dess registreringsnamn.
get_partition_key_values	Returnera unika nyckelvärden för partition_keys. kontrollera om partition_keys är en giltig delmängd av en fullständig uppsättning partitionsnycklar, returnera unika nyckelvärden för partition_keys, som standard returnerar de unika nyckelkombinationerna genom att ta den fullständiga uppsättningen partitionsnycklar för den här datauppsättningen om partition_keys är Ingen `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registrera datauppsättningen på den angivna arbetsytan.
remove_tags	Ta bort de angivna nycklarna från ordlistan för taggar för den här datamängden.
unregister_all_versions	Avregistrera alla versioner under registreringsnamnet för den här datamängden från arbetsytan.
update	Utför en uppdatering på plats av datauppsättningen.

add_tags

Lägg till nyckelvärdepar i taggarnas ordlista för den här datamängden.

add_tags(tags=None)

Parametrar

Name	Description
tags Obligatorisk	dict[str, str] Ordlistan med taggar som ska läggas till.

Returer

Typ	Description
Union[TabularDataset, FileDataset]	Det uppdaterade datamängdsobjektet.

as_named_input

Ange ett namn för den här datamängden som ska användas för att hämta den materialiserade datamängden i körningen.

as_named_input(name)

Parametrar

Name	Description
name Obligatorisk	str Namnet på datauppsättningen för körningen.

Returer

Typ	Description
DatasetConsumptionConfig	Konfigurationsobjektet som beskriver hur datauppsättningen ska materialiseras i körningen.

Kommentarer

Namnet här gäller endast i en Azure Machine Learning-körning. Namnet får bara innehålla alfanumeriska tecken och understreckstecken så att det kan göras tillgängligt som en miljövariabel. Du kan använda det här namnet för att hämta datauppsättningen i kontexten för en körning med hjälp av två metoder:

Miljövariabel:

Namnet blir miljövariabelnamnet och den materialiserade datamängden görs tillgänglig som värdet för miljövariabeln. Om datauppsättningen laddas ned eller monteras blir värdet den nedladdade/monterade sökvägen. Till exempel:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Anmärkning

Om datauppsättningen är inställd på direktläge blir värdet datamängds-ID. Du kan sedan

hämta datamängdsobjektet genom att göra Dataset.get_by_id(os.environ['foo'])

Run.input_datasets:

Det här är en ordlista där nyckeln är det datauppsättningsnamn som du angav i den här metoden och värdet blir den materialiserade datamängden. För nedladdade och monterade datamängder är värdet den nedladdade/monterade sökvägen. För direktläge är värdet samma datauppsättningsobjekt som du angav i ditt jobböverföringsskript.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Hämta alla registrerade datamängder på arbetsytan.

static get_all(workspace)

Parametrar

Name	Description
workspace Obligatorisk	Workspace Den befintliga AzureML-arbetsytan där datauppsättningarna registrerades.

Returer

Typ	Description
dict[str, Union[TabularDataset, FileDataset]]	En ordlista med TabularDataset- och FileDataset-objekt som är nyckelade efter deras registreringsnamn.

get_by_id

Hämta en datauppsättning som sparas på arbetsytan.

static get_by_id(workspace, id, **kwargs)

Parametrar

Name	Description
workspace Obligatorisk	Workspace Den befintliga AzureML-arbetsytan där datauppsättningen sparas.
id Obligatorisk	str ID:t för datamängden.

Returer

Typ	Description
Union[TabularDataset, FileDataset]	Datamängdsobjektet. Om datauppsättningen registreras returneras även dess registreringsnamn och version.

get_by_name

Hämta en registrerad datauppsättning från arbetsytan med dess registreringsnamn.

static get_by_name(workspace, name, version='latest', **kwargs)

Parametrar

Name	Description
workspace Obligatorisk	Workspace Den befintliga AzureML-arbetsytan där datauppsättningen registrerades.
name Obligatorisk	str Registreringsnamnet.
version Obligatorisk	int Registreringsversionen. Standardvärdet är "senaste".

Returer

Typ	Description
Union[TabularDataset, FileDataset]	Det registrerade datamängdsobjektet.

get_partition_key_values

Returnera unika nyckelvärden för partition_keys.

kontrollera om partition_keys är en giltig delmängd av en fullständig uppsättning partitionsnycklar, returnera unika nyckelvärden för partition_keys, som standard returnerar de unika nyckelkombinationerna genom att ta den fullständiga uppsättningen partitionsnycklar för den här datauppsättningen om partition_keys är Ingen


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parametrar

Name	Description
partition_keys Obligatorisk	list[str] partitionsnycklar

register

Registrera datauppsättningen på den angivna arbetsytan.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parametrar

Name	Description
workspace Obligatorisk	Workspace Arbetsytan för att registrera datauppsättningen.
name Obligatorisk	str Namnet som datauppsättningen ska registreras med.
description Obligatorisk	str En textbeskrivning av datamängden. Standardvärdet är Ingen.
tags Obligatorisk	dict[str, str] Ordlista med nyckelvärdestaggar för att ge datamängden. Standardvärdet är Ingen.
create_new_version Obligatorisk	bool Booleskt värde för att registrera datauppsättningen som en ny version under det angivna namnet.

Returer

Typ	Description
Union[TabularDataset, FileDataset]	Det registrerade datamängdsobjektet.

remove_tags

Ta bort de angivna nycklarna från ordlistan för taggar för den här datamängden.

remove_tags(tags=None)

Parametrar

Name	Description
tags Obligatorisk	list[str] Listan med nycklar att ta bort.

Returer

Typ	Description
Union[TabularDataset, FileDataset]	Det uppdaterade datamängdsobjektet.

unregister_all_versions

Avregistrera alla versioner under registreringsnamnet för den här datamängden från arbetsytan.

unregister_all_versions()

Kommentarer

Åtgärden ändrar inga källdata.

update

Utför en uppdatering på plats av datauppsättningen.

update(description=None, tags=None)

Parametrar

Name	Description
description Obligatorisk	str Den nya beskrivningen som ska användas för datauppsättningen. Den här beskrivningen ersätter den befintliga beskrivningen. Standardvärdet är en befintlig beskrivning. Om du vill rensa beskrivningen anger du en tom sträng.
tags Obligatorisk	dict[str, str] En ordlista med taggar att uppdatera datamängden med. Dessa taggar ersätter befintliga taggar för datauppsättningen. Standardinställningar för befintliga taggar. Om du vill rensa taggar anger du en tom ordlista.

Returer

Typ	Description
Union[TabularDataset, FileDataset]	Det uppdaterade datamängdsobjektet.

Attribut

data_changed_time

Returnera tiden då källdata ändrades.

Returer

Typ	Description
datetime	Den tid då den senaste ändringen skedde för källdata.

Kommentarer

Data ändrad tid är tillgänglig för filbaserad datakälla. Ingen returneras när datakällan inte stöds för att kontrollera när ändringen har skett.

description

Returnera registreringsbeskrivningen.

Returer

Typ	Description
str	Beskrivning av datauppsättning.

id

Returnera datamängdens identifierare.

Returer

Typ	Description
str	Datamängds-ID. Om datauppsättningen inte sparas på någon arbetsyta blir ID:t Ingen.

name

Returnera registreringsnamnet.

Returer

Typ	Description
str	Datauppsättningens namn.

partition_keys

Returnera partitionsnycklarna.

Returer

Typ	Description
list[str]	partitionsnycklarna

Typ	Description
str	Datamängdstaggar.

version

Returnera registreringsversionen.

Returer

Typ	Description
int	Datamängdsversion.

Feedback

Var den här sidan till hjälp?

Dela via

AbstractDataset Klass

Konstruktor

Metoder

add_tags

Parametrar

Returer

as_named_input

Parametrar

Returer

Kommentarer

get_all

Parametrar

Returer

get_by_id

Parametrar

Returer

get_by_name

Parametrar

Returer

get_partition_key_values

Parametrar

register

Parametrar

Returer

remove_tags

Parametrar

Returer

unregister_all_versions

Kommentarer

update

Parametrar

Returer

Attribut

data_changed_time

Returer

Kommentarer

description

Returer

id

Returer

name

Returer

partition_keys

Returer

tags

Returer

version

Returer

Feedback