AbstractDataset Klas

Basisklasse van gegevenssets in Azure Machine Learning.

Verwijs naar TabularDatasetFactory klasse en FileDatasetFactory klasse om exemplaren van de gegevensset te maken.

Klasse AbstractDataset-constructor.

Deze constructor mag niet rechtstreeks worden aangeroepen. De gegevensset is bedoeld om te worden gemaakt met klasse TabularDatasetFactory en FileDatasetFactory klasse.

Constructor

AbstractDataset()

Methoden

add_tags	Voeg sleutel-waardeparen toe aan de tagswoordenlijst van deze gegevensset.
as_named_input	Geef een naam op voor deze gegevensset die wordt gebruikt voor het ophalen van de gerealiseerde gegevensset in de uitvoering.
get_all	Haal alle geregistreerde gegevenssets op in de werkruimte.
get_by_id	Haal een gegevensset op die wordt opgeslagen in de werkruimte.
get_by_name	Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.
get_partition_key_values	Retourneert unieke sleutelwaarden van partition_keys. controleert of partition_keys een geldige subset van een volledige set partitiesleutels is, unieke sleutelwaarden van partition_keys retourneert. Standaard wordt de unieke sleutelcombinaties geretourneerd door de volledige set partitiesleutels van deze gegevensset te gebruiken als partition_keys Geen is `# get all partition key value pairs partitions = ds.get_partition_key_values() # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}] partitions = ds.get_partition_key_values(['country']) # Return [{'country': 'US'}]`
register	Registreer de gegevensset bij de opgegeven werkruimte.
remove_tags	Verwijder de opgegeven sleutels uit de tagswoordenlijst van deze gegevensset.
unregister_all_versions	Hef de registratie van alle versies op onder de registratienaam van deze gegevensset uit de werkruimte.
update	Voer een in-place update van de gegevensset uit.

add_tags

Voeg sleutel-waardeparen toe aan de tagswoordenlijst van deze gegevensset.

add_tags(tags=None)

Parameters

Name	Description
tags Vereist	dict[str, str] De woordenlijst met tags die u wilt toevoegen.

Retouren

Type	Description
Union[TabularDataset, FileDataset]	Het bijgewerkte gegevenssetobject.

as_named_input

Geef een naam op voor deze gegevensset die wordt gebruikt voor het ophalen van de gerealiseerde gegevensset in de uitvoering.

as_named_input(name)

Parameters

Name	Description
name Vereist	str De naam van de gegevensset voor de uitvoering.

Retouren

Type	Description
DatasetConsumptionConfig	Het configuratieobject waarin wordt beschreven hoe de gegevensset in de uitvoering moet worden gerealiseerd.

Opmerkingen

De naam hier is alleen van toepassing in een Azure Machine Learning-uitvoering. De naam mag alleen alfanumerieke en onderstrepingstekens bevatten, zodat deze beschikbaar kan worden gesteld als een omgevingsvariabele. U kunt deze naam gebruiken om de gegevensset op te halen in de context van een uitvoering met behulp van twee benaderingen:

Omgevingsvariabele:

De naam is de naam van de omgevingsvariabele en de gerealiseerde gegevensset wordt beschikbaar gesteld als de waarde van de omgevingsvariabele. Als de gegevensset is gedownload of gekoppeld, wordt de waarde het gedownloade/gekoppelde pad. Voorbeeld:


   # in your job submission notebook/script:
   dataset.as_named_input('foo').as_download('/tmp/dataset')

   # in the script that will be executed in the run
   import os
   path = os.environ['foo'] # path will be /tmp/dataset

Opmerking

Als de gegevensset is ingesteld op de directe modus, is de waarde de gegevensset-id. Vervolgens kunt u

het gegevenssetobject ophalen door Dataset.get_by_id(os.environ['foo'])

Run.input_datasets:

Dit is een woordenlijst waarin de sleutel de naam van de gegevensset is die u in deze methode hebt opgegeven en de waarde de gerealiseerde gegevensset is. Voor gedownloade en gekoppelde gegevenssets is de waarde het gedownloade/gekoppelde pad. Voor de directe modus is de waarde hetzelfde gegevenssetobject dat u hebt opgegeven in het script voor het indienen van taken.


   # in your job submission notebook/script:
   dataset.as_named_input('foo') # direct mode

   # in the script that will be executed in the run
   run = Run.get_context()
   run.input_datasets['foo'] # this returns the dataset object from above.

get_all

Haal alle geregistreerde gegevenssets op in de werkruimte.

static get_all(workspace)

Parameters

Name	Description
workspace Vereist	Workspace De bestaande AzureML-werkruimte waarin de gegevenssets zijn geregistreerd.

Retouren

Type	Description
dict[str, Union[TabularDataset, FileDataset]]	Een woordenlijst van TabularDataset- en FileDataset-objecten die zijn gekoppeld aan de naam van de registratie.

get_by_id

Haal een gegevensset op die wordt opgeslagen in de werkruimte.

static get_by_id(workspace, id, **kwargs)

Parameters

Name	Description
workspace Vereist	Workspace De bestaande AzureML-werkruimte waarin de gegevensset wordt opgeslagen.
id Vereist	str De id van de gegevensset.

Retouren

Type	Description
Union[TabularDataset, FileDataset]	Het gegevenssetobject. Als de gegevensset is geregistreerd, worden ook de registratienaam en -versie geretourneerd.

get_by_name

Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.

static get_by_name(workspace, name, version='latest', **kwargs)

Parameters

Name	Description
workspace Vereist	Workspace De bestaande AzureML-werkruimte waarin de gegevensset is geregistreerd.
name Vereist	str De registratienaam.
version Vereist	int De registratieversie. De standaardwaarde is 'nieuwste'.

Retouren

Type	Description
Union[TabularDataset, FileDataset]	Het geregistreerde gegevenssetobject.

get_partition_key_values

Retourneert unieke sleutelwaarden van partition_keys.

controleert of partition_keys een geldige subset van een volledige set partitiesleutels is, unieke sleutelwaarden van partition_keys retourneert. Standaard wordt de unieke sleutelcombinaties geretourneerd door de volledige set partitiesleutels van deze gegevensset te gebruiken als partition_keys Geen is


   # get all partition key value pairs
   partitions = ds.get_partition_key_values()
   # Return [{'country': 'US', 'state': 'WA', 'partition_date': datetime('2020-1-1')}]

   partitions = ds.get_partition_key_values(['country'])
   # Return [{'country': 'US'}]

get_partition_key_values(partition_keys=None)

Parameters

Name	Description
partition_keys Vereist	list[str] partitiesleutels

register

Registreer de gegevensset bij de opgegeven werkruimte.

register(workspace, name, description=None, tags=None, create_new_version=False)

Parameters

Name	Description
workspace Vereist	Workspace De werkruimte voor het registreren van de gegevensset.
name Vereist	str De naam waarmee de gegevensset moet worden geregistreerd.
description Vereist	str Een tekstbeschrijving van de gegevensset. Standaardwaarde is Geen.
tags Vereist	dict[str, str] Woordenlijst met sleutelwaardetags om de gegevensset te geven. Standaardwaarde is Geen.
create_new_version Vereist	bool Booleaanse waarde voor het registreren van de gegevensset als een nieuwe versie onder de opgegeven naam.

Retouren

Type	Description
Union[TabularDataset, FileDataset]	Het geregistreerde gegevenssetobject.

remove_tags

Verwijder de opgegeven sleutels uit de tagswoordenlijst van deze gegevensset.

remove_tags(tags=None)

Parameters

Name	Description
tags Vereist	list[str] De lijst met sleutels die u wilt verwijderen.

Retouren

Type	Description
Union[TabularDataset, FileDataset]	Het bijgewerkte gegevenssetobject.

unregister_all_versions

Hef de registratie van alle versies op onder de registratienaam van deze gegevensset uit de werkruimte.

unregister_all_versions()

Opmerkingen

De bewerking wijzigt geen brongegevens.

update

Voer een in-place update van de gegevensset uit.

update(description=None, tags=None)

Parameters

Name	Description
description Vereist	str De nieuwe beschrijving die moet worden gebruikt voor de gegevensset. Deze beschrijving vervangt de bestaande beschrijving. Standaard ingesteld op bestaande beschrijving. Als u de beschrijving wilt wissen, voert u een lege tekenreeks in.
tags Vereist	dict[str, str] Een woordenlijst met tags waarmee de gegevensset kan worden bijgewerkt. Deze tags vervangen bestaande tags voor de gegevensset. Standaard ingesteld op bestaande tags. Als u tags wilt wissen, voert u een lege woordenlijst in.

Retouren

Type	Description
Union[TabularDataset, FileDataset]	Het bijgewerkte gegevenssetobject.

Kenmerken

data_changed_time

Retourneer de gewijzigde tijd van de brongegevens.

Retouren

Type	Description
datetime	Het tijdstip waarop de meest recente wijziging is gebeurd met brongegevens.

Opmerkingen

Gewijzigde tijd voor gegevens is beschikbaar voor gegevensbron op basis van bestanden. Er wordt geen geretourneerd wanneer de gegevensbron niet wordt ondersteund om te controleren wanneer er wijzigingen zijn opgetreden.

description

Retourneer de beschrijving van de registratie.

Retouren

Type	Description
str	Beschrijving van gegevensset.

id

Retourneert de id van de gegevensset.

Retouren

Type	Description
str	Gegevensset-id. Als de gegevensset niet wordt opgeslagen in een werkruimte, is de id Geen.

name

Geef de registratienaam als resultaat.

Retouren

Type	Description
str	Naam van gegevensset.

partition_keys

Retourneer de partitiesleutels.

Retouren

Type	Description
list[str]	de partitiesleutels

Type	Description
str	Tags van gegevenssets.

version

Retourneer de registratieversie.

Retouren

Type	Description
int	Gegevenssetversie.

Feedback

Is deze pagina nuttig?

Delen via

AbstractDataset Klas

Constructor

Methoden

add_tags

Parameters

Retouren

as_named_input

Parameters

Retouren

Opmerkingen

get_all

Parameters

Retouren

get_by_id

Parameters

Retouren

get_by_name

Parameters

Retouren

get_partition_key_values

Parameters

register

Parameters

Retouren

remove_tags

Parameters

Retouren

unregister_all_versions

Opmerkingen

update

Parameters

Retouren

Kenmerken

data_changed_time

Retouren

Opmerkingen

description

Retouren

id

Retouren

name

Retouren

partition_keys

Retouren

tags

Retouren

version

Retouren

Feedback