Dataset Klas
Vertegenwoordigt een resource voor het verkennen, transformeren en beheren van gegevens in Azure Machine Learning.
Een gegevensset is een verwijzing naar gegevens in een Datastore of achter openbare web-URL's.
Voor methoden die in deze klasse zijn afgeschaft, controleert AbstractDataset u de klasse op de verbeterde API's.
De volgende typen gegevenssets worden ondersteund:
TabularDataset vertegenwoordigt gegevens in tabelvorm die zijn gemaakt door het opgegeven bestand of de lijst met bestanden te parseren.
FileDataset verwijst naar één of meerdere bestanden in gegevensarchieven of vanuit openbare URL's.
Als u aan de slag wilt gaan met gegevenssets, raadpleegt u het artikel Gegevenssets toevoegen en registreren, of raadpleegt u de notebooks https://aka.ms/tabulardataset-samplenotebook en https://aka.ms/filedataset-samplenotebook.
Initialiseer het gegevenssetobject.
Gebruik de get-methode om een gegevensset te verkrijgen die al is geregistreerd bij de werkruimte.
Constructor
Dataset(definition, workspace=None, name=None, id=None)
Parameters
| Name | Description |
|---|---|
|
definition
Vereist
|
<xref:azureml.data.DatasetDefinition>
De definitie van de gegevensset. |
|
workspace
Vereist
|
De werkruimte waarin de gegevensset bestaat. |
|
name
Vereist
|
De naam van de gegevensset. |
|
id
Vereist
|
De unieke id van de gegevensset. |
Opmerkingen
De klasse Gegevensset bevat twee handige klassekenmerken (File en Tabular) die u kunt gebruiken voor het maken van een gegevensset zonder te werken met de bijbehorende factorymethoden. Als u bijvoorbeeld een gegevensset wilt maken met behulp van deze kenmerken:
Dataset.Tabular.from_delimited_files()Dataset.File.from_files()
U kunt ook een nieuwe TabularDataset of FileDataset maken door rechtstreeks de bijbehorende factorymethoden aan te roepen van de klasse die is gedefinieerd in TabularDatasetFactory en FileDatasetFactory.
In het volgende voorbeeld ziet u hoe u een TabularDataset maakt die verwijst naar één pad in een gegevensarchief.
from azureml.core import Dataset
dataset = Dataset.Tabular.from_delimited_files(path = [(datastore, 'train-dataset/tabular/iris.csv')])
# preview the first 3 rows of the dataset
dataset.take(3).to_pandas_dataframe()
Volledig voorbeeld is beschikbaar vanaf https://github.com/Azure/MachineLearningNotebooks/blob/master/how-to-use-azureml/work-with-data/datasets-tutorial/train-with-datasets/train-with-datasets.ipynb
Variabelen
| Name | Description |
|---|---|
|
azureml.core.Dataset.File
|
Een klassekenmerk dat toegang biedt tot de FileDatasetFactory-methoden voor het maken van nieuwe FileDataset-objecten. Gebruik: Dataset.File.from_files(). |
|
azureml.core.Dataset.Tabular
|
Een klassekenmerk dat toegang biedt tot de TabularDatasetFactory-methoden voor het maken van nieuwe TabularDataset-objecten. Gebruik: Dataset.Tabular.from_delimited_files(). |
Methoden
| archive |
Een actieve of afgeschafte gegevensset archiveren. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| auto_read_files |
Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden de Dataset.Tabular.from_*-methoden te gebruiken om bestanden te lezen. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| compare_profiles |
Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel. Hier ziet u de verschillen in overzichtsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'rechts', en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| create_snapshot |
Maak een momentopname van de geregistreerde gegevensset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| delete_snapshot |
Verwijder de momentopname van de gegevensset op naam. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| deprecate |
Een actieve gegevensset in een werkruimte verwijderen door een andere gegevensset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| diff |
Verdeel de huidige gegevensset met rhs_dataset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| from_binary_files |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van binaire bestanden. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.File.from_files te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| from_delimited_files |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van bestanden met scheidingstekens. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_delimited_files te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
|
| from_excel_files |
Maak een niet-geregistreerde gegevensset in het geheugen van Excel-bestanden. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| from_json_files |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van JSON-bestanden. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_json_lines_files te gebruiken om het bestand met JSON-regels te lezen. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| from_pandas_dataframe |
Maak een niet-geregistreerde gegevensset in het geheugen van een pandas-dataframe. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.register_pandas_dataframe te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| from_parquet_files |
Maak een niet-geregistreerde gegevensset in het geheugen van Parquet-bestanden. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_parquet_files te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| from_sql_query |
Maak een niet-geregistreerde gegevensset in het geheugen op basis van een SQL-query. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan Dataset.Tabular.from_sql_query te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| generate_profile |
Genereer een nieuw profiel voor de gegevensset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| get |
Haal een gegevensset op die al bestaat in de werkruimte door de naam of id op te geven. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden dit te gebruiken get_by_name en get_by_id in plaats daarvan. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| get_all |
Haal alle geregistreerde gegevenssets op in de werkruimte. |
| get_all_snapshots |
Haal alle momentopnamen van de gegevensset op. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| get_by_id |
Haal een gegevensset op die wordt opgeslagen in de werkruimte. |
| get_by_name |
Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam. |
| get_definition |
Een specifieke definitie van de gegevensset ophalen. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| get_definitions |
Haal alle definities van de gegevensset op. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| get_profile |
Samenvattingsstatistieken ophalen voor de gegevensset die eerder is berekend. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| get_snapshot |
Haal een momentopname van de gegevensset op naam op. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| head |
Haal het opgegeven aantal records op dat is opgegeven uit deze gegevensset en retourneert deze als een DataFrame. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| list |
Geef alle gegevenssets in de werkruimte weer, inclusief gegevenssets met Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan te gebruiken get_all . Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| reactivate |
Een gearchiveerde of afgeschafte gegevensset opnieuw activeren. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| register |
Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. U wordt aangeraden in plaats daarvan te gebruiken register . Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| sample |
Genereer een nieuw voorbeeld van de brongegevensset met behulp van de opgegeven steekproefstrategie en parameters. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en de methode daar te take_sample gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| to_pandas_dataframe |
Maak een Pandas-dataframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en de methode daar te to_pandas_dataframe gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| to_spark_dataframe |
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze definitie van de gegevensset. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en de methode daar te to_spark_dataframe gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| update |
Werk de onveranderbare kenmerken van de gegevensset in de werkruimte bij en retourneer de bijgewerkte gegevensset uit de werkruimte. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
| update_definition |
Werk de definitie van de gegevensset bij. Opmerking Deze methode is afgeschaft en wordt niet meer ondersteund. Zie https://aka.ms/dataset-deprecation voor meer informatie. |
archive
Een actieve of afgeschafte gegevensset archiveren.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
archive()
Retouren
| Type | Description |
|---|---|
|
Geen. |
Opmerkingen
Na archivering leidt elke poging om de gegevensset te gebruiken tot een fout. Als het per ongeluk is gearchiveerd, wordt het opnieuw activeren geactiveerd.
auto_read_files
Analyseert de bestanden op het opgegeven pad en retourneert een nieuwe gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden de Dataset.Tabular.from_*-methoden te gebruiken om bestanden te lezen. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static auto_read_files(path, include_path=False, partition_format=None)
Parameters
| Name | Description |
|---|---|
|
path
Vereist
|
DataReference of
str
Een gegevenspad in een geregistreerd gegevensarchief, een lokaal pad of een HTTP-URL (CSV/TSV). |
|
include_path
Vereist
|
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Handig bij het lezen van meerdere bestanden en wilt weten van welk bestand een bepaalde record afkomstig is. Dit is ook handig als er informatie is in het bestandspad of de gewenste naam in een kolom. |
|
partition_format
Vereist
|
Geef de partitienotatie op in het pad en maak tekenreekskolommen op basis van de notatie {x}, de datum/tijdkolom van de notatie {x:jjjj/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur en seconde voor het datum/tijd-type uit te voegen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van een bestandspad '.. /Accounts/2019/01/01/data.csv' waar gegevens worden gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:jjjj/MM/dd}/data.csv' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken. |
Retouren
| Type | Description |
|---|---|
|
Gegevenssetobject. |
Opmerkingen
Gebruik deze methode wanneer bestandsindelingen en scheidingstekens automatisch worden gedetecteerd.
Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
compare_profiles
Vergelijk het profiel van de huidige gegevensset met een ander gegevenssetprofiel.
Hier ziet u de verschillen in overzichtsstatistieken tussen twee gegevenssets. De parameter 'rhs_dataset' staat voor 'rechts', en is gewoon de tweede gegevensset. De eerste gegevensset (het huidige gegevenssetobject) wordt beschouwd als de 'linkerkant'.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
compare_profiles(rhs_dataset, profile_arguments={}, include_columns=None, exclude_columns=None, histogram_compare_method=HistogramCompareMethod.WASSERSTEIN)
Parameters
| Name | Description |
|---|---|
|
rhs_dataset
Vereist
|
Een tweede gegevensset, ook wel een 'rechterkant' gegevensset genoemd voor comparision. |
|
profile_arguments
Vereist
|
Argumenten voor het ophalen van een specifiek profiel. |
|
include_columns
Vereist
|
Lijst met kolomnamen die moeten worden opgenomen in vergelijking. |
|
exclude_columns
Vereist
|
Lijst met kolomnamen die moeten worden uitgesloten in vergelijking. |
|
histogram_compare_method
Vereist
|
Opsomming van de vergelijkingsmethode, bijvoorbeeld: Wasserstein of Energy |
Retouren
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.api.engineapi.typedefinitions.DataProfileDifference>
|
Verschil tussen de twee gegevenssetprofielen. |
Opmerkingen
Dit geldt alleen voor geregistreerde gegevenssets. Hiermee wordt een uitzondering gegenereerd als het profiel van de huidige gegevensset niet bestaat. Voor niet-geregistreerde gegevenssets gebruikt u de methode profile.compare.
create_snapshot
Maak een momentopname van de geregistreerde gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
create_snapshot(snapshot_name, compute_target=None, create_data_snapshot=False, target_datastore=None)
Parameters
| Name | Description |
|---|---|
|
snapshot_name
Vereist
|
De naam van de momentopname. Namen van momentopnamen moeten uniek zijn binnen een gegevensset. |
|
compute_target
Vereist
|
Optioneel rekendoel om het maken van het momentopnameprofiel uit te voeren. Als u dit weglaat, wordt de lokale berekening gebruikt. |
|
create_data_snapshot
Vereist
|
Indien waar, wordt er een gerealiseerde kopie van de gegevens gemaakt. |
|
target_datastore
Vereist
|
Doelgegevensarchief voor het opslaan van momentopnamen. Als u dit weglaat, wordt de momentopname gemaakt in de standaardopslag van de werkruimte. |
Retouren
| Type | Description |
|---|---|
|
Momentopnameobject van gegevensset. |
Opmerkingen
Momentopnamen leggen overzichtsstatistieken van de onderliggende gegevens vast en een optionele kopie van de gegevens zelf. Voor meer informatie over het maken van momentopnamen gaat u naar https://aka.ms/azureml/howto/createsnapshots.
delete_snapshot
Verwijder de momentopname van de gegevensset op naam.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
delete_snapshot(snapshot_name)
Parameters
| Name | Description |
|---|---|
|
snapshot_name
Vereist
|
De naam van de momentopname. |
Retouren
| Type | Description |
|---|---|
|
Geen. |
Opmerkingen
Gebruik deze optie om opslag vrij te maken die wordt verbruikt door gegevens die zijn opgeslagen in momentopnamen die u niet meer nodig hebt.
deprecate
Een actieve gegevensset in een werkruimte verwijderen door een andere gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
deprecate(deprecate_by_dataset_id)
Parameters
| Name | Description |
|---|---|
|
deprecate_by_dataset_id
Vereist
|
De gegevensset-id die de beoogde vervanging is voor deze gegevensset. |
Retouren
| Type | Description |
|---|---|
|
Geen. |
Opmerkingen
Afgeschafte gegevenssets registreren waarschuwingen wanneer ze worden gebruikt. Als u een gegevensset afwijst, worden alle bijbehorende definities afgeschaft.
Afgeschafte gegevenssets kunnen nog steeds worden gebruikt. Als u volledig wilt voorkomen dat een gegevensset wordt gebruikt, moet u deze archiveren.
Als deze per ongeluk is afgeschaft, wordt het opnieuw activeren geactiveerd.
diff
Verdeel de huidige gegevensset met rhs_dataset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
diff(rhs_dataset, compute_target=None, columns=None)
Parameters
| Name | Description |
|---|---|
|
rhs_dataset
Vereist
|
Een andere gegevensset ook wel gegevensset aan de rechterkant genoemd voor comparision |
|
compute_target
Vereist
|
rekendoel om de diff uit te voeren. Als u dit weglaat, wordt de lokale berekening gebruikt. |
|
columns
Vereist
|
Lijst met kolomnamen die moeten worden opgenomen in diff. |
Retouren
| Type | Description |
|---|---|
|
Object voor het uitvoeren van gegevenssetacties. |
from_binary_files
Maak een niet-geregistreerde gegevensset in het geheugen op basis van binaire bestanden.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.File.from_files te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static from_binary_files(path)
Parameters
| Name | Description |
|---|---|
|
path
Vereist
|
DataReference of
str
Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad. |
Retouren
| Type | Description |
|---|---|
|
Het object Gegevensset. |
Opmerkingen
Gebruik deze methode om bestanden te lezen als stromen binaire gegevens. Retourneert één bestandsstroomobject per bestand gelezen. Gebruik deze methode wanneer u afbeeldingen, video's, audio of andere binaire gegevens leest.
get_profile en create_snapshot werkt niet zoals verwacht voor een gegevensset die door deze methode is gemaakt.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_delimited_files
Maak een niet-geregistreerde gegevensset in het geheugen op basis van bestanden met scheidingstekens.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_delimited_files te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
# Create a dataset from delimited files with header option as ALL_FILES_HAVE_SAME_HEADERS
dataset = Dataset.Tabular.from_delimited_files(path=(datastore, 'data/crime-spring.csv'),
header='ALL_FILES_HAVE_SAME_HEADERS')
df = dataset.to_pandas_dataframe()
static from_delimited_files(path, separator=',', header=PromoteHeadersBehavior.ALL_FILES_HAVE_SAME_HEADERS, encoding=FileEncoding.UTF8, quoting=False, infer_column_types=True, skip_rows=0, skip_mode=SkipLinesBehavior.NO_ROWS, comment=None, include_path=False, archive_options=None, partition_format=None)
Parameters
| Name | Description |
|---|---|
|
path
Vereist
|
DataReference of
str
Een gegevenspad in een geregistreerd gegevensarchief, een lokaal pad of een HTTP-URL. |
|
separator
Vereist
|
Het scheidingsteken dat wordt gebruikt om kolommen te splitsen. |
|
header
Vereist
|
Hiermee bepaalt u hoe kolomkoppen worden gepromoveerd bij het lezen van bestanden. |
|
encoding
Vereist
|
De codering van de bestanden die worden gelezen. |
|
quoting
Vereist
|
Geef op hoe nieuwe regeltekens tussen aanhalingstekens moeten worden verwerkt. De standaardwaarde (Onwaar) is het interpreteren van nieuwe regeltekens als het starten van nieuwe rijen, ongeacht of de nieuwe regeltekens tussen aanhalingstekens staan of niet. Als deze optie is ingesteld op Waar, resulteren nieuwe regeltekens in aanhalingstekens niet in nieuwe rijen en wordt de leessnelheid van bestanden vertraagd. |
|
infer_column_types
Vereist
|
Geeft aan of kolomgegevenstypen worden afgeleid. |
|
skip_rows
Vereist
|
Hoeveel rijen moeten worden overgeslagen in de bestanden die worden gelezen. |
|
skip_mode
Vereist
|
Hiermee bepaalt u hoe rijen worden overgeslagen bij het lezen uit bestanden. |
|
comment
Vereist
|
Teken dat wordt gebruikt om opmerkingenlijnen aan te geven in de bestanden die worden gelezen. Regels die beginnen met deze tekenreeks, worden overgeslagen. |
|
include_path
Vereist
|
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren. |
|
archive_options
Vereist
|
<xref:azureml.dataprep.ArchiveOptions>
Opties voor archiefbestand, inclusief archieftype en invoerglobpatroon. Zip wordt momenteel alleen ondersteund als archieftype. Bijvoorbeeld: opgeven
leest alle bestanden met de naam die eindigt op '10-20.csv' in ZIP. |
|
partition_format
Vereist
|
Geef de partitienotatie op in het pad en maak tekenreekskolommen op basis van de notatie {x}, de datum/tijdkolom van de notatie {x:jjjj/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur en seconde voor het datum/tijd-type uit te voegen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van een bestandspad '.. /Accounts/2019/01/01/data.csv' waar gegevens worden gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:jjjj/MM/dd}/data.csv' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken. |
Retouren
| Type | Description |
|---|---|
|
Gegevenssetobject. |
Opmerkingen
Gebruik deze methode om tekstbestanden met scheidingstekens te lezen wanneer u de gebruikte opties wilt beheren.
Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_excel_files
Maak een niet-geregistreerde gegevensset in het geheugen van Excel-bestanden.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
static from_excel_files(path, sheet_name=None, use_column_headers=False, skip_rows=0, include_path=False, infer_column_types=True, partition_format=None)
Parameters
| Name | Description |
|---|---|
|
path
Vereist
|
DataReference of
str
Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad. |
|
sheet_name
Vereist
|
De naam van het Excel-blad dat moet worden geladen. Standaard lezen we het eerste blad uit elk Excel-bestand. |
|
use_column_headers
Vereist
|
Hiermee bepaalt u of u de eerste rij als kolomkoppen wilt gebruiken. |
|
skip_rows
Vereist
|
Hoeveel rijen moeten worden overgeslagen in de bestanden die worden gelezen. |
|
include_path
Vereist
|
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren. |
|
infer_column_types
Vereist
|
Indien waar, worden kolomgegevenstypen afgeleid. |
|
partition_format
Vereist
|
Geef de partitienotatie op in het pad en maak tekenreekskolommen op basis van de notatie {x}, de datum/tijdkolom van de notatie {x:jjjj/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur en seconde voor het datum/tijd-type uit te voegen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van een bestandspad '.. /Accounts/2019/01/01/data.xlsx' waar gegevens worden gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:jjjj/MM/dd}/data.xlsx' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken. |
Retouren
| Type | Description |
|---|---|
|
Gegevenssetobject. |
Opmerkingen
Gebruik deze methode om Excel-bestanden in .xlsx indeling te lezen. Gegevens kunnen worden gelezen uit één blad in elk Excel-bestand. Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven. De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_json_files
Maak een niet-geregistreerde gegevensset in het geheugen op basis van JSON-bestanden.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_json_lines_files te gebruiken om het bestand met JSON-regels te lezen. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static from_json_files(path, encoding=FileEncoding.UTF8, flatten_nested_arrays=False, include_path=False, partition_format=None)
Parameters
| Name | Description |
|---|---|
|
path
Vereist
|
DataReference of
str
Het pad naar de bestanden of mappen die u wilt laden en parseren. Dit kan een lokaal pad of een Azure Blob-URL zijn. Globbing wordt ondersteund. U kunt bijvoorbeeld het pad = "./data*" gebruiken om alle bestanden met een naam te lezen die begint met "data". |
|
encoding
Vereist
|
De codering van de bestanden die worden gelezen. |
|
flatten_nested_arrays
Vereist
|
De verwerking van geneste matrices van het programma voor eigenschapbeheer. Als u ervoor kiest om geneste JSON-matrices af te vlakken, kan dit leiden tot een veel groter aantal rijen. |
|
include_path
Vereist
|
Of u een kolom wilt opnemen die het pad bevat waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en mogelijk wilt weten van welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren. |
|
partition_format
Vereist
|
Geef de partitienotatie op in het pad en maak tekenreekskolommen op basis van de notatie {x}, de datum/tijdkolom van de notatie {x:jjjj/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur en seconde voor het datum/tijd-type uit te voegen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van een bestandspad '.. /Accounts/2019/01/01/data.json' en gegevens worden gepartitioneerd op afdelingsnaam en -tijd, kunnen we definiëren '/{Department}/{PartitionDate:jjjj/MM/dd}/data.json' om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken. |
Retouren
| Type | Description |
|---|---|
|
Het lokale gegevenssetobject. |
from_pandas_dataframe
Maak een niet-geregistreerde gegevensset in het geheugen van een pandas-dataframe.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.register_pandas_dataframe te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static from_pandas_dataframe(dataframe, path=None, in_memory=False)
Parameters
| Name | Description |
|---|---|
|
dataframe
Vereist
|
Het Pandas DataFrame. |
|
path
Vereist
|
Een gegevenspad in het geregistreerde gegevensarchief of het pad naar de lokale map. |
|
in_memory
Vereist
|
Of het DataFrame uit het geheugen moet worden gelezen in plaats van op schijf te blijven. |
Retouren
| Type | Description |
|---|---|
|
Een gegevenssetobject. |
Opmerkingen
Gebruik deze methode om een Pandas-dataframe te converteren naar een gegevenssetobject. Een gegevensset die door deze methode is gemaakt, kan niet worden geregistreerd, omdat de gegevens afkomstig zijn uit het geheugen.
Als in_memory onwaar is, wordt het Pandas DataFrame lokaal geconverteerd naar een CSV-bestand. Als pat van het type DataReference is, wordt het Pandas-frame geüpload naar het gegevensarchief en wordt de gegevensset gebaseerd op de DataReference. Als 'pad' een lokale map is, wordt de gegevensset gemaakt van het lokale bestand dat niet kan worden verwijderd.
Hiermee wordt een uitzondering gegenereerd als de huidige DataReference geen mappad is.
from_parquet_files
Maak een niet-geregistreerde gegevensset in het geheugen van Parquet-bestanden.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_parquet_files te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static from_parquet_files(path, include_path=False, partition_format=None)
Parameters
| Name | Description |
|---|---|
|
path
Vereist
|
DataReference of
str
Een gegevenspad in een geregistreerd gegevensarchief of een lokaal pad. |
|
include_path
Vereist
|
Of u een kolom wilt opnemen met het pad van het bestand waaruit de gegevens zijn gelezen. Dit is handig wanneer u meerdere bestanden leest en wilt weten van welk bestand een bepaalde record afkomstig is of om nuttige informatie in het bestandspad te bewaren. |
|
partition_format
Vereist
|
Geef de partitienotatie op in het pad en maak tekenreekskolommen op basis van de notatie {x}, de datum/tijdkolom van de notatie {x:jjjj/MM/dd/HH/mm/ss}, waarbij 'jjjj', 'MM', 'dd', 'HH', 'mm' en 'ss' worden gebruikt om jaar, maand, dag, uur en seconde voor het datum/tijd-type uit te voegen. De indeling moet beginnen vanaf de positie van de eerste partitiesleutel tot het einde van het bestandspad. Bijvoorbeeld, op basis van een bestandspad '.. /Accounts/2019/01/01/data.parquet' waarbij gegevens worden gepartitioneerd op afdelingsnaam en -tijd, kunnen we '/{Department}/{PartitionDate:jjjj/MM/dd}/data.parquet' definiëren om kolommen 'Afdeling' van het tekenreekstype en 'PartitionDate' van het datum/tijd-type te maken. |
Retouren
| Type | Description |
|---|---|
|
Gegevenssetobject. |
Opmerkingen
Gebruik deze methode om Parquet-bestanden te lezen.
Nadat u een gegevensset hebt gemaakt, moet u gebruiken get_profile om gedetecteerde kolomtypen en overzichtsstatistieken voor elke kolom weer te geven.
De geretourneerde gegevensset is niet geregistreerd bij de werkruimte.
from_sql_query
Maak een niet-geregistreerde gegevensset in het geheugen op basis van een SQL-query.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan Dataset.Tabular.from_sql_query te gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static from_sql_query(data_source, query)
Parameters
| Name | Description |
|---|---|
|
data_source
Vereist
|
De details van het Azure SQL-gegevensarchief. |
|
query
Vereist
|
De query die moet worden uitgevoerd om gegevens te lezen. |
Retouren
| Type | Description |
|---|---|
|
Het lokale gegevenssetobject. |
generate_profile
Genereer een nieuw profiel voor de gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
generate_profile(compute_target=None, workspace=None, arguments=None)
Parameters
| Name | Description |
|---|---|
|
compute_target
Vereist
|
Een optioneel rekendoel voor het maken van het momentopnameprofiel. Als u dit weglaat, wordt de lokale berekening gebruikt. |
|
workspace
Vereist
|
Werkruimte, vereist voor tijdelijke (niet-geregistreerde) gegevenssets. |
|
arguments
Vereist
|
Profielargumenten. Geldige argumenten zijn:
|
Retouren
| Type | Description |
|---|---|
|
Object voor het uitvoeren van gegevenssetacties. |
Opmerkingen
Synchrone aanroep wordt geblokkeerd totdat deze is voltooid. Roep get_result aan om het resultaat van de actie op te halen.
get
Haal een gegevensset op die al bestaat in de werkruimte door de naam of id op te geven.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden dit te gebruiken get_by_name en get_by_id in plaats daarvan. Zie https://aka.ms/dataset-deprecation voor meer informatie.
static get(workspace, name=None, id=None)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevensset is gemaakt. |
|
name
Vereist
|
De naam van de gegevensset die moet worden opgehaald. |
|
id
Vereist
|
Een unieke id van de gegevensset in de werkruimte. |
Retouren
| Type | Description |
|---|---|
|
De gegevensset met de opgegeven naam of id. |
Opmerkingen
U kunt een van beide opgeven name of id. Er wordt een uitzondering gegenereerd als:
beide
nameenidzijn opgegeven, maar komen niet overeen.de gegevensset met de opgegeven
nameofidkan niet worden gevonden in de werkruimte.
get_all
Haal alle geregistreerde gegevenssets op in de werkruimte.
get_all()
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevenssets zijn geregistreerd. |
Retouren
| Type | Description |
|---|---|
|
Een woordenlijst van TabularDataset- en FileDataset-objecten die zijn gekoppeld aan de naam van de registratie. |
get_all_snapshots
Haal alle momentopnamen van de gegevensset op.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
get_all_snapshots()
Retouren
| Type | Description |
|---|---|
|
Lijst met momentopnamen van gegevenssets. |
get_by_id
Haal een gegevensset op die wordt opgeslagen in de werkruimte.
get_by_id(id, **kwargs)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevensset wordt opgeslagen. |
|
id
Vereist
|
De id van de gegevensset. |
Retouren
| Type | Description |
|---|---|
|
Het gegevenssetobject. Als de gegevensset is geregistreerd, worden ook de registratienaam en -versie geretourneerd. |
get_by_name
Haal een geregistreerde gegevensset op uit de werkruimte op basis van de registratienaam.
get_by_name(name, version='latest', **kwargs)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De bestaande AzureML-werkruimte waarin de gegevensset is geregistreerd. |
|
name
Vereist
|
De registratienaam. |
|
version
Vereist
|
De registratieversie. De standaardwaarde is 'nieuwste'. |
Retouren
| Type | Description |
|---|---|
|
Het geregistreerde gegevenssetobject. |
get_definition
Een specifieke definitie van de gegevensset ophalen.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
get_definition(version_id=None)
Parameters
| Name | Description |
|---|---|
|
version_id
Vereist
|
De versie-id van de definitie van de gegevensset |
Retouren
| Type | Description |
|---|---|
|
De definitie van de gegevensset. |
Opmerkingen
Als version_id dit is opgegeven, probeert Azure Machine Learning de definitie op te halen die overeenkomt met die versie. Als deze versie niet bestaat, wordt er een uitzondering gegenereerd.
Als version_id u dit weglaat, wordt de meest recente versie opgehaald.
get_definitions
Haal alle definities van de gegevensset op.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
get_definitions()
Retouren
| Type | Description |
|---|---|
|
Een woordenlijst met definities van gegevenssets. |
Opmerkingen
Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
get_profile
Samenvattingsstatistieken ophalen voor de gegevensset die eerder is berekend.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
get_profile(arguments=None, generate_if_not_exist=True, workspace=None, compute_target=None)
Parameters
| Name | Description |
|---|---|
|
arguments
Vereist
|
Profielargumenten. |
|
generate_if_not_exist
Vereist
|
Hiermee wordt aangegeven of er een profiel moet worden gegenereerd als dit niet bestaat. |
|
workspace
Vereist
|
Werkruimte, vereist voor tijdelijke (niet-geregistreerde) gegevenssets. |
|
compute_target
Vereist
|
Een rekendoel om de profielactie uit te voeren. |
Retouren
| Type | Description |
|---|---|
|
<xref:azureml.dataprep.DataProfile>
|
DataProfile van de gegevensset. |
Opmerkingen
Voor een gegevensset die is geregistreerd bij een Azure Machine Learning-werkruimte, haalt deze methode een bestaand profiel op dat eerder is gemaakt door aan te roepen get_profile als deze nog geldig is. Profielen worden ongeldig wanneer gewijzigde gegevens worden gedetecteerd in de gegevensset of de argumenten die afwijken van de argumenten get_profile die worden gebruikt toen het profiel werd gegenereerd. Als het profiel niet aanwezig of ongeldig is, generate_if_not_exist wordt bepaald of er een nieuw profiel wordt gegenereerd.
Voor een gegevensset die niet is geregistreerd bij een Azure Machine Learning-werkruimte, wordt deze methode altijd uitgevoerd generate_profile en wordt het resultaat geretourneerd.
get_snapshot
Haal een momentopname van de gegevensset op naam op.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
get_snapshot(snapshot_name)
Parameters
| Name | Description |
|---|---|
|
snapshot_name
Vereist
|
De naam van de momentopname. |
Retouren
| Type | Description |
|---|---|
|
Momentopnameobject van gegevensset. |
head
Haal het opgegeven aantal records op dat is opgegeven uit deze gegevensset en retourneert deze als een DataFrame.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
head(count)
Parameters
| Name | Description |
|---|---|
|
count
Vereist
|
Het aantal records dat moet worden opgehaald. |
Retouren
| Type | Description |
|---|---|
|
Een Pandas DataFrame. |
list
Geef alle gegevenssets in de werkruimte weer, inclusief gegevenssets met is_visible een eigenschap die gelijk is aan Onwaar.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan te gebruiken get_all . Zie https://aka.ms/dataset-deprecation voor meer informatie.
static list(workspace)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De werkruimte waarvoor u de lijst met gegevenssets wilt ophalen. |
Retouren
| Type | Description |
|---|---|
|
Een lijst met gegevenssetobjecten. |
reactivate
Een gearchiveerde of afgeschafte gegevensset opnieuw activeren.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
reactivate()
Retouren
| Type | Description |
|---|---|
|
Geen. |
register
Registreer de gegevensset in de werkruimte, zodat deze beschikbaar is voor andere gebruikers van de werkruimte.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
U wordt aangeraden in plaats daarvan te gebruiken register . Zie https://aka.ms/dataset-deprecation voor meer informatie.
register(workspace, name, description=None, tags=None, visible=True, exist_ok=False, update_if_exist=False)
Parameters
| Name | Description |
|---|---|
|
workspace
Vereist
|
De AzureML-werkruimte waarin de gegevensset moet worden geregistreerd. |
|
name
Vereist
|
De naam van de gegevensset in de werkruimte. |
|
description
Vereist
|
Een beschrijving van de gegevensset. |
|
tags
Vereist
|
Tags die moeten worden gekoppeld aan de gegevensset. |
|
visible
Vereist
|
Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface. Als onwaar is, wordt de gegevensset verborgen in de gebruikersinterface en beschikbaar via SDK. |
|
exist_ok
Vereist
|
Als waar is, retourneert de methode de gegevensset als deze al bestaat in de opgegeven werkruimte, anders fout. |
|
update_if_exist
Vereist
|
Als |
Retouren
| Type | Description |
|---|---|
|
Een geregistreerd gegevenssetobject in de werkruimte. |
sample
Genereer een nieuw voorbeeld van de brongegevensset met behulp van de opgegeven steekproefstrategie en parameters.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en de methode daar te take_sample gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
sample(sample_strategy, arguments)
Parameters
| Name | Description |
|---|---|
|
sample_strategy
Vereist
|
Voorbeeldstrategie die moet worden gebruikt. Geaccepteerde waarden zijn 'top_n', 'simple_random' of 'gelaagd'. |
|
arguments
Vereist
|
Een woordenlijst met sleutels uit het argument Optioneel in de bovenstaande lijst en waarden uit de kolom Type. Alleen argumenten van de bijbehorende steekproefmethode kunnen worden gebruikt. Voor een voorbeeldtype 'simple_random' kunt u bijvoorbeeld alleen een woordenlijst opgeven met de sleutels waarschijnlijkheid en seed. |
Retouren
| Type | Description |
|---|---|
|
Gegevenssetobject als voorbeeld van de oorspronkelijke gegevensset. |
Opmerkingen
Voorbeelden worden gegenereerd door de transformatiepijplijn uit te voeren die door deze gegevensset is gedefinieerd en vervolgens de steekproefstrategie en parameters toe te passen op de uitvoergegevens. Elke steekproefmethode ondersteunt de volgende optionele argumenten:
top_n
Optionele argumenten
- n, typ geheel getal. Selecteer de bovenste N rijen als voorbeeld.
simple_random
Optionele argumenten
kans, type float. Eenvoudige willekeurige steekproeven waarbij elke rij gelijke kans heeft om te worden geselecteerd. De kans moet een getal tussen 0 en 1 zijn.
zaad, type float. Wordt gebruikt door generator voor willekeurige getallen. Gebruik deze functie voor herhaalbaarheid.
stratified
Optionele argumenten
kolommen, type list[str]. Lijst met strata-kolommen in de gegevens.
zaad, type float. Wordt gebruikt door generator voor willekeurige getallen. Gebruik deze functie voor herhaalbaarheid.
breuken, type dict[tuple, float]. Tuple: kolomwaarden die een stratum definiëren, moeten zich in dezelfde volgorde bevinden als kolomnamen. Float: gewicht dat tijdens de steekproeven aan een stratum is gekoppeld.
De volgende codefragmenten zijn voorbeeldontwerppatronen voor verschillende voorbeeldmethoden.
# sample_strategy "top_n"
top_n_sample_dataset = dataset.sample('top_n', {'n': 5})
# sample_strategy "simple_random"
simple_random_sample_dataset = dataset.sample('simple_random', {'probability': 0.3, 'seed': 10.2})
# sample_strategy "stratified"
fractions = {}
fractions[('THEFT',)] = 0.5
fractions[('DECEPTIVE PRACTICE',)] = 0.2
# take 50% of records with "Primary Type" as THEFT and 20% of records with "Primary Type" as
# DECEPTIVE PRACTICE into sample Dataset
sample_dataset = dataset.sample('stratified', {'columns': ['Primary Type'], 'fractions': fractions})
to_pandas_dataframe
Maak een Pandas-dataframe door de transformatiepijplijn uit te voeren die is gedefinieerd door deze definitie van de gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en de methode daar te to_pandas_dataframe gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
to_pandas_dataframe()
Retouren
| Type | Description |
|---|---|
|
Een Pandas DataFrame. |
Opmerkingen
Retourneert een Pandas DataFrame volledig gerealiseerd in het geheugen.
to_spark_dataframe
Maak een Spark DataFrame waarmee de transformatiepijplijn kan worden uitgevoerd die is gedefinieerd door deze definitie van de gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Maak een TabularDataset door de statische methoden op Dataset.Tabular aan te roepen en de methode daar te to_spark_dataframe gebruiken. Zie https://aka.ms/dataset-deprecation voor meer informatie.
to_spark_dataframe()
Retouren
| Type | Description |
|---|---|
|
Een Spark DataFrame. |
Opmerkingen
Het geretourneerde Spark Dataframe is alleen een uitvoeringsplan en bevat geen gegevens, omdat Spark Dataframes lazily worden geëvalueerd.
update
Werk de onveranderbare kenmerken van de gegevensset in de werkruimte bij en retourneer de bijgewerkte gegevensset uit de werkruimte.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
update(name=None, description=None, tags=None, visible=None)
Parameters
| Name | Description |
|---|---|
|
name
Vereist
|
De naam van de gegevensset in de werkruimte. |
|
description
Vereist
|
Een beschrijving van de gegevens. |
|
tags
Vereist
|
Tags waaraan de gegevensset moet worden gekoppeld. |
|
visible
Vereist
|
Geeft aan of de gegevensset zichtbaar is in de gebruikersinterface. |
Retouren
| Type | Description |
|---|---|
|
Een bijgewerkt gegevenssetobject uit de werkruimte. |
update_definition
Werk de definitie van de gegevensset bij.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
update_definition(definition, definition_update_message)
Parameters
| Name | Description |
|---|---|
|
definition
Vereist
|
De nieuwe definitie van deze gegevensset. |
|
definition_update_message
Vereist
|
Het bericht over het bijwerken van de definitie. |
Retouren
| Type | Description |
|---|---|
|
Een bijgewerkt gegevenssetobject uit de werkruimte. |
Opmerkingen
Als u de bijgewerkte gegevensset wilt gebruiken, gebruikt u het object dat door deze methode wordt geretourneerd.
Kenmerken
definition
Retourneert de huidige definitie van de gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
Retouren
| Type | Description |
|---|---|
|
De definitie van de gegevensset. |
Opmerkingen
Een definitie van een gegevensset is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.
Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. Als u meerdere definities hebt, kunt u wijzigingen aanbrengen in bestaande gegevenssets zonder modellen en pijplijnen die afhankelijk zijn van de oudere definitie.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
definition_version
Retourneert de versie van de huidige definitie van de gegevensset.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
Retouren
| Type | Description |
|---|---|
|
De definitieversie van de gegevensset. |
Opmerkingen
Een definitie van een gegevensset is een reeks stappen die aangeven hoe gegevens moeten worden gelezen en getransformeerd.
Een gegevensset die is geregistreerd in een AzureML-werkruimte kan meerdere definities hebben, die elk zijn gemaakt door aan te roepen update_definition. Elke definitie heeft een unieke id. De huidige definitie is de meest recente definitie die is gemaakt, waarvan de id wordt geretourneerd door deze.
Voor niet-geregistreerde gegevenssets bestaat slechts één definitie.
description
Retourneert de beschrijving van de gegevensset.
Retouren
| Type | Description |
|---|---|
|
De beschrijving van de gegevensset. |
Opmerkingen
Door een beschrijving van de gegevens in de gegevensset op te geven, kunnen gebruikers van de werkruimte begrijpen wat de gegevens vertegenwoordigen en hoe ze deze kunnen gebruiken.
id
Als de gegevensset is geregistreerd in een werkruimte, retourneert u de id van de gegevensset. Anders retourneert u Geen.
Retouren
| Type | Description |
|---|---|
|
De gegevensset-id. |
is_visible
De zichtbaarheid van een geregistreerde gegevensset beheren in de gebruikersinterface van de Azure ML-werkruimte.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
Retouren
| Type | Description |
|---|---|
|
De zichtbaarheid van de gegevensset. |
Opmerkingen
Geretourneerde waarden:
Waar: De gegevensset is zichtbaar in de gebruikersinterface van de werkruimte. Verstek.
Onwaar: de gegevensset is verborgen in de gebruikersinterface van de werkruimte.
Heeft geen effect op niet-geregistreerde gegevenssets.
name
state
Hiermee wordt de status van de gegevensset geretourneerd.
Opmerking
Deze methode is afgeschaft en wordt niet meer ondersteund.
Zie https://aka.ms/dataset-deprecation voor meer informatie.
Retouren
| Type | Description |
|---|---|
|
De status van de gegevensset. |
Opmerkingen
De betekenis en het effect van statussen zijn als volgt:
Actief. Actieve definities zijn precies hoe ze klinken, alle acties kunnen worden uitgevoerd op actieve definities.
Afgeschreven Afgeschafte definitie kan worden gebruikt, maar resulteert in een waarschuwing die wordt geregistreerd in de logboeken telkens wanneer de onderliggende gegevens worden geopend.
Gearchiveerde. Een gearchiveerde definitie kan niet worden gebruikt om een actie uit te voeren. Als u acties wilt uitvoeren op een gearchiveerde definitie, moet deze opnieuw worden geactiveerd.
tags
workspace
Als de gegevensset is geregistreerd in een werkruimte, retourneert u die. Anders retourneert u Geen.
Retouren
| Type | Description |
|---|---|
|
De werkruimte. |
Tabular
Factory voor het maken FileDataset
alias van TabularDatasetFactory