TabularDataset Klass
Representerar en tabelldatauppsättning som ska användas i Azure Machine Learning.
En TabularDataset definierar en serie lazily-utvärderade, oföränderliga åtgärder för att läsa in data från datakällan till tabellrepresentation. Data läses inte in från källan förrän TabularDataset uppmanas att leverera data.
TabularDataset skapas med metoder som from_delimited_files från TabularDatasetFactory klassen.
Mer information finns i artikeln Lägg till och registrera datamängder. Information om hur du kommer igång med en tabelldatauppsättning finns i https://aka.ms/tabulardataset-samplenotebook.
Initiera ett TabularDataset-objekt.
Konstruktorn ska inte anropas direkt. Datauppsättningen är avsedd att skapas med hjälp av TabularDatasetFactory klassen.
Konstruktor
TabularDataset()
Kommentarer
En TabularDataset kan skapas från CSV-, TSV-, Parquet-filer eller SQL-frågor med hjälp from_* av klassens TabularDatasetFactory metoder. Du kan utföra delinställningar på en TabularDataset som att dela, hoppa över och filtrera poster.
Resultatet av delmängden är alltid ett eller flera nya TabularDataset-objekt.
Du kan också konvertera en TabularDataset till andra format som en Pandas DataFrame. Den faktiska datainläsningen sker när TabularDataset uppmanas att leverera data till en annan lagringsmekanism (t.ex. en Pandas-dataram eller en CSV-fil).
TabularDataset kan användas som indata för en experimentkörning. Den kan också registreras på arbetsytan med ett angivet namn och hämtas med det namnet senare.
Metoder
| download |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Ladda ned filströmmar som definierats av datauppsättningen till den lokala sökvägen. |
| drop_columns |
Släpp de angivna kolumnerna från datauppsättningen. Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen. |
| filter |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Filtrera data och lämna endast de poster som matchar det angivna uttrycket. |
| get_profile |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Hämta dataprofil från den senaste profilkörningen som skickats för den här eller samma datauppsättning på arbetsytan. |
| get_profile_runs |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Returnera tidigare profilkörningar som är associerade med den här eller samma datauppsättning på arbetsytan. |
| keep_columns |
Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen. Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen. |
| mount |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Skapa en kontexthanterare för montering av filströmmar som definieras av datauppsättningen som lokala filer. |
| partition_by |
Partitionerade data kopieras och matas ut till målet som anges av målet. skapa datauppsättningen från den utdatasökvägen med partitionsformat, registrera datauppsättningen om namnet anges, returnera datauppsättningen för den nya datasökvägen med partitioner
|
| random_split |
Dela upp poster i datamängden i två delar slumpmässigt och ungefär enligt den angivna procentandelen. Den första datamängden innehåller ungefär |
| skip |
Hoppa över poster överst i datamängden med det angivna antalet. |
| submit_profile_run |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Skicka en experimenteringskörning för att beräkna dataprofilen. En dataprofil kan vara mycket användbar för att förstå indata, identifiera avvikelser och saknade värden genom att tillhandahålla användbar information om data som kolumntyp, saknade värden osv. |
| take |
Ta ett exempel på poster överst i datamängden med det angivna antalet. |
| take_sample |
Ta ett slumpmässigt urval av poster i datamängden ungefär med den angivna sannolikheten. |
| time_after |
Filtrera TabularDataset med tidsstämpelkolumner efter en angiven starttid. |
| time_before |
Filtrera TabularDataset med tidsstämpelkolumner före en angiven sluttid. |
| time_between |
Filtrera TabularDataset mellan en angiven start- och sluttid. |
| time_recent |
Filtrera TabularDataset så att den endast innehåller den angivna varaktigheten (mängden) senaste data. |
| to_csv_files |
Konvertera den aktuella datamängden till en FileDataset som innehåller CSV-filer. Den resulterande datamängden innehåller en eller flera CSV-filer som var och en motsvarar en partition av data från den aktuella datamängden. Dessa filer materialiseras inte förrän de laddas ned eller läss från. |
| to_dask_dataframe |
Anmärkning Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry. Returnera en Dask DataFrame som lätt kan läsa data i datauppsättningen. |
| to_pandas_dataframe |
Läs in alla poster från datamängden till en Pandas DataFrame. |
| to_parquet_files |
Konvertera den aktuella datamängden till en FileDataset som innehåller Parquet-filer. Den resulterande datamängden innehåller en eller flera Parquet-filer som var och en motsvarar en partition av data från den aktuella datamängden. Dessa filer materialiseras inte förrän de laddas ned eller läss från. |
| to_spark_dataframe |
Läs in alla poster från datamängden till en Spark DataFrame. |
| with_timestamp_columns |
Definiera tidsstämpelkolumner för datauppsättningen. |
download
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Ladda ned filströmmar som definierats av datauppsättningen till den lokala sökvägen.
download(stream_column, target_path=None, overwrite=False, ignore_not_found=True)
Parametrar
| Name | Description |
|---|---|
|
stream_column
Obligatorisk
|
Dataströmkolumnen som ska laddas ned. |
|
target_path
Obligatorisk
|
Den lokala katalog som filerna ska laddas ned till. Om Ingen laddas data ned till en tillfällig katalog. |
|
overwrite
Obligatorisk
|
Anger om befintliga filer ska skrivas över. Standardvärdet är False. Befintliga filer skrivs över om överskrivning har angetts till Sant. annars utlöses ett undantag. |
|
ignore_not_found
Obligatorisk
|
Anger om nedladdningen ska misslyckas om vissa filer som pekas på av datauppsättningen inte hittas. Standardvärdet är Sant. Nedladdningen misslyckas om någon filhämtning misslyckas av någon anledning om ignore_not_found är inställd på False. annars loggas en waring för fel som inte hittas och dowload lyckas så länge inga andra feltyper påträffas. |
Returer
| Typ | Description |
|---|---|
|
Returnerar en matris med filsökvägar för varje fil som laddas ned. |
drop_columns
Släpp de angivna kolumnerna från datauppsättningen.
Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.
drop_columns(columns)
Parametrar
| Name | Description |
|---|---|
|
columns
Obligatorisk
|
Namnet eller en lista med namn som kolumnerna ska släppa. |
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt TabularDataset-objekt med de angivna kolumnerna borttagna. |
filter
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Filtrera data och lämna endast de poster som matchar det angivna uttrycket.
filter(expression)
Parametrar
| Name | Description |
|---|---|
|
expression
Obligatorisk
|
Uttrycket som ska utvärderas. |
Returer
| Typ | Description |
|---|---|
|
Den ändrade datamängden (avregistrerad). |
Kommentarer
Uttryck startas genom att datauppsättningen indexeras med namnet på en kolumn. De stöder en mängd olika funktioner och operatorer och kan kombineras med hjälp av logiska operatorer. Det resulterande uttrycket utvärderas lättsinnigt för varje post när en datahämtning inträffar och inte där den definieras.
dataset['myColumn'] > dataset['columnToCompareAgainst']
dataset['myColumn'].starts_with('prefix')
get_profile
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Hämta dataprofil från den senaste profilkörningen som skickats för den här eller samma datauppsättning på arbetsytan.
get_profile(workspace=None)
Parametrar
| Name | Description |
|---|---|
|
workspace
Obligatorisk
|
Arbetsytan där profilkörningen skickades. Standardvärdet är arbetsytan för den här datamängden. Krävs om datauppsättningen inte är associerad med en arbetsyta. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace information om arbetsytor finns i. |
Returer
| Typ | Description |
|---|---|
|
Profilresultat från den senaste profilkörningen av typen DatasetProfile. |
get_profile_runs
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Returnera tidigare profilkörningar som är associerade med den här eller samma datauppsättning på arbetsytan.
get_profile_runs(workspace=None)
Parametrar
| Name | Description |
|---|---|
|
workspace
Obligatorisk
|
Arbetsytan där profilkörningen skickades. Standardvärdet är arbetsytan för den här datamängden. Krävs om datauppsättningen inte är associerad med en arbetsyta. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.workspace.workspace information om arbetsytor finns i. |
Returer
| Typ | Description |
|---|---|
|
iteratorobjekt av typen azureml.core.Run. |
keep_columns
Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen.
Om en tidsseriekolumn tas bort tas även motsvarande funktioner bort för den returnerade datauppsättningen.
keep_columns(columns, validate=False)
Parametrar
| Name | Description |
|---|---|
|
columns
Obligatorisk
|
Namnet eller en lista med namn som kolumnerna ska behålla. |
|
validate
Obligatorisk
|
Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är False. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt TabularDataset-objekt med endast de angivna kolumnerna bevarade. |
mount
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Skapa en kontexthanterare för montering av filströmmar som definieras av datauppsättningen som lokala filer.
mount(stream_column, mount_point=None)
Parametrar
| Name | Description |
|---|---|
|
stream_column
Obligatorisk
|
Dataströmkolumnen som ska monteras. |
|
mount_point
Obligatorisk
|
Den lokala katalog som filerna ska monteras på. Om Ingen monteras data i en tillfällig katalog, som du kan hitta genom att anropa metoden MountContext.mount_point instans. |
Returer
| Typ | Description |
|---|---|
|
<xref:azureml.dataprep.fuse.daemon.MountContext>
|
Returnerar en kontexthanterare för att hantera monteringens livscykel. |
partition_by
Partitionerade data kopieras och matas ut till målet som anges av målet.
skapa datauppsättningen från den utdatasökvägen med partitionsformat, registrera datauppsättningen om namnet anges, returnera datauppsättningen för den nya datasökvägen med partitioner
ds = Dataset.get_by_name('test') # indexed by country, state, partition_date
# #1: call partition_by locally
new_ds = ds.partition_by(name="repartitioned_ds", partition_keys=['country'],
target=DataPath(datastore, "repartition"))
partition_keys = newds.partition_keys # ['country']
# new_ds can be passed to PRS as input dataset
partition_by(partition_keys, target, name=None, show_progress=True, partition_as_file_dataset=False)
Parametrar
| Name | Description |
|---|---|
|
partition_keys
Obligatorisk
|
Krävs, partitionsnycklar |
|
target
Obligatorisk
|
Krävs, den datalagersökväg där dataramen parquet-data laddas upp till. En guid-mapp genereras under målsökvägen för att undvika konflikter. |
|
name
Obligatorisk
|
Valfritt, Registreringsnamnet. |
|
show_progress
Obligatorisk
|
Valfritt anger om du vill visa förloppet för uppladdningen i konsolen. Standardvärdet är Sant. |
|
partition_as_file_dataset
Obligatorisk
|
Valfritt anger om returnerar en fildatauppsättning eller inte. Standardvärdet är Falskt. |
Returer
| Typ | Description |
|---|---|
|
Den sparade eller registrerade datamängden. |
random_split
Dela upp poster i datamängden i två delar slumpmässigt och ungefär enligt den angivna procentandelen.
Den första datamängden innehåller ungefär percentage av de totala posterna och den andra datamängden de återstående posterna.
random_split(percentage, seed=None)
Parametrar
| Name | Description |
|---|---|
|
percentage
Obligatorisk
|
Den ungefärliga procentandelen som datamängden ska delas med. Det måste vara ett tal mellan 0,0 och 1,0. |
|
seed
Obligatorisk
|
Valfritt frö att använda för den slumpmässiga generatorn. |
Returer
| Typ | Description |
|---|---|
|
Returnerar en tupplar med nya TabularDataset-objekt som representerar de två datauppsättningarna efter delningen. |
skip
Hoppa över poster överst i datamängden med det angivna antalet.
skip(count)
Parametrar
| Name | Description |
|---|---|
|
count
Obligatorisk
|
Antalet poster som ska hoppa över. |
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt TabularDataset-objekt som representerar en datauppsättning med överhoppade poster. |
submit_profile_run
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Skicka en experimenteringskörning för att beräkna dataprofilen.
En dataprofil kan vara mycket användbar för att förstå indata, identifiera avvikelser och saknade värden genom att tillhandahålla användbar information om data som kolumntyp, saknade värden osv.
submit_profile_run(compute_target, experiment, cache_datastore_name=None)
Parametrar
| Name | Description |
|---|---|
|
compute_target
Obligatorisk
|
Beräkningsmålet som profilberäkningsexperimentet ska köras på. Ange "lokal" för att använda lokal beräkning. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.computetarget information om beräkningsmål finns i. |
|
experiment
Obligatorisk
|
Experimentobjektet. Mer https://docs.microsoft.com/en-us/python/api/azureml-core/azureml.core.experiment.experiment information om experiment finns i. |
|
cache_datastore_name
Obligatorisk
|
namnet på datalagret för att lagra profilcacheminnet, om inget används standarddatalagret |
Returer
| Typ | Description |
|---|---|
|
Ett objekt av typen DatasetProfileRun-klass. |
take
Ta ett exempel på poster överst i datamängden med det angivna antalet.
take(count)
Parametrar
| Name | Description |
|---|---|
|
count
Obligatorisk
|
Antalet poster att ta. |
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt TabularDataset-objekt som representerar den exempelbaserade datamängden. |
take_sample
Ta ett slumpmässigt urval av poster i datamängden ungefär med den angivna sannolikheten.
take_sample(probability, seed=None)
Parametrar
| Name | Description |
|---|---|
|
probability
Obligatorisk
|
Sannolikheten för att en post inkluderas i urvalet. |
|
seed
Obligatorisk
|
Valfritt frö att använda för den slumpmässiga generatorn. |
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt TabularDataset-objekt som representerar den exempelbaserade datamängden. |
time_after
Filtrera TabularDataset med tidsstämpelkolumner efter en angiven starttid.
time_after(start_time, include_boundary=True, validate=True)
Parametrar
| Name | Description |
|---|---|
|
start_time
Obligatorisk
|
Den nedre gränsen för filtrering av data. |
|
include_boundary
Obligatorisk
|
Ange om raden som är associerad med gränstiden ( |
|
validate
Obligatorisk
|
Anger om du vill verifiera om angivna kolumner finns i datauppsättningen. Standardvärdet är Sant. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
Returer
| Typ | Description |
|---|---|
|
En TabularDataset med den nya filtrerade datauppsättningen. |
time_before
Filtrera TabularDataset med tidsstämpelkolumner före en angiven sluttid.
time_before(end_time, include_boundary=True, validate=True)
Parametrar
| Name | Description |
|---|---|
|
end_time
Obligatorisk
|
Övre gräns för filtrering av data. |
|
include_boundary
Obligatorisk
|
Ange om raden som är associerad med gränstiden ( |
|
validate
Obligatorisk
|
Anger om du vill verifiera om angivna kolumner finns i datauppsättningen. Standardvärdet är Sant. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
Returer
| Typ | Description |
|---|---|
|
En TabularDataset med den nya filtrerade datauppsättningen. |
time_between
Filtrera TabularDataset mellan en angiven start- och sluttid.
time_between(start_time, end_time, include_boundary=True, validate=True)
Parametrar
| Name | Description |
|---|---|
|
start_time
Obligatorisk
|
Nedre gräns för filtrering av data. |
|
end_time
Obligatorisk
|
Den övre gränsen för filtrering av data. |
|
include_boundary
Obligatorisk
|
Ange om raden som är associerad med gränstiden ( |
|
validate
Obligatorisk
|
Anger om du vill verifiera om angivna kolumner finns i datauppsättningen. Standardvärdet är Sant. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
Returer
| Typ | Description |
|---|---|
|
En TabularDataset med den nya filtrerade datauppsättningen. |
time_recent
Filtrera TabularDataset så att den endast innehåller den angivna varaktigheten (mängden) senaste data.
time_recent(time_delta, include_boundary=True, validate=True)
Parametrar
| Name | Description |
|---|---|
|
time_delta
Obligatorisk
|
Varaktigheten (mängden) för de senaste data som ska hämtas. |
|
include_boundary
Obligatorisk
|
Ange om raden som är associerad med gränstiden ( |
|
validate
Obligatorisk
|
Anger om du vill verifiera om angivna kolumner finns i datauppsättningen. Standardvärdet är Sant. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
Returer
| Typ | Description |
|---|---|
|
En TabularDataset med den nya filtrerade datauppsättningen. |
to_csv_files
Konvertera den aktuella datamängden till en FileDataset som innehåller CSV-filer.
Den resulterande datamängden innehåller en eller flera CSV-filer som var och en motsvarar en partition av data från den aktuella datamängden. Dessa filer materialiseras inte förrän de laddas ned eller läss från.
to_csv_files(separator=',')
Parametrar
| Name | Description |
|---|---|
|
separator
Obligatorisk
|
Avgränsaren som ska användas för att separera värden i den resulterande filen. |
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt FileDataset-objekt med en uppsättning CSV-filer som innehåller data i den här datamängden. |
to_dask_dataframe
Anmärkning
Det här är en experimentell metod och kan ändras när som helst. Mer information finns i https://aka.ms/acr/connected-registry.
Returnera en Dask DataFrame som lätt kan läsa data i datauppsättningen.
to_dask_dataframe(sample_size=10000, dtypes=None, on_error='null', out_of_range_datetime='null')
Parametrar
| Name | Description |
|---|---|
|
sample_size
Obligatorisk
|
Antalet poster som ska läsas för att fastställa schema och typer. |
|
dtypes
Obligatorisk
|
En valfri diktering som anger de förväntade kolumnerna och deras dtypes. sample_size ignoreras om detta anges. |
|
on_error
Obligatorisk
|
Hantera eventuella felvärden i datamängden, till exempel de som genereras av ett fel vid parsning av värden. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag. |
|
out_of_range_datetime
Obligatorisk
|
Hantera datum-tid-värden som ligger utanför det intervall som stöds av Pandas. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag. |
Returer
| Typ | Description |
|---|---|
|
dask.dataframe.core.DataFrame |
to_pandas_dataframe
Läs in alla poster från datamängden till en Pandas DataFrame.
to_pandas_dataframe(on_error='null', out_of_range_datetime='null')
Parametrar
| Name | Description |
|---|---|
|
on_error
Obligatorisk
|
Hantera eventuella felvärden i datamängden, till exempel de som genereras av ett fel vid parsning av värden. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag. |
|
out_of_range_datetime
Obligatorisk
|
Hantera datum-tid-värden som ligger utanför det intervall som stöds av Pandas. Giltiga värden är "null" som ersätter dem med null. och "fail" vilket resulterar i ett undantag. |
Returer
| Typ | Description |
|---|---|
|
Returnerar en Pandas DataFrame. |
to_parquet_files
Konvertera den aktuella datamängden till en FileDataset som innehåller Parquet-filer.
Den resulterande datamängden innehåller en eller flera Parquet-filer som var och en motsvarar en partition av data från den aktuella datamängden. Dessa filer materialiseras inte förrän de laddas ned eller läss från.
to_parquet_files()
Returer
| Typ | Description |
|---|---|
|
Returnerar ett nytt FileDataset-objekt med en uppsättning Parquet-filer som innehåller data i den här datamängden. |
to_spark_dataframe
Läs in alla poster från datamängden till en Spark DataFrame.
to_spark_dataframe()
Returer
| Typ | Description |
|---|---|
|
Returnerar en Spark DataFrame. |
with_timestamp_columns
Definiera tidsstämpelkolumner för datauppsättningen.
with_timestamp_columns(timestamp=None, partition_timestamp=None, validate=False, **kwargs)
Parametrar
| Name | Description |
|---|---|
|
timestamp
Obligatorisk
|
Namnet på kolumnen som tidsstämpel (används för att kallas fine_grain_timestamp) (valfritt). Standardvärdet är None(clear). |
|
partition_timestamp
Obligatorisk
|
Namnet på kolumn partition_timestamp (används för att kallas för grov korntidsstämpel) (valfritt). Standardvärdet är None(clear). |
|
validate
Obligatorisk
|
Anger om du vill verifiera om angivna kolumner finns i datauppsättningen. Standardvärdet är False. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
Returer
| Typ | Description |
|---|---|
|
Returnerar en ny TabularDataset med tidsstämpelkolumner definierade. |
Kommentarer
Metoden definierar kolumner som ska användas som tidsstämplar. Tidsstämpelkolumner på en datauppsättning gör det möjligt att behandla data som tidsseriedata och aktivera ytterligare funktioner. När en datauppsättning har båda timestamp (used to be referred as fine_grain_timestamp) och partition_timestamp (used to be referred as coarse grain timestamp) angivna bör de två kolumnerna representera samma tidslinje.