Dela via


OutputTabularDatasetConfig Klass

Representerar hur du kopierar utdata från en körning och höjs upp som en TabularDataset.

Initiera en OutputTabularDatasetConfig.

Konstruktor

OutputTabularDatasetConfig(**kwargs)

Kommentarer

Du bör inte anropa konstruktorn direkt, utan i stället skapa en OutputFileDatasetConfig och sedan anropa motsvarande read_* metoder för att konvertera den till en OutputTabularDatasetConfig.

Det sätt på vilket utdata kopieras till målet för en OutputTabularDatasetConfig är samma som en OutputFileDatasetConfig. Skillnaden mellan dem är att datauppsättningen som skapas är en TabularDataset som innehåller alla angivna transformeringar.

Metoder

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_mount

Ange läget för utdata till montering.

För monteringsläge är utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

drop_columns

Släpp de angivna kolumnerna från datauppsättningen.

keep_columns

Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen.

random_split

Dela upp poster i datamängden i två delar slumpmässigt och ungefär enligt den angivna procentandelen.

De resulterande utdatakonfigurationerna kommer att få sina namn ändrade, den första kommer att ha _1 bifogad till namnet och den andra kommer att ha _2 tillagt till namnet. Om det orsakar en namnkollision eller om du vill ange ett anpassat namn anger du deras namn manuellt.

as_input

Ange hur utdata ska användas som indata i efterföljande pipelinesteg.

as_input(name=None)

Parametrar

Name Description
name
Obligatorisk
str

Namnet på de indata som är specifika för körningen.

Returer

Typ Description

En DatasetConsumptionConfig instans som beskriver hur du levererar indata.

as_mount

Ange läget för utdata till montering.

För monteringsläge är utdatakatalogen en FUSE-monterad katalog. Filer som skrivs till den monterade katalogen laddas upp när filen stängs.

as_mount()

Returer

Typ Description

En OutputTabularDatasetConfig instans med läge inställt på montering.

as_upload

Ange läget för utdata som ska laddas upp.

För uppladdningsläge laddas filer som skrivs till utdatakatalogen upp i slutet av jobbet. Om jobbet misslyckas eller avbryts laddas inte utdatakatalogen upp.

as_upload(overwrite=False, source_globs=None)

Parametrar

Name Description
overwrite
Obligatorisk

Om du vill skriva över filer som redan finns i målet.

source_globs
Obligatorisk

Globmönster som används för att filtrera filer som ska laddas upp.

Returer

Typ Description

En OutputTabularDatasetConfig instans med läget inställt på uppladdning.

drop_columns

Släpp de angivna kolumnerna från datauppsättningen.

drop_columns(columns)

Parametrar

Name Description
columns
Obligatorisk

Namnet eller en lista med namn som kolumnerna ska släppa.

Returer

Typ Description

En OutputTabularDatasetConfig instans som kolumnerna ska släppa med.

keep_columns

Behåll de angivna kolumnerna och ta bort alla andra från datauppsättningen.

keep_columns(columns)

Parametrar

Name Description
columns
Obligatorisk

Namnet eller en lista med namn som kolumnerna ska behålla.

Returer

Typ Description

En OutputTabularDatasetConfig instans som kolumner ska behållas med.

random_split

Dela upp poster i datamängden i två delar slumpmässigt och ungefär enligt den angivna procentandelen.

De resulterande utdatakonfigurationerna kommer att få sina namn ändrade, den första kommer att ha _1 bifogad till namnet och den andra kommer att ha _2 tillagt till namnet. Om det orsakar en namnkollision eller om du vill ange ett anpassat namn anger du deras namn manuellt.

random_split(percentage, seed=None)

Parametrar

Name Description
percentage
Obligatorisk

Den ungefärliga procentandelen som datamängden ska delas med. Det måste vara ett tal mellan 0,0 och 1,0.

seed
Obligatorisk
int

Valfritt frö att använda för den slumpmässiga generatorn.

Returer

Typ Description

Returnerar en tupplar med två OutputTabularDatasetConfig-objekt som representerar de två datauppsättningarna efter delningen.