FileDatasetFactory Klass
Innehåller metoder för att skapa en fildatauppsättning för Azure Machine Learning.
En FileDataset skapas från den from_files metod som definierats i den här klassen.
Mer information om hur du arbetar med fildatauppsättningar finns i notebook-filen https://aka.ms/filedataset-samplenotebook.
Konstruktor
FileDatasetFactory()
Metoder
| from_files |
Skapa en FileDataset som representerar filströmmar. |
| upload_directory |
Skapa en datauppsättning från källkatalogen. |
from_files
Skapa en FileDataset som representerar filströmmar.
static from_files(path, validate=True, partition_format=None, is_file=False)
Parametrar
| Name | Description |
|---|---|
|
path
Obligatorisk
|
|
|
validate
Obligatorisk
|
Anger om du vill verifiera om data kan läsas in från den returnerade datauppsättningen. Standardvärdet är Sant. Validering kräver att datakällan är tillgänglig från den aktuella beräkningen. |
|
partition_format
Obligatorisk
|
Ange partitionsformatet för sökvägen. Standardvärdet är Ingen. Partitionsinformationen för varje sökväg extraheras till kolumner baserat på det angivna formatet. Formatdelen {column_name} skapar strängkolumnen och {column_name:å/MM/dd/HH/mm/ss} skapar datetime-kolumnen, där "åååå", "MM", "dd", "HH", "mm" och "ss" används för att extrahera år, månad, dag, timme, minut och sekund för datumtidstypen. Formatet bör börja från positionen för den första partitionsnyckeln till slutet av filsökvägen. Till exempel med hjälp av sökvägen .. /Accounts/2019/01/01/data.jsonl' där partitionen är efter avdelningsnamn och tid, partition_format='/{Department}/{PartitionDate:yyyy/MM/dd}/data.jsonl' skapar en strängkolumn "Avdelning" med värdet "Konton" och en datetime-kolumn "PartitionDate" med värdet "2019-01-01". |
|
is_file
Obligatorisk
|
Anger om alla indatasökvägar pekar på filer. Datauppsättningsmotorn försöker som standard kontrollera om indatasökvägar pekar på filer. Ställ in den här flaggan på Sant när alla indatasökvägar är Fil för att påskynda skapandet av datauppsättningen. |
Returer
| Typ | Description |
|---|---|
|
Ett FileDataset objekt. |
Kommentarer
from_files skapar ett klassobjekt FileDataset som definierar åtgärderna för att läsa in filströmmar från den angivna sökvägen.
För att data ska kunna nås av Azure Machine Learning måste filerna som anges av path finnas i en Datastore eller vara tillgängliga med offentliga webb-URL:er eller URL:en för Blob, ADLS Gen1 och ADLS Gen2.
användarnas AAD-token används i notebook- eller lokalt Python-program om den anropar någon av följande funktioner direkt: FileDataset.mount FileDataset.download FileDataset.to_path TabularDataset.to_pandas_dataframe TabularDataset.to_dask_dataframe TabularDataset.to_spark_dataframe TabularDataset.to_parquet_files TabularDataset.to_csv_files identiteten för beräkningsmålet används i jobb som skickas av Experiment.submit för dataåtkomstautentisering. Lära sig mer: https://aka.ms/data-access
from azureml.core import Dataset, Datastore
# create file dataset from a single file in datastore
datastore = Datastore.get(workspace, 'workspaceblobstore')
file_dataset_1 = Dataset.File.from_files(path=(datastore,'image/dog.jpg'))
# create file dataset from a single directory in datastore
file_dataset_2 = Dataset.File.from_files(path=(datastore, 'image/'))
# create file dataset from all jpeg files in the directory
file_dataset_3 = Dataset.File.from_files(path=(datastore,'image/**/*.jpg'))
# create filedataset from multiple paths
data_paths = [(datastore, 'image/dog.jpg'), (datastore, 'image/cat.jpg')]
file_dataset_4 = Dataset.File.from_files(path=data_paths)
# create file dataset from url
file_dataset_5 = Dataset.File.from_files(path='https://url/image/cat.jpg')
upload_directory
Skapa en datauppsättning från källkatalogen.
static upload_directory(src_dir, target, pattern=None, overwrite=False, show_progress=True)
Parametrar
| Name | Description |
|---|---|
|
src_dir
Obligatorisk
|
Den lokala katalog som ska laddas upp. |
|
target
Obligatorisk
|
Obligatoriskt är den datalagersökväg där filerna ska laddas upp till. |
|
pattern
Obligatorisk
|
Valfritt, Om det tillhandahålls, filtrerar alla sökvägsnamn som matchar det angivna mönstret, liknande Python-globpaketet, som stöder "*", "?", och teckenintervall uttryckta med []. |
|
show_progress
Obligatorisk
|
Valfritt anger om du vill visa förloppet för uppladdningen i konsolen. Standardvärdet är Sant. |
Returer
| Typ | Description |
|---|---|
|
Den registrerade datauppsättningen. |