Dela via


Förbereda data för uppgifter med visuellt innehåll med automatiserad maskininlärning v1

GÄLLER FÖR:Azure Machine Learning SDK v1 för Python

Viktigt!

Viktigt!

Några av Azure CLI-kommandona i den här artikeln använder azure-cli-mltillägget , eller v1, för Azure Machine Learning. Stödet för CLI v1 upphörde den 30 september 2025. Microsoft tillhandahåller inte längre teknisk support eller uppdateringar för den här tjänsten. Dina befintliga arbetsflöden med CLI v1 fortsätter att fungera efter supportdatumet. De kan dock utsättas för säkerhetsrisker eller förändringar som bryter kompatibiliteten vid arkitektoniska förändringar i produkten.

Vi rekommenderar att du övergår till mltillägget , eller v2, så snart som möjligt. Mer information om v2-tillägget finns i Azure Machine Learning CLI-tillägget och Python SDK v2.

Viktigt!

Den här artikeln innehåller information om hur du använder Azure Machine Learning SDK v1. SDK v1 är inaktuell från och med den 31 mars 2025. Stödet för det upphör den 30 juni 2026. Du kan installera och använda SDK v1 fram till det datumet. Dina befintliga arbetsflöden med SDK v1 fortsätter att fungera efter supportdatumet. De kan dock utsättas för säkerhetsrisker eller förändringar som bryter kompatibiliteten vid arkitektoniska förändringar i produkten.

Vi rekommenderar att du övergår till SDK v2 före den 30 juni 2026. Mer information om SDK v2 finns i Vad är Azure Machine Learning CLI och Python SDK v2? och SDK v2-referensen.

Viktigt!

Stöd för att träna modeller för visuellt innehåll med automatiserad ML i Azure Machine Learning är en experimentell offentlig förhandsversionsfunktion. Vissa funktioner kanske inte stöds eller kan vara begränsade. Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

I den här artikeln får du lära dig hur du förbereder bilddata för att träna modeller för visuellt innehåll med automatiserad maskininlärning i Azure Machine Learning.

För att generera modeller för uppgifter med visuellt innehåll med AutoML måste du ta med etiketterade bilddata som indata för modellträning i form av en Azure Machine Learning TabularDataset.

För att säkerställa att din TabularDataset innehåller det godkända schemat för förbrukning i automatiserad ML kan du använda dataetikettsverktyget för Azure Machine Learning eller använda ett konverteringsskript.

Förutsättningar

Azure Machine Learning-dataetiketter

Om du inte har märkt data kan du använda Azure Machine Learnings dataetikettverktyg för att manuellt märka bilder. Det här verktyget genererar automatiskt de data som krävs för träning i godkänt format.

Det hjälper till att skapa, hantera och övervaka dataetiketter för

  • Bildklassificering (flera klasser och flera etiketter)
  • Objektidentifiering (avgränsningsruta)
  • Instanssegmentering (polygon)

Om du redan har ett projekt för dataetiketter och vill använda dessa data kan du exportera dina märkta data som en Azure Machine Learning TabularDataset, som sedan kan användas direkt med automatiserad ML för att träna modeller för visuellt innehåll.

Använda konverteringsskript

Om du har märkt data i populära dataformat för visuellt innehåll, till exempel VOC eller COCO, finns hjälpskript för att generera JSONL-filer för tränings- och valideringsdata tillgängliga i notebook-exempel.

Om dina data inte följer något av de tidigare nämnda formaten kan du använda ditt eget skript för att generera JSON Lines-filer. Om du vill generera JSON Lines-filer använder du scheman som definierats i Schema för JSONL-filer för AutoML-bildexperiment.

När dina datafiler har konverterats till det godkända JSONL-formatet kan du ladda upp dem till ditt lagringskonto i Azure.

Ladda upp JSONL-filen och avbildningarna till lagring

Om du vill använda data för automatiserad ML-träning laddar du upp data till din Azure Machine Learning-arbetsyta via ett datalager. Datalagringen ger dig en mekanism för att ladda upp/ladda ned data till lagring i Azure och interagera med dem från dina fjärrberäkningsmål.

Ladda upp hela den överordnade katalogen som består av bilder och JSONL-filer till det standarddatalager som skapas automatiskt när arbetsytan skapas. Det här dataarkivet ansluter till standardcontainern för Azure Blob Storage som skapades när arbetsytan skapades.

# Retrieve default datastore that's automatically created when we setup a workspace
ds = ws.get_default_datastore()
ds.upload(src_dir='./fridgeObjects', target_path='fridgeObjects')

När datauppladdningen är klar kan du skapa en Azure Machine Learning TabularDataset. Registrera sedan datauppsättningen på din arbetsyta för framtida användning som indata till dina automatiserade ML-experiment för modeller för visuellt innehåll.

from azureml.core import Dataset
from azureml.data import DataType

training_dataset_name = 'fridgeObjectsTrainingDataset'
# create training dataset
training_dataset = Dataset.Tabular.from_json_lines_files(path=ds.path("fridgeObjects/train_annotations.jsonl"),
                                                         set_column_types={"image_url": DataType.to_stream(ds.workspace)}
                                                        )
training_dataset = training_dataset.register( workspace=ws,name=training_dataset_name)

print("Training dataset name: " + training_dataset.name)

Nästa steg