Dela via


Analysera data med Azure Machine Learning

I den här handledningen används Azure Machine Learning-designern för att bygga en prediktiv maskininlärningsmodell. Modellen baseras på data som lagras i Azure Synapse. Scenariot för självstudiekursen är att förutsäga om en kund sannolikt kommer att köpa en cykel eller inte så att Adventure Works, cykelbutiken, kan bygga en riktad marknadsföringskampanj.

Förutsättningar

To step through this tutorial, you need:

Get the data

De data som används finns i vyn dbo.vTargetMail i AdventureWorksDW. Om du vill använda Datastore i den här självstudien exporteras data först till Azure Data Lake Storage-kontot eftersom Azure Synapse för närvarande inte stöder datauppsättningar. Azure Data Factory kan användas för att exportera data från informationslagret till Azure Data Lake Storage med hjälp av kopieringsaktiviteten. Använd följande fråga för import:

SELECT [CustomerKey]
  ,[GeographyKey]
  ,[CustomerAlternateKey]
  ,[MaritalStatus]
  ,[Gender]
  ,cast ([YearlyIncome] as int) as SalaryYear
  ,[TotalChildren]
  ,[NumberChildrenAtHome]
  ,[EnglishEducation]
  ,[EnglishOccupation]
  ,[HouseOwnerFlag]
  ,[NumberCarsOwned]
  ,[CommuteDistance]
  ,[Region]
  ,[Age]
  ,[BikeBuyer]
FROM [dbo].[vTargetMail]

När data är tillgängliga i Azure Data Lake Storage används datalager i Azure Machine Learning för att ansluta till Azure Storage-tjänster. Följ stegen nedan för att skapa ett datalager och en motsvarande datauppsättning:

  1. Starta Azure Machine Learning-studio antingen från Azure Portal eller logga in på Azure Machine Learning-studio.

  2. Klicka på Datalager i det vänstra fönstret i avsnittet Hantera och klicka sedan på Nytt datalager.

    Skärmbild av det vänstra fönstret i Azure Machine Learning-gränssnittet

  3. Ange ett namn för dataarkivet, välj typen som "Azure Blob Storage", ange plats och autentiseringsuppgifter. Klicka på Skapa.

  4. Klicka sedan på Datauppsättningar i den vänstra rutan i avsnittet Tillgångar . Välj Skapa datauppsättning med alternativet Från datalager.

  5. Ange namnet på datauppsättningen och välj den typ som ska vara Tabell. Klicka sedan på Nästa för att gå vidare.

  6. I avsnittet Välj eller skapa ett datalager väljer du alternativet Tidigare skapat datalager. Välj det datalager som skapades tidigare. Klicka på Nästa och ange sökvägen och filinställningarna. Se till att ange kolumnrubriken om filerna innehåller en.

  7. Klicka slutligen på Skapa för att skapa datauppsättningen.

Configure designer experiment

Följ sedan stegen nedan för designerkonfiguration:

  1. Klicka på fliken Designer i det vänstra fönstret i avsnittet Författare .

  2. Välj Lättanvända fördefinierade komponenter för att skapa en ny pipeline.

  3. I inställningsfönstret till höger anger du namnet på pipelinen.

  4. Also, select a target compute cluster for the whole experiment in settings button to a previously provisioned cluster. Stäng fönstret Inställningar.

Importera datan

  1. Välj underfliken Datauppsättningar i det vänstra fönstret under sökrutan.

  2. Dra datauppsättningen som du skapade tidigare till arbetsytan.

    Skärmdump av datasetkomponenten på arbetsytan.

Clean the data

Rensa data genom att släppa kolumner som inte är relevanta för modellen. Följ stegen nedan:

  1. Välj underfliken Komponenter i den vänstra rutan.

  2. Dra komponenten Select Columns in Dataset (Välj kolumner i datauppsättning) under Datatransformeringsmanipulering < till arbetsytan. Anslut den här komponenten till Dataset-komponenten.

    Skärmbild av kolumnvalskomponenten på arbetsytan.

  3. Klicka på komponenten för att öppna egenskapsfönstret. Klicka på Redigera kolumn för att ange vilka kolumner du vill släppa.

  4. Exkludera två kolumner: CustomerAlternateKey och GeographyKey. Klicka på Spara

    Skärmbild som visar kolumner som tas bort.

Bygga modellen

Data delas 80–20: 80 % för att träna en maskininlärningsmodell och 20 % för att testa modellen. "Tvåklassalgoritmer" används i det här binära klassificeringsproblemet.

  1. Dra Split Data-komponenten till arbetsytan.

  2. I egenskapsfönstret anger du 0,8 för Bråk av rader i den första utdatauppsättningen.

    Skärmbild som visar delningsförhållandet på 0,8.

  3. Drag the Two-Class Boosted Decision Tree component into the canvas.

  4. Drag the Train Model component into the canvas. Specify inputs by connecting it to the Two-Class Boosted Decision Tree (ML algorithm) and Split Data (data to train the algorithm on) components.

  5. For Train Model model, in Label column option in the Properties pane, select Edit column. Välj kolumnen BikeBuyer som kolumn för att förutsäga och välj Spara.

    Skärmbild som visar etikettkolumnen BikeBuyer, vald.

    Screenshot showing Train Model component connected to Two-Class Boosted Decision Tree and Split Data components.

Utvärdera modellen

Testa nu hur modellen fungerar på testdata. Två olika algoritmer jämförs för att se vilken som presterar bättre. Följ stegen nedan:

  1. Drag Score Model component into the canvas and connect it to Train Model and Split Data components.

  2. Drag the Two-Class Bayes Averaged Perceptron into the experiment canvas. You'll compare how this algorithm performs in comparison to the Two-Class Boosted Decision Tree.

  3. Copy and paste the components Train Model and Score Model in the canvas.

  4. Dra komponenten Utvärdera modell till arbetsytan för att jämföra de två algoritmerna.

  5. Click submit to set up the pipeline run.

    Skärmbild av alla återstående komponenter på arbetsytan.

  6. När körningen är klar högerklickar du på komponenten Utvärdera modell och klickar på Visualisera utvärderingsresultat.

    Skärmbild av resultatet.

De mått som anges är ROC-kurvan, precisionsåterkallningsdiagrammet och lyftkurvan. Titta på dessa mått för att se att den första modellen presterade bättre än den andra. Om du vill titta på vad den första modellen förutsade högerklickar du på komponenten Poängsätta modell och klickar på Visualisera poängsatt datamängd för att se de förutsagda resultaten.

Du ser ytterligare två kolumner som har lagts till i testdatauppsättningen.

  • Poängsatt sannolikhet: sannolikheten för att en kund är cykelköpare.
  • Scored Labels: the classification done by the model – bike buyer (1) or not (0). Det här sannolikhetströskelvärdet för etikettering anges till 50 % och kan justeras.

Compare the column BikeBuyer (actual) with the Scored Labels (prediction), to see how well the model has performed. Sedan kan du använda den här modellen för att göra förutsägelser för nya kunder. Du kan publicera den här modellen som en webbtjänst eller skriva resultat tillbaka till Azure Synapse.

Nästa steg

Mer information om Azure Machine Learning finns i Introduktion till Machine Learning i Azure.

Lär dig mer om inbyggd bedömning i informationslagret här.