Dela via


Självstudie: Utveckla en klustringsmodell i R med SQL-maskininlärning

Gäller för: SQL Server 2016 (13.x) och senare versioner Azure SQL Managed Instance

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i SQL Server Machine Learning Services eller i stordatakluster för att kategorisera kunddata.

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i SQL Server Machine Learning Services för att klustra kunddata.

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i SQL Server R Services för att klustra kunddata.

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i Azure SQL Managed Instance Machine Learning Services för att klustra kunddata.

I den första delen av denna serie konfigurerar du de nödvändiga förutsättningarna för handledningen och återställer sedan en exempeldatauppsättning till en databas. I del två och tre utvecklar du några R-skript i en Azure Data Studio-notebook-fil för att analysera och förbereda dessa exempeldata och träna en maskininlärningsmodell. I del fyra kör du sedan dessa R-skript i en databas med hjälp av lagrade procedurer.

Klustring kan förklaras som att organisera data i grupper där medlemmar i en grupp på något sätt liknar dem. Anta att du äger ett detaljhandelsföretag i den här självstudieserien. Du använder K-Means-algoritmen för att utföra klustring av kunder i en datauppsättning med produktinköp och -returer. Genom att segmentera kunder kan du fokusera marknadsföringen mer effektivt genom att rikta in dig på specifika grupper. K-Means-klustring är en oövervakad inlärningsalgoritm som söker efter mönster i data baserat på likheter.

I den här artikeln får du lära dig att:

  • Återställa en exempeldatabas

I del två får du lära dig hur du förbereder data från en databas för att utföra klustring.

I del tre får du lära dig hur du skapar och tränar en K-Means-klustermodell i R.

I del fyra får du lära dig hur du skapar en lagrad procedur i en databas som kan utföra klustring i R baserat på nya data.

Förutsättningar

Återställa exempeldatabasen

Exempeldatauppsättningen som används i den här handledningen har sparats i en .bak databasens säkerhetskopieringsfil som du kan ladda ned och använda. Den här datamängden härleds från tpcx-bb-datamängden som tillhandahålls av TPC (Transaction Processing Performance Council).

Anmärkning

Om du använder Machine Learning Services på stordatakluster kan du läsa om hur du återställer en databas till SQL Server-huvudinstansen för stordatakluster.

  1. Ladda ned filen tpcxbb_1gb.bak.

  2. Följ anvisningarna i Återställa en databas från en säkerhetskopia i Azure Data Studio med hjälp av följande information:

    • Importera från filen tpcxbb_1gb.bak som du laddade ned.
    • Ge måldatabasen namnet tpcxbb_1gb.
  3. Du kan kontrollera att datamängden finns när du har återställt databasen genom att fråga tabellen dbo.customer :

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Ladda ned filen tpcxbb_1gb.bak.

  2. Följ anvisningarna i Återställa en databas till en hanterad instans i SQL Server Management Studio med hjälp av följande information:

    • Importera från filen tpcxbb_1gb.bak som du laddade ned.
    • Ge måldatabasen namnet tpcxbb_1gb.
  3. Du kan kontrollera att datamängden finns när du har återställt databasen genom att fråga tabellen dbo.customer :

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

Rensa resurser

Om du inte ska fortsätta med den här självstudien, bör du ta bort databasen tpcxbb_1gb.

Nästa steg

I del ett av den här självstudieserien har du slutfört följande steg:

  • Förutsättningarna har installerats
  • Återställde en exempeldatabas

Om du vill förbereda data för maskininlärningsmodellen följer du del två i den här självstudieserien: