Självstudie: Utveckla en klustringsmodell i R med SQL-maskininlärning

2025-10-31

Gäller för: SQL Server 2016 (13.x) och senare versioner Azure SQL Managed Instance

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i SQL Server Machine Learning Services eller i stordatakluster för att kategorisera kunddata.

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i SQL Server Machine Learning Services för att klustra kunddata.

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i SQL Server R Services för att klustra kunddata.

I den här självstudieserien i fyra delar använder du R för att utveckla och distribuera en K-Means-klustermodell i Azure SQL Managed Instance Machine Learning Services för att klustra kunddata.

I den första delen av denna serie konfigurerar du de nödvändiga förutsättningarna för handledningen och återställer sedan en exempeldatauppsättning till en databas. I del två och tre utvecklar du några R-skript i en Azure Data Studio-notebook-fil för att analysera och förbereda dessa exempeldata och träna en maskininlärningsmodell. I del fyra kör du sedan dessa R-skript i en databas med hjälp av lagrade procedurer.

Klustring kan förklaras som att organisera data i grupper där medlemmar i en grupp på något sätt liknar dem. Anta att du äger ett detaljhandelsföretag i den här självstudieserien. Du använder K-Means-algoritmen för att utföra klustring av kunder i en datauppsättning med produktinköp och -returer. Genom att segmentera kunder kan du fokusera marknadsföringen mer effektivt genom att rikta in dig på specifika grupper. K-Means-klustring är en oövervakad inlärningsalgoritm som söker efter mönster i data baserat på likheter.

I den här artikeln får du lära dig att:

Återställa en exempeldatabas

I del två får du lära dig hur du förbereder data från en databas för att utföra klustring.

I del tre får du lära dig hur du skapar och tränar en K-Means-klustermodell i R.

I del fyra får du lära dig hur du skapar en lagrad procedur i en databas som kan utföra klustring i R baserat på nya data.

Förutsättningar

SQL Server Machine Learning Services med python-språkalternativet – Följ installationsanvisningarna i Installationsguiden för Windows eller Linux-installationsguiden. Du kan också aktivera Machine Learning Services på SQL Server Big Data Clusters.

SQL Server Machine Learning Services med alternativet R-språk – Följ installationsanvisningarna i installationsguiden för Windows.

Azure SQL Managed Instance Machine Learning Services. Mer information finns i Översikt över Azure SQL Managed Instance Machine Learning Services.
SQL Server Management Studio (SSMS) – Använd SSMS för att återställa exempeldatabasen till Azure SQL Managed Instance. Information om hur du laddar ned finns i SQL Server Management Studio.

Azure Data Studio. Du använder en notebook-fil i Azure Data Studio för SQL. Mer information om notebook-filer finns i Använda notebook-filer i Azure Data Studio.
R IDE – I den här självstudien används RStudio Desktop.
RODBC – Den här drivrutinen används i de R-skript som du utvecklar i den här självstudien. Om den inte redan är installerad installerar du den med R-kommandot install.packages("RODBC"). Mer information om RODBC finns i CRAN – Package RODBC.

Återställa exempeldatabasen

Exempeldatauppsättningen som används i den här handledningen har sparats i en .bak databasens säkerhetskopieringsfil som du kan ladda ned och använda. Den här datamängden härleds från tpcx-bb-datamängden som tillhandahålls av TPC (Transaction Processing Performance Council).

Anmärkning

Om du använder Machine Learning Services på stordatakluster kan du läsa om hur du återställer en databas till SQL Server-huvudinstansen för stordatakluster.

Ladda ned filen tpcxbb_1gb.bak.
Följ anvisningarna i Återställa en databas från en säkerhetskopia i Azure Data Studio med hjälp av följande information:
- Importera från filen tpcxbb_1gb.bak som du laddade ned.
- Ge måldatabasen namnet tpcxbb_1gb.
Du kan kontrollera att datamängden finns när du har återställt databasen genom att fråga tabellen dbo.customer :
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Ladda ned filen tpcxbb_1gb.bak.
Följ anvisningarna i Återställa en databas till en hanterad instans i SQL Server Management Studio med hjälp av följande information:
- Importera från filen tpcxbb_1gb.bak som du laddade ned.
- Ge måldatabasen namnet tpcxbb_1gb.
Du kan kontrollera att datamängden finns när du har återställt databasen genom att fråga tabellen dbo.customer :
```
USE tpcxbb_1gb;
SELECT * FROM [dbo].[customer];
```

Rensa resurser

Om du inte ska fortsätta med den här självstudien, bör du ta bort databasen tpcxbb_1gb.

Nästa steg

I del ett av den här självstudieserien har du slutfört följande steg:

Förutsättningarna har installerats
Återställde en exempeldatabas

Om du vill förbereda data för maskininlärningsmodellen följer du del två i den här självstudieserien:

Förbereda data för att utföra klustring

Feedback

Var den här sidan till hjälp?