Delen via


Zelfstudie: Een clusteringmodel ontwikkelen in R met SQL Machine Learning

Van toepassing op: SQL Server 2016 (13.x) en latere versies van Azure SQL Managed Instance

In deze vierdelige reeks zelfstudies gebruikt u R om een K-Means-clusteringmodel te ontwikkelen en te implementeren in SQL Server Machine Learning Services of op Big Data-clusters om klantgegevens te categoriseren.

In deze vierdelige reeks zelfstudies gebruikt u R voor het ontwikkelen en implementeren van een K-Means-clusteringmodel in SQL Server Machine Learning Services om klantgegevens te clusteren.

In deze vierdelige reeks zelfstudies gebruikt u R voor het ontwikkelen en implementeren van een K-Means-clusteringmodel in SQL Server R Services om klantgegevens te clusteren.

In deze vierdelige reeks zelfstudies gebruikt u R voor het ontwikkelen en implementeren van een K-Means-clusteringmodel in Azure SQL Managed Instance Machine Learning Services om klantgegevens te clusteren.

In deel één van deze reeks stelt u de vereisten voor de zelfstudie in en herstelt u vervolgens een voorbeeldgegevensset in een database. In deel twee en drie ontwikkelt u enkele R-scripts in een Azure Data Studio-notebook om deze voorbeeldgegevens te analyseren en voor te bereiden en een machine learning-model te trainen. Vervolgens voert u in deel vier deze R-scripts uit in een database met behulp van opgeslagen procedures.

Clustering kan worden uitgelegd als het ordenen van gegevens in groepen waar leden van een groep op een of andere manier vergelijkbaar zijn. Stel dat u eigenaar bent van een detailhandel voor deze reeks zelfstudies. Je zult het K-Means-algoritme gebruiken om de clustering van klanten uit te voeren in een gegevensset met productaankopen en retouren. Door klanten te clusteren, kunt u uw marketinginspanningen effectiever richten door specifieke groepen te richten. K-Means-clustering is een leeralgoritmen zonder supervisie die zoekt naar patronen in gegevens op basis van overeenkomsten.

In dit artikel leert u het volgende:

  • Een voorbeelddatabase herstellen

In deel twee leert u hoe u de gegevens uit een database voorbereidt om clustering uit te voeren.

In deel drie leert u hoe u een K-Means-clusteringmodel maakt en traint in R.

In deel vier leert u hoe u een opgeslagen procedure maakt in een database die clustering in R kan uitvoeren op basis van nieuwe gegevens.

Vereiste voorwaarden

De voorbeelddatabase herstellen

De voorbeeldgegevensset die in deze zelfstudie wordt gebruikt, is opgeslagen in een .bak databaseback-upbestand, zodat u deze kunt downloaden en gebruiken. Deze gegevensset is afgeleid van de tpcx-bb-gegevensset die wordt geleverd door de Transaction Processing Performance Council (TPC).

Opmerking

Als u Machine Learning Services op Big Data-clusters gebruikt, bekijkt u hoe u een database herstelt in de hoofdinsteek van het Big Data-cluster van SQL Server.

  1. Download het bestand tpcxbb_1gb.bak.

  2. Volg de aanwijzingen in Een database herstellen vanuit een back-upbestand in Azure Data Studio met behulp van deze details:

    • Importeer het tpcxbb_1gb.bak bestand dat u hebt gedownload.
    • Geef de doeldatabase tpcxbb_1gbeen naam.
  3. U kunt controleren of de gegevensset bestaat nadat u de database hebt hersteld door een query uit te voeren op de dbo.customer tabel:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    
  1. Download het bestand tpcxbb_1gb.bak.

  2. Volg de aanwijzingen in Een database herstellen naar een beheerd exemplaar in SQL Server Management Studio met behulp van deze details:

    • Importeer het tpcxbb_1gb.bak bestand dat u hebt gedownload.
    • Geef de doeldatabase tpcxbb_1gbeen naam.
  3. U kunt controleren of de gegevensset bestaat nadat u de database hebt hersteld door een query uit te voeren op de dbo.customer tabel:

    USE tpcxbb_1gb;
    SELECT * FROM [dbo].[customer];
    

De hulpbronnen opschonen

Als u niet verdergaat met deze handleiding, verwijder de tpcxbb_1gb database.

Volgende stap

In deel één van deze reeks zelfstudies hebt u deze stappen voltooid:

  • De vereisten geïnstalleerd
  • Een voorbeelddatabase hersteld

Volg deel twee van deze reeks zelfstudies om de gegevens voor het machine learning-model voor te bereiden: