Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Van toepassing op: SQL Server 2016 (13.x) en latere versies
van Azure SQL Managed Instance
In deze vierdelige reeks zelfstudies gebruikt u R om een K-Means-clusteringmodel te ontwikkelen en te implementeren in SQL Server Machine Learning Services of op Big Data-clusters om klantgegevens te categoriseren.
In deze vierdelige reeks zelfstudies gebruikt u R voor het ontwikkelen en implementeren van een K-Means-clusteringmodel in SQL Server Machine Learning Services om klantgegevens te clusteren.
In deze vierdelige reeks zelfstudies gebruikt u R voor het ontwikkelen en implementeren van een K-Means-clusteringmodel in SQL Server R Services om klantgegevens te clusteren.
In deze vierdelige reeks zelfstudies gebruikt u R voor het ontwikkelen en implementeren van een K-Means-clusteringmodel in Azure SQL Managed Instance Machine Learning Services om klantgegevens te clusteren.
In deel één van deze reeks stelt u de vereisten voor de zelfstudie in en herstelt u vervolgens een voorbeeldgegevensset in een database. In deel twee en drie ontwikkelt u enkele R-scripts in een Azure Data Studio-notebook om deze voorbeeldgegevens te analyseren en voor te bereiden en een machine learning-model te trainen. Vervolgens voert u in deel vier deze R-scripts uit in een database met behulp van opgeslagen procedures.
Clustering kan worden uitgelegd als het ordenen van gegevens in groepen waar leden van een groep op een of andere manier vergelijkbaar zijn. Stel dat u eigenaar bent van een detailhandel voor deze reeks zelfstudies. Je zult het K-Means-algoritme gebruiken om de clustering van klanten uit te voeren in een gegevensset met productaankopen en retouren. Door klanten te clusteren, kunt u uw marketinginspanningen effectiever richten door specifieke groepen te richten. K-Means-clustering is een leeralgoritmen zonder supervisie die zoekt naar patronen in gegevens op basis van overeenkomsten.
In dit artikel leert u het volgende:
- Een voorbeelddatabase herstellen
In deel twee leert u hoe u de gegevens uit een database voorbereidt om clustering uit te voeren.
In deel drie leert u hoe u een K-Means-clusteringmodel maakt en traint in R.
In deel vier leert u hoe u een opgeslagen procedure maakt in een database die clustering in R kan uitvoeren op basis van nieuwe gegevens.
Vereiste voorwaarden
- SQL Server Machine Learning Services met de taaloptie Python: volg de installatie-instructies in de Windows-installatiehandleiding of de Linux-installatiehandleiding. U kunt Machine Learning Services ook inschakelen op BIG Data-clusters van SQL Server.
- SQL Server Machine Learning Services met de R-taaloptie: volg de installatie-instructies in de Windows-installatiehandleiding.
Azure SQL Managed Instance Machine Learning Services. Zie het overzicht van Azure SQL Managed Instance Machine Learning Services voor meer informatie.
SQL Server Management Studio (SSMS): gebruik SSMS om de voorbeelddatabase te herstellen naar Azure SQL Managed Instance. Zie SQL Server Management Studio om te downloaden.
Azure Data Studio. U gebruikt een notebook in Azure Data Studio voor SQL. Zie Notebooks gebruiken in Azure Data Studio voor meer informatie over notebooks.
R IDE - In deze zelfstudie wordt gebruikgemaakt van RStudio Desktop.
RODBC : dit stuurprogramma wordt gebruikt in de R-scripts die u in deze zelfstudie gaat ontwikkelen. Als deze nog niet is geïnstalleerd, installeert u deze met behulp van de R-opdracht
install.packages("RODBC"). Zie CRAN - Package RODBC voor meer informatie over RODBC.
De voorbeelddatabase herstellen
De voorbeeldgegevensset die in deze zelfstudie wordt gebruikt, is opgeslagen in een .bak databaseback-upbestand, zodat u deze kunt downloaden en gebruiken. Deze gegevensset is afgeleid van de tpcx-bb-gegevensset die wordt geleverd door de Transaction Processing Performance Council (TPC).
Opmerking
Als u Machine Learning Services op Big Data-clusters gebruikt, bekijkt u hoe u een database herstelt in de hoofdinsteek van het Big Data-cluster van SQL Server.
Download het bestand tpcxbb_1gb.bak.
Volg de aanwijzingen in Een database herstellen vanuit een back-upbestand in Azure Data Studio met behulp van deze details:
- Importeer het
tpcxbb_1gb.bakbestand dat u hebt gedownload. - Geef de doeldatabase
tpcxbb_1gbeen naam.
- Importeer het
U kunt controleren of de gegevensset bestaat nadat u de database hebt hersteld door een query uit te voeren op de
dbo.customertabel:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
Download het bestand tpcxbb_1gb.bak.
Volg de aanwijzingen in Een database herstellen naar een beheerd exemplaar in SQL Server Management Studio met behulp van deze details:
- Importeer het
tpcxbb_1gb.bakbestand dat u hebt gedownload. - Geef de doeldatabase
tpcxbb_1gbeen naam.
- Importeer het
U kunt controleren of de gegevensset bestaat nadat u de database hebt hersteld door een query uit te voeren op de
dbo.customertabel:USE tpcxbb_1gb; SELECT * FROM [dbo].[customer];
De hulpbronnen opschonen
Als u niet verdergaat met deze handleiding, verwijder de tpcxbb_1gb database.
Volgende stap
In deel één van deze reeks zelfstudies hebt u deze stappen voltooid:
- De vereisten geïnstalleerd
- Een voorbeelddatabase hersteld
Volg deel twee van deze reeks zelfstudies om de gegevens voor het machine learning-model voor te bereiden: