Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Van toepassing op: SQL Server 2016 (13.x) en latere versies
van Azure SQL Managed Instance
In deel twee van deze vierdelige zelfstudiereeks bereidt u gegevens uit een database voor met R. Verderop in deze reeks gebruikt u deze gegevens om een voorspellend model te trainen en te implementeren in R met SQL Server Machine Learning Services of op Big Data-clusters.
In deel twee van deze vierdelige zelfstudiereeks bereidt u gegevens uit een database voor met R. Verderop in deze reeks gebruikt u deze gegevens om een voorspellend model in R te trainen en te implementeren met SQL Server Machine Learning Services.
In deel twee van deze vierdelige zelfstudiereeks bereidt u gegevens uit een database voor met R. Verderop in deze reeks gebruikt u deze gegevens om een voorspellend model in R te trainen en te implementeren met SQL Server R Services.
In deel twee van deze vierdelige zelfstudiereeks bereidt u gegevens uit een database voor met R. Verderop in deze reeks gebruikt u deze gegevens om een voorspellend model in R te trainen en te implementeren met Azure SQL Managed Instance Machine Learning Services.
In dit artikel leert u het volgende:
- Een voorbeelddatabase herstellen in een database
- De gegevens uit de database laden in een R-gegevensframe
- De gegevens in R voorbereiden door enkele kolommen als categorisch te identificeren
In deel 1 hebt u geleerd hoe u de voorbeelddatabase kunt herstellen.
In deel drie leert u hoe u een machine learning-model traint in R.
In deel vier leert u hoe u het model opslaat in een database en vervolgens opgeslagen procedures maakt op basis van de R-scripts die u in deel twee en drie hebt ontwikkeld. De opgeslagen procedures worden uitgevoerd op de server om voorspellingen te doen op basis van nieuwe gegevens.
Vereiste voorwaarden
In deel twee van deze zelfstudie wordt ervan uitgegaan dat u deel één en de bijbehorende vereisten hebt voltooid.
De gegevens in een gegevensframe laden
Als u de gegevens in R wilt gebruiken, laadt u de gegevens uit de database in een gegevensframe (rentaldata).
Maak een nieuw RScript-bestand in RStudio en voer het volgende script uit. Vervang ServerName door uw eigen verbindingsgegevens.
#Define the connection string to connect to the TutorialDB database
connStr <- "Driver=SQL Server;Server=ServerName;Database=TutorialDB;uid=Username;pwd=Password"
#Get the data from the table
library(RODBC)
ch <- odbcDriverConnect(connStr)
#Import the data from the table
rentaldata <- sqlFetch(ch, "dbo.rental_data")
#Take a look at the structure of the data and the top rows
head(rentaldata)
str(rentaldata)
U zou resultaten moeten zien die er ongeveer als volgt uitzien.
Year Month Day RentalCount WeekDay Holiday Snow
1 2014 1 20 445 2 1 0
2 2014 2 13 40 5 0 0
3 2013 3 10 456 1 0 0
4 2014 3 31 38 2 0 0
5 2014 4 24 23 5 0 0
6 2015 2 11 42 4 0 0
'data.frame': 453 obs. of 7 variables:
$ Year : int 2014 2014 2013 2014 2014 2015 2013 2014 2013 2015 ...
$ Month : num 1 2 3 3 4 2 4 3 4 3 ...
$ Day : num 20 13 10 31 24 11 28 8 5 29 ...
$ RentalCount: num 445 40 456 38 23 42 310 240 22 360 ...
$ WeekDay : num 2 5 1 2 5 4 1 7 6 1 ...
$ Holiday : int 1 0 0 0 0 0 0 0 0 0 ...
$ Snow : num 0 0 0 0 0 0 0 0 0 0 ...
De gegevens voorbereiden
In deze voorbeelddatabase is het grootste deel van de voorbereiding al uitgevoerd, maar u gaat hier nog een voorbereiding uitvoeren. Gebruik het volgende R-script om drie kolommen als categorieën te identificeren door de gegevenstypen te wijzigen in factor.
#Changing the three factor columns to factor types
rentaldata$Holiday <- factor(rentaldata$Holiday);
rentaldata$Snow <- factor(rentaldata$Snow);
rentaldata$WeekDay <- factor(rentaldata$WeekDay);
#Visualize the dataset after the change
str(rentaldata);
U zou resultaten moeten zien die er ongeveer als volgt uitzien.
data.frame': 453 obs. of 7 variables:
$ Year : int 2014 2014 2013 2014 2014 2015 2013 2014 2013 2015 ...
$ Month : num 1 2 3 3 4 2 4 3 4 3 ...
$ Day : num 20 13 10 31 24 11 28 8 5 29 ...
$ RentalCount: num 445 40 456 38 23 42 310 240 22 360 ...
$ WeekDay : Factor w/ 7 levels "1","2","3","4",..: 2 5 1 2 5 4 1 7 6 1 ...
$ Holiday : Factor w/ 2 levels "0","1": 2 1 1 1 1 1 1 1 1 1 ...
$ Snow : Factor w/ 2 levels "0","1": 1 1 1 1 1 1 1 1 1 1 ...
De gegevens worden nu voorbereid voor training.
De hulpbronnen opschonen
Als u niet verdergaat met deze zelfstudie, verwijdert u de TutorialDB-database.
Volgende stappen
In deel twee van deze reeks zelfstudies hebt u geleerd hoe u het volgende kunt doen:
- Laad de voorbeeldgegevens in een R-gegevensframe
- De gegevens in R voorbereiden door enkele kolommen als categorisch te identificeren
Als u een machine learning-model wilt maken dat gebruikmaakt van gegevens uit de TutorialDB-database, volgt u deel drie van deze reeks zelfstudies: