Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
              Van toepassing op: SQL Server 2017 (14.x) en latere versies 
van Azure SQL Managed Instance
In deel twee van deze vierdelige reeks zelfstudies bereidt u gegevens uit een database voor met behulp van Python. Verderop in deze reeks gebruikt u deze gegevens om een lineair regressiemodel te trainen en te implementeren in Python met SQL Server Machine Learning Services of op BIG Data-clusters van SQL Server 2019.
In deel twee van deze vierdelige reeks zelfstudies bereidt u gegevens uit een database voor met behulp van Python. Verderop in deze reeks gebruikt u deze gegevens om een lineair regressiemodel te trainen en te implementeren in Python met SQL Server Machine Learning Services.
In deel twee van deze vierdelige reeks zelfstudies bereidt u gegevens uit een database voor met behulp van Python. Verderop in deze reeks gebruikt u deze gegevens om een lineair regressiemodel te trainen en te implementeren in Python met Azure SQL Managed Instance Machine Learning Services.
In dit artikel leert u het volgende:
- De gegevens uit de database inladen in een pandas-gegevensframe
 - De gegevens in Python voorbereiden door enkele kolommen te verwijderen
 
In deel 1 hebt u geleerd hoe u de voorbeelddatabase kunt herstellen.
In deel drie leert u hoe u een lineair machine learning-model voor regressie traint in Python.
In deel vier leert u hoe u het model opslaat in een database en vervolgens opgeslagen procedures maakt op basis van de Python-scripts die u in deel twee en drie hebt ontwikkeld. De opgeslagen procedures worden uitgevoerd op de server om voorspellingen te doen op basis van nieuwe gegevens.
Vereiste voorwaarden
- In deel twee van deze zelfstudie wordt ervan uitgegaan dat u deel één en de bijbehorende vereisten hebt voltooid, inclusief het installeren van de benodigde Python-pakketten
pandasenpyodbc. 
De gegevens verkennen en voorbereiden
Als u de gegevens in Python wilt gebruiken, laadt u de gegevens uit de database in een pandas-gegevensframe.
Maak een nieuw Python-notebook in Azure Data Studio en voer het onderstaande script uit.
Met het onderstaande Python-script wordt de gegevensset uit de dbo.rental_data tabel in uw database geïmporteerd in een pandas-gegevensframe df.
Vervang zo nodig de verbindingsgegevens in de verbindingsreeks. Als u Windows-verificatie wilt gebruiken met een ODBC-verbindingsreeks, geeft u Trusted_Connection=Yes; in plaats van de UID parameters op PWD .
import pyodbc
import pandas
# Connection string to your SQL Server instance
conn_str = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server}; SERVER=<server>; DATABASE=TutorialDB;UID=<username>;PWD=<password>')
query_str = 'SELECT Year, Month, Day, Rentalcount, Weekday, Holiday, Snow FROM dbo.rental_data'
df = pandas.read_sql(sql=query_str, con=conn_str)
print("Data frame:", df)
U zou resultaten moeten zien die er ongeveer als volgt uitzien.
Data frame:      Year  Month  Day  Rentalcount  WeekDay  Holiday  Snow
0    2014      1   20          445        2        1     0
1    2014      2   13           40        5        0     0
2    2013      3   10          456        1        0     0
3    2014      3   31           38        2        0     0
4    2014      4   24           23        5        0     0
..    ...    ...  ...          ...      ...      ...   ...
448  2013      2   19           57        3        0     1
449  2015      3   18           26        4        0     0
450  2015      3   24           29        3        0     1
451  2014      3   26           50        4        0     1
452  2015     12    6          377        1        0     1
[453 rows x 7 columns]
Filter de kolommen uit het dataframe om de kolommen te verwijderen die we niet in de training willen gebruiken. 
              Rentalcount mag niet worden opgenomen omdat het het doel van de voorspellingen is.
columns = df.columns.tolist()
columns = [c for c in columns if c not in ["Year", "Rentalcount"]]
print("Training set:", df[columns])
Let op de gegevens waar de trainingsset toegang tot heeft.
Training set:      Month  Day  Weekday  Holiday  Snow
1        2   13        5        0     0
3        3   31        2        0     0
7        3    8        7        0     0
15       3    4        2        0     1
22       1   18        1        0     0
..     ...  ...      ...      ...   ...
416      4   13        1        0     1
421      1   21        3        0     1
438      2   19        4        0     1
441      2    3        3        0     1
447      1    4        6        0     1
[91 rows x 5 columns]
Volgende stappen
In deel twee van deze reeks zelfstudies hebt u deze stappen voltooid:
- De gegevens uit de database laden in een pandas-gegevensframe
 - De gegevens in Python voorbereiden door enkele kolommen te verwijderen
 
Als u een machine learning-model wilt trainen dat gebruikmaakt van gegevens uit de TutorialDB database, volgt u deel drie van deze reeks zelfstudies: