Python-zelfstudie: Gegevens voorbereiden om een lineair regressiemodel te trainen met SQL Machine Learning

2025-10-31

Van toepassing op: SQL Server 2017 (14.x) en latere versies van Azure SQL Managed Instance

In deel twee van deze vierdelige reeks zelfstudies bereidt u gegevens uit een database voor met behulp van Python. Verderop in deze reeks gebruikt u deze gegevens om een lineair regressiemodel te trainen en te implementeren in Python met SQL Server Machine Learning Services of op BIG Data-clusters van SQL Server 2019.

In deel twee van deze vierdelige reeks zelfstudies bereidt u gegevens uit een database voor met behulp van Python. Verderop in deze reeks gebruikt u deze gegevens om een lineair regressiemodel te trainen en te implementeren in Python met Azure SQL Managed Instance Machine Learning Services.

In dit artikel leert u het volgende:

De gegevens uit de database inladen in een pandas-gegevensframe
De gegevens in Python voorbereiden door enkele kolommen te verwijderen

In deel 1 hebt u geleerd hoe u de voorbeelddatabase kunt herstellen.

In deel drie leert u hoe u een lineair machine learning-model voor regressie traint in Python.

In deel vier leert u hoe u het model opslaat in een database en vervolgens opgeslagen procedures maakt op basis van de Python-scripts die u in deel twee en drie hebt ontwikkeld. De opgeslagen procedures worden uitgevoerd op de server om voorspellingen te doen op basis van nieuwe gegevens.

Vereiste voorwaarden

In deel twee van deze zelfstudie wordt ervan uitgegaan dat u deel één en de bijbehorende vereisten hebt voltooid, inclusief het installeren van de benodigde Python-pakkettenpandas en pyodbc.

De gegevens verkennen en voorbereiden

Als u de gegevens in Python wilt gebruiken, laadt u de gegevens uit de database in een pandas-gegevensframe.

Maak een nieuw Python-notebook in Azure Data Studio en voer het onderstaande script uit.

Met het onderstaande Python-script wordt de gegevensset uit de dbo.rental_data tabel in uw database geïmporteerd in een pandas-gegevensframe df.

Vervang zo nodig de verbindingsgegevens in de verbindingsreeks. Als u Windows-verificatie wilt gebruiken met een ODBC-verbindingsreeks, geeft u Trusted_Connection=Yes; in plaats van de UID parameters op PWD .

import pyodbc
import pandas


# Connection string to your SQL Server instance
conn_str = pyodbc.connect('DRIVER={ODBC Driver 17 for SQL Server}; SERVER=<server>; DATABASE=TutorialDB;UID=<username>;PWD=<password>')

query_str = 'SELECT Year, Month, Day, Rentalcount, Weekday, Holiday, Snow FROM dbo.rental_data'

df = pandas.read_sql(sql=query_str, con=conn_str)
print("Data frame:", df)

U zou resultaten moeten zien die er ongeveer als volgt uitzien.

Data frame:      Year  Month  Day  Rentalcount  WeekDay  Holiday  Snow
0    2014      1   20          445        2        1     0
1    2014      2   13           40        5        0     0
2    2013      3   10          456        1        0     0
3    2014      3   31           38        2        0     0
4    2014      4   24           23        5        0     0
..    ...    ...  ...          ...      ...      ...   ...
448  2013      2   19           57        3        0     1
449  2015      3   18           26        4        0     0
450  2015      3   24           29        3        0     1
451  2014      3   26           50        4        0     1
452  2015     12    6          377        1        0     1

[453 rows x 7 columns]

Filter de kolommen uit het dataframe om de kolommen te verwijderen die we niet in de training willen gebruiken. Rentalcount mag niet worden opgenomen omdat het het doel van de voorspellingen is.

columns = df.columns.tolist()
columns = [c for c in columns if c not in ["Year", "Rentalcount"]]

print("Training set:", df[columns])

Let op de gegevens waar de trainingsset toegang tot heeft.

Training set:      Month  Day  Weekday  Holiday  Snow
1        2   13        5        0     0
3        3   31        2        0     0
7        3    8        7        0     0
15       3    4        2        0     1
22       1   18        1        0     0
..     ...  ...      ...      ...   ...
416      4   13        1        0     1
421      1   21        3        0     1
438      2   19        4        0     1
441      2    3        3        0     1
447      1    4        6        0     1

[91 rows x 5 columns]

Volgende stappen

In deel twee van deze reeks zelfstudies hebt u deze stappen voltooid:

De gegevens uit de database laden in een pandas-gegevensframe
De gegevens in Python voorbereiden door enkele kolommen te verwijderen

Als u een machine learning-model wilt trainen dat gebruikmaakt van gegevens uit de TutorialDB database, volgt u deel drie van deze reeks zelfstudies:

Python-zelfstudie: Een lineair regressiemodel trainen

Feedback

Is deze pagina nuttig?