Delen via


R-zelfstudie: NyC-taxitarieven voorspellen met binaire classificatie

Van toepassing op: SQL Server 2016 (13.x) en latere versies van Azure SQL Managed Instance

In deze vijfdelige reeks zelfstudies voor SQL-programmeurs leert u meer over R-integratie in SQL Server Machine Learning Services of op Big Data-clusters.

In deze vijfdelige zelfstudiereeks voor SQL-programmeurs leert u meer over R-integratie in SQL Server Machine Learning Services.

In deze vijfdelige zelfstudiereeks voor SQL-programmeurs leert u meer over R-integratie in SQL Server 2016 R Services.

In deze vijfdelige reeks zelfstudies voor SQL-programmeurs leert u meer over R-integratie in Machine Learning Services in Azure SQL Managed Instance.

U bouwt en implementeert een op R gebaseerde machine learning-oplossing met behulp van een voorbeelddatabase in SQL Server. U gebruikt T-SQL, Azure Data Studio of SQL Server Management Studio, en een database-engine-exemplaar met ondersteuning voor SQL machine learning en R-taal.

In deze reeks zelfstudies maakt u kennis met R-functies die worden gebruikt in een werkstroom voor gegevensmodellering. Onderdelen zijn gegevensverkenning, het bouwen en trainen van een binair classificatiemodel en modelimplementatie. U gebruikt voorbeeldgegevens van de New York City Taxi and Limousine Commission. Het model dat u bouwt, voorspelt of een reis waarschijnlijk resulteert in een tip op basis van het tijdstip van de dag, de reisafstand en de ophaallocatie.

In het eerste deel van deze reeks installeert u de vereisten en herstelt u de voorbeelddatabase. In deel twee en drie ontwikkelt u enkele R-scripts om uw gegevens voor te bereiden en een machine learning-model te trainen. Vervolgens voert u in deel vier en vijf deze R-scripts uit in de database met behulp van op T-SQL opgeslagen procedures.

In dit artikel gaat u het volgende doen:

  • Vereisten installeren
  • De voorbeelddatabase herstellen

In deel twee verkent u de voorbeeldgegevens en genereert u enkele plots.

In deel drie leert u hoe u functies maakt op basis van onbewerkte gegevens met behulp van een Transact-SQL-functie. Vervolgens roept u die functie aan vanuit een opgeslagen procedure om een tabel te maken die de functiewaarden bevat.

In deel vier laadt u de modules en roept u de benodigde functies aan om het model te maken en te trainen met behulp van een opgeslagen SQL Server-procedure.

In deel vijf leert u hoe u de modellen kunt operationeel maken die u hebt getraind en opgeslagen in deel vier.

Opmerking

Deze handleiding is beschikbaar in R en Python. Voor de Python-versie raadpleegt u de Python-zelfstudie: Taxitarieven voor NYC voorspellen met binaire classificatie.

Vereiste voorwaarden

  • Vanaf SQL Server 2019 moet u voor het isolatiemechanisme de juiste machtigingen verlenen aan de map waarin het plotbestand wordt opgeslagen. Zie de sectie Bestandsmachtigingen in SQL Server 2019 op Windows voor meer informatie over het instellen van deze machtigingen: Isolatiewijzigingen voor Machine Learning Services.

Alle taken kunnen worden uitgevoerd met behulp van Transact-SQL opgeslagen procedures in Azure Data Studio of Management Studio.

In deze zelfstudie wordt ervan uitgegaan dat u bekend bent met basisdatabasebewerkingen, zoals het maken van databases en tabellen, het importeren van gegevens en het schrijven van SQL-query's. Er wordt niet van uitgegaan dat u R kent, en alle R-code wordt verstrekt.

Achtergrond voor SQL-ontwikkelaars

Het proces van het bouwen van een machine learning-oplossing is een complex proces dat meerdere hulpprogramma's kan omvatten en de coördinatie van deskundigen in verschillende fasen:

  • gegevens verkrijgen en opschonen
  • de gegevens en bouwfuncties verkennen die nuttig zijn voor modellering
  • het model trainen en afstemmen
  • uitrol naar productie

Het ontwikkelen en testen van de werkelijke code wordt het beste uitgevoerd met behulp van een toegewezen R-ontwikkelomgeving. Nadat het script echter volledig is getest, kunt u het eenvoudig implementeren in SQL Server met behulp van Transact-SQL opgeslagen procedures in de vertrouwde omgeving van Azure Data Studio of Management Studio. Externe code verpakken in opgeslagen procedures is het primaire mechanisme voor het operationeel maken van code in SQL Server.

Nadat het model is opgeslagen in de database, kunt u het model aanroepen voor voorspellingen van Transact-SQL met behulp van opgeslagen procedures.

Of u nu een NIEUWE SQL-programmeur bent in R of een R-ontwikkelaar die nieuw is in SQL, in deze vijfdelige reeks zelfstudies wordt een typische werkstroom geïntroduceerd voor het uitvoeren van in-databaseanalyses met R en SQL Server.

Volgende stappen

In dit artikel gaat u als volgt te werk:

  • Geïnstalleerde vereisten
  • De voorbeelddatabase hersteld