Delen via


Demogegevens van NYC Taxi voor Python- en R-handleidingen van SQL Server.

Van toepassing op: SQL Server 2016 (13.x) en latere versies van Azure SQL Managed Instance

In dit artikel wordt uitgelegd hoe u een voorbeelddatabase instelt die bestaat uit openbare gegevens van de New York City Taxi and Limousine Commission. Deze gegevens worden gebruikt in verschillende R- en Python-tutorials voor in-database analyses op SQL Server. Om de voorbeeldcode sneller uit te voeren, hebben we een representatieve 1% steekproef van de gegevens gemaakt. Op uw systeem is het back-upbestand van de database iets meer dan 90 MB, met 1,7 miljoen rijen in de primaire gegevenstabel.

Als u deze oefening wilt voltooien, moet u SQL Server Management Studio (SSMS) of een ander hulpprogramma hebben waarmee een back-upbestand van een database kan worden hersteld en T-SQL-query's kunnen worden uitgevoerd.

Zelfstudies en snelstartgidsen die deze gegevensset gebruiken, bevatten de volgende artikelen:

Bestanden downloaden

De voorbeelddatabase is een back-upbestand van SQL Server 2016 (.bak) dat wordt gehost door Microsoft. U kunt deze herstellen op SQL Server 2016 en hoger. Het downloaden van bestanden begint onmiddellijk wanneer u de koppeling opent.

De bestandsgrootte is ongeveer 90 MB.

Opmerking

Als u de voorbeelddatabase op SQL Server Big Data Clusters wilt herstellen, downloadt u NYCTaxi_Sample.bak en volgt u de instructies in Een database herstellen in het hoofdexemplaren van het BIG Data-cluster van SQL Server.

Opmerking

Als u de voorbeelddatabase in Machine Learning Services in Azure SQL Managed Instance wilt herstellen, volgt u de instructies in quickstart: Een database herstellen naar Azure SQL Managed Instance met behulp van de NYC Taxi-demodatabase .bak bestand: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak

  1. Download het back-upbestand van de NYCTaxi_Sample.bak database.

  2. Kopieer het bestand naar C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backup of een vergelijkbaar pad voor de standaard Backup-map van uw exemplaar.

  3. Klik in SSMS met de rechtermuisknop op Databases en selecteer Bestanden en bestandsgroepen herstellen.

  4. Voer de NYCTaxi_Sample naam van de database in.

  5. Selecteer Van apparaat en open daarna de selectiepagina voor bestanden om het NYCTaxi_Sample.bak back-upbestand te selecteren. Selecteer Toevoegen om te selecteren NYCTaxi_Sample.bak.

  6. Schakel het selectievakje Herstellen in en selecteer OK om de database te herstellen.

Databaseobjecten controleren

Controleer of de databaseobjecten aanwezig zijn op het SQL Server-exemplaar met behulp van SQL Server Management Studio. U ziet nu de database, tabellen, functies en opgeslagen procedures.

rsql_devtut_BrowseTables

Objecten in NYCTaxi_Sample-database

De volgende tabel bevat een overzicht van de objecten die zijn gemaakt in de demodatabase van NYC Taxi.

Objectnaam Objecttype Beschrijving
NYCTaxi_Sample gegevensbank Hiermee maakt u een database en twee tabellen:

dbo.nyctaxi_sample tabel: Bevat de belangrijkste NYC Taxi-gegevensset. Er wordt een geclusterde columnstore-index toegevoegd aan de tabel om de opslag- en queryprestaties te verbeteren. De steekproef van 1% van de gegevensset NYC Taxi wordt in deze tabel ingevoegd.

dbo.nyc_taxi_models tabel: Wordt gebruikt om het getrainde geavanceerde analysemodel te behouden.
fnCalculateDistance scalaire waarde, functie Berekent de directe afstand tussen ophaal- en afleverlocaties. Deze functie wordt gebruikt in gegevensfuncties maken, een model trainen en opslaan en het R-model operationeel maken.
fnEngineerFeatures tabel-gewaardeerde functie Hiermee maakt u nieuwe gegevensfuncties voor modeltraining. Deze functie wordt gebruikt in Gegevensfuncties maken en Het R-model operationeel maken.

Opgeslagen procedures worden gemaakt met behulp van R- en Python-scripts in diverse handleidingen. De volgende tabel bevat een overzicht van de opgeslagen procedures die u eventueel kunt toevoegen aan de NYC Taxi-demodatabase wanneer u een script uitvoert vanuit verschillende lessen.

Opgeslagen procedure Taal Beschrijving
RxPlotHistogram R Roept de functie RevoScaleR rxHistogram aan om het histogram van een variabele te tekenen en retourneert vervolgens de plot als een binair object. Deze opgeslagen procedure wordt gebruikt in Gegevens verkennen en visualiseren.
RPlotRHist R Hiermee maakt u een afbeelding met behulp van de Hist functie en slaat u de uitvoer op als een lokaal PDF-bestand. Deze opgeslagen procedure wordt gebruikt in Gegevens verkennen en visualiseren.
RxTrainLogitModel R Traint een logistiek regressiemodel door een R-pakket aan te roepen. Het model voorspelt de waarde van de tipped kolom en wordt getraind met behulp van een willekeurig geselecteerde 70% van de gegevens. De uitvoer van de opgeslagen procedure is het getrainde model, dat in de tabel dbo.nyc_taxi_modelswordt opgeslagen. Deze opgeslagen procedure wordt gebruikt in Trainen en opslaan van een model.
RxPredictBatchOutput R Roept het getrainde model aan om voorspellingen te maken met behulp van het model. De opgeslagen procedure accepteert een query als invoerparameter en retourneert een kolom met numerieke waarden die de scores voor de invoerrijen bevatten. Deze opgeslagen procedure wordt gebruikt in Potentiële resultaten voorspellen.
RxPredictSingleRow R Roept het getrainde model aan om voorspellingen te maken met behulp van het model. Deze opgeslagen procedure accepteert een nieuwe waarneming als invoer, met afzonderlijke functiewaarden die als inlineparameters worden doorgegeven en retourneert een waarde die het resultaat voor de nieuwe observatie voorspelt. Deze opgeslagen procedure wordt gebruikt in Potentiële resultaten voorspellen.

Query’s uitvoeren voor de gegevens

Voer als validatiestap een query uit om te bevestigen dat de gegevens zijn geüpload.

  1. Klik in Objectverkenner onder Databases met de rechtermuisknop op de NYCTaxi_Sample-database en start een nieuwe query.

  2. Voer enkele basisquery's uit:

    SELECT TOP(10) * FROM dbo.nyctaxi_sample;
    SELECT COUNT(*) FROM dbo.nyctaxi_sample;
    

De database bevat 1,7 miljoen rijen.

  1. In de database bevindt zich een dbo.nyctaxi_sample tabel die de gegevensset bevat. De tabel is geoptimaliseerd voor op set gebaseerde berekeningen met de toevoeging van een columnstore-index. Voer deze instructie uit om een beknopt overzicht van de tabel te genereren.

    SELECT DISTINCT [passenger_count]
        , ROUND (SUM ([fare_amount]),0) as TotalFares
        , ROUND (AVG ([fare_amount]),0) as AvgFares
    FROM [dbo].[nyctaxi_sample]
    GROUP BY [passenger_count]
    ORDER BY  AvgFares DESC
    

De resultaten moeten vergelijkbaar zijn met de resultaten die worden weergegeven in de volgende schermopname.

Queryresultaten tabelsamenvattingsgegevens

Volgende stappen

NyC Taxi-voorbeeldgegevens zijn nu beschikbaar voor praktische training.