Notitie
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen u aan te melden of de directory te wijzigen.
Voor toegang tot deze pagina is autorisatie vereist. U kunt proberen de mappen te wijzigen.
Van toepassing op: SQL Server 2016 (13.x) en latere versies
van Azure SQL Managed Instance
In dit artikel wordt uitgelegd hoe u een voorbeelddatabase instelt die bestaat uit openbare gegevens van de New York City Taxi and Limousine Commission. Deze gegevens worden gebruikt in verschillende R- en Python-tutorials voor in-database analyses op SQL Server. Om de voorbeeldcode sneller uit te voeren, hebben we een representatieve 1% steekproef van de gegevens gemaakt. Op uw systeem is het back-upbestand van de database iets meer dan 90 MB, met 1,7 miljoen rijen in de primaire gegevenstabel.
Als u deze oefening wilt voltooien, moet u SQL Server Management Studio (SSMS) of een ander hulpprogramma hebben waarmee een back-upbestand van een database kan worden hersteld en T-SQL-query's kunnen worden uitgevoerd.
Zelfstudies en snelstartgidsen die deze gegevensset gebruiken, bevatten de volgende artikelen:
- Meer informatie over in-databaseanalyse met behulp van R in SQL Server
- Meer informatie over in-databaseanalyses met Behulp van Python in SQL Server
Bestanden downloaden
De voorbeelddatabase is een back-upbestand van SQL Server 2016 (.bak) dat wordt gehost door Microsoft. U kunt deze herstellen op SQL Server 2016 en hoger. Het downloaden van bestanden begint onmiddellijk wanneer u de koppeling opent.
De bestandsgrootte is ongeveer 90 MB.
Opmerking
Als u de voorbeelddatabase op SQL Server Big Data Clusters wilt herstellen, downloadt u NYCTaxi_Sample.bak en volgt u de instructies in Een database herstellen in het hoofdexemplaren van het BIG Data-cluster van SQL Server.
Opmerking
Als u de voorbeelddatabase in Machine Learning Services in Azure SQL Managed Instance wilt herstellen, volgt u de instructies in quickstart: Een database herstellen naar Azure SQL Managed Instance met behulp van de NYC Taxi-demodatabase .bak bestand: https://aka.ms/sqlmldocument/NYCTaxi_Sample.bak
Download het back-upbestand van de NYCTaxi_Sample.bak database.
Kopieer het bestand naar
C:\Program files\Microsoft SQL Server\MSSQL-instance-name\MSSQL\Backupof een vergelijkbaar pad voor de standaardBackup-map van uw exemplaar.Klik in SSMS met de rechtermuisknop op Databases en selecteer Bestanden en bestandsgroepen herstellen.
Voer de
NYCTaxi_Samplenaam van de database in.Selecteer Van apparaat en open daarna de selectiepagina voor bestanden om het
NYCTaxi_Sample.bakback-upbestand te selecteren. Selecteer Toevoegen om te selecterenNYCTaxi_Sample.bak.Schakel het selectievakje Herstellen in en selecteer OK om de database te herstellen.
Databaseobjecten controleren
Controleer of de databaseobjecten aanwezig zijn op het SQL Server-exemplaar met behulp van SQL Server Management Studio. U ziet nu de database, tabellen, functies en opgeslagen procedures.
Objecten in NYCTaxi_Sample-database
De volgende tabel bevat een overzicht van de objecten die zijn gemaakt in de demodatabase van NYC Taxi.
| Objectnaam | Objecttype | Beschrijving |
|---|---|---|
| NYCTaxi_Sample | gegevensbank | Hiermee maakt u een database en twee tabellen:dbo.nyctaxi_sample tabel: Bevat de belangrijkste NYC Taxi-gegevensset. Er wordt een geclusterde columnstore-index toegevoegd aan de tabel om de opslag- en queryprestaties te verbeteren. De steekproef van 1% van de gegevensset NYC Taxi wordt in deze tabel ingevoegd.dbo.nyc_taxi_models tabel: Wordt gebruikt om het getrainde geavanceerde analysemodel te behouden. |
| fnCalculateDistance | scalaire waarde, functie | Berekent de directe afstand tussen ophaal- en afleverlocaties. Deze functie wordt gebruikt in gegevensfuncties maken, een model trainen en opslaan en het R-model operationeel maken. |
| fnEngineerFeatures | tabel-gewaardeerde functie | Hiermee maakt u nieuwe gegevensfuncties voor modeltraining. Deze functie wordt gebruikt in Gegevensfuncties maken en Het R-model operationeel maken. |
Opgeslagen procedures worden gemaakt met behulp van R- en Python-scripts in diverse handleidingen. De volgende tabel bevat een overzicht van de opgeslagen procedures die u eventueel kunt toevoegen aan de NYC Taxi-demodatabase wanneer u een script uitvoert vanuit verschillende lessen.
| Opgeslagen procedure | Taal | Beschrijving |
|---|---|---|
| RxPlotHistogram | R | Roept de functie RevoScaleR rxHistogram aan om het histogram van een variabele te tekenen en retourneert vervolgens de plot als een binair object. Deze opgeslagen procedure wordt gebruikt in Gegevens verkennen en visualiseren. |
| RPlotRHist | R | Hiermee maakt u een afbeelding met behulp van de Hist functie en slaat u de uitvoer op als een lokaal PDF-bestand. Deze opgeslagen procedure wordt gebruikt in Gegevens verkennen en visualiseren. |
| RxTrainLogitModel | R | Traint een logistiek regressiemodel door een R-pakket aan te roepen. Het model voorspelt de waarde van de tipped kolom en wordt getraind met behulp van een willekeurig geselecteerde 70% van de gegevens. De uitvoer van de opgeslagen procedure is het getrainde model, dat in de tabel dbo.nyc_taxi_modelswordt opgeslagen. Deze opgeslagen procedure wordt gebruikt in Trainen en opslaan van een model. |
| RxPredictBatchOutput | R | Roept het getrainde model aan om voorspellingen te maken met behulp van het model. De opgeslagen procedure accepteert een query als invoerparameter en retourneert een kolom met numerieke waarden die de scores voor de invoerrijen bevatten. Deze opgeslagen procedure wordt gebruikt in Potentiële resultaten voorspellen. |
| RxPredictSingleRow | R | Roept het getrainde model aan om voorspellingen te maken met behulp van het model. Deze opgeslagen procedure accepteert een nieuwe waarneming als invoer, met afzonderlijke functiewaarden die als inlineparameters worden doorgegeven en retourneert een waarde die het resultaat voor de nieuwe observatie voorspelt. Deze opgeslagen procedure wordt gebruikt in Potentiële resultaten voorspellen. |
Query’s uitvoeren voor de gegevens
Voer als validatiestap een query uit om te bevestigen dat de gegevens zijn geüpload.
Klik in Objectverkenner onder Databases met de rechtermuisknop op de NYCTaxi_Sample-database en start een nieuwe query.
Voer enkele basisquery's uit:
SELECT TOP(10) * FROM dbo.nyctaxi_sample; SELECT COUNT(*) FROM dbo.nyctaxi_sample;
De database bevat 1,7 miljoen rijen.
In de database bevindt zich een
dbo.nyctaxi_sampletabel die de gegevensset bevat. De tabel is geoptimaliseerd voor op set gebaseerde berekeningen met de toevoeging van een columnstore-index. Voer deze instructie uit om een beknopt overzicht van de tabel te genereren.SELECT DISTINCT [passenger_count] , ROUND (SUM ([fare_amount]),0) as TotalFares , ROUND (AVG ([fare_amount]),0) as AvgFares FROM [dbo].[nyctaxi_sample] GROUP BY [passenger_count] ORDER BY AvgFares DESC
De resultaten moeten vergelijkbaar zijn met de resultaten die worden weergegeven in de volgende schermopname.
Volgende stappen
NyC Taxi-voorbeeldgegevens zijn nu beschikbaar voor praktische training.