opendatasets Paket
Innehåller funktioner för att använda Azure Open Datasets som dataramar och för att utöka kunddata.
Azure Open Datasets är utvalda offentliga datauppsättningar som du kan använda för att lägga till scenariospecifika funktioner i maskininlärningslösningar för mer exakta modeller. Du kan konvertera dessa offentliga datamängder till Spark- och Pandas-dataramar med filter tillämpade. För vissa datauppsättningar kan du använda en berikare för att koppla offentliga data till dina data. Du kan till exempel koppla dina data med väderdata efter longitud och latitud eller postnummer och tid.
I Azure Open Datasets ingår offentliga data för väder, folkräkning, helgdagar, allmän säkerhet och plats som hjälper dig att träna maskininlärningsmodeller och berika förutsägande lösningar. Open Datasets finns i molnet på Microsoft Azure och är integrerade i Azure Machine Learning. Mer information om hur du arbetar med Azure Open Datasets finns i Skapa datauppsättningar med Azure Open Datasets.
Allmän information om Azure Open Datasets finns i Dokumentation om Azure Open Datasets.
Paket
| accessories |
Innehåller funktioner som hjälper dig att identifiera kolumntyper i data, inklusive lat/long, postnummer och tid. |
| aggregators |
Innehåller funktioner för att definiera hur anslutna data aggregeras. Aggregatorer definierar åtgärder som kan utföras på resultatet av sammanfogning av data från två datauppsättningar. När du till exempel använder en av klasserna i enricherskan du ange en aggregator som en del av åtgärden. Om ingen aggregering behövs använder du AggregatorAll. |
| data |
Innehåller init-filen för dataresurser i modulen publicholidays. |
| dataaccess |
Innehåller funktioner som tillhandahåller åtkomstmetoder för blobfiler. När du använder en klass från opendatasets paketet som ChicagoSafety klassen används dataåtkomstklasserna och funktionerna i det här paketet internt. I allmänhet behöver du inte använda funktionerna i dataaccess-paketet direkt. |
| enrichers |
Innehåller funktioner för att berika och sammanfoga data från två datauppsättningar. I allmänhet sammanfogar berikare data från olika källor. Med berikare kan du ansluta dina data (kunddata) till data från Azure Open Datasets eller andra offentliga datamängder. |
| granularities |
Innehåller funktioner som definierar tids- och avståndsåtgärder som används av berikare. Kornigheter är mått på tid eller avstånd som används vid enrichers berikande (sammanfogning) data. Det finns tidskornigheter, till exempel varje timme eller dag, och platskornighet, till exempel närmaste avstånd. |
| selectors |
Innehåller funktioner för att välja och koppla data från en kunddatauppsättning med data från en offentlig datauppsättning. Väljare definierar logik som gör att du kan utöka dina data med offentliga datamängder baserat på tids- och avståndsåtgärder. Med en väljare kan du till exempel hitta offentliga data som ska kopplas till dina data baserat på närmaste plats eller genom att avrunda till samma tidskornighet. Ange väljare när du arbetar med någon av klasserna i enrichers paketet. |
Moduler
| environ |
Definierar körningsmiljöklasser där Azure Open Datasets används. Klasserna i den här modulen säkerställer att Funktionerna i Azure Open Datasets är optimerade för olika miljöer.
I allmänhet behöver du inte instansiera dessa miljöklasser eller oroa dig för implementeringen.
Använd |
Klasser
| BingCOVID19Data |
Representerar datamängden Bing COVID-19. Dessa datauppsättningar innehåller COVID-19-data i Bing från flera betrodda, tillförlitliga källor, inklusive Världshälsoorganisationen (WHO), Centers for Disease Control and Prevention (CDC), nationella och statliga folkhälsomyndigheter, BNO News, 24/7 Wall St., och Wikipedia. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Bing COVID-19 Data i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| BostonSafety |
Representerar den offentliga datamängden Boston Safety. Den här datamängden innehåller 311 anrop som rapporterats till staden Boston. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Boston Safety Data i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| COVID19OpenResearch |
Representerar COVID-19 Open Research Dataset. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i COVID-19 Open Research Dataset i Microsoft Azure Open Datasets-katalogen. |
| COVIDTrackingProject |
Representerar datamängden COVID Tracking Project. Dessa datauppsättningar innehåller COVID Tracking Project-datamängden som ger de senaste siffrorna för tester, bekräftade fall, sjukhusvistelser och patientresultat från alla amerikanska delstater och områden. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i COVID Tracking Project-datauppsättningen i Microsoft Azure Open Datasets-katalogen. Initiera filtreringsfält. |
| ChicagoSafety |
Representerar den offentliga datamängden Chicago Safety. Den här datamängden innehåller 311 tjänstbegäranden från staden Chicago, inklusive klagomål om historisk sanitetskod, rapporterade potthål och problem med gatubelysning. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Chicago Safety Data i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| CitySafety |
Stadens säkerhetsklass – det här är en överordnad klass som kan ärvas av varje enskild stad. Initiera filtreringsfält. |
| Diabetes |
Representerar den offentliga datamängden För exempeldiabetes. Diabetes-datamängden innehåller 442 exempel med 10 funktioner, vilket gör den idealisk för att komma igång med Machine Learning-algoritmer. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Exempel: Diabetes i Katalogen Microsoft Azure Open Datasets. |
| EcdcCOVIDCases |
Representerar European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases. Dessa datamängder innehåller från European Center for Disease Prevention and Control (ECDC). Varje rad/post innehåller antalet nya ärenden som rapporteras per dag och per land/region. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i European Centre for Disease Prevention and Control (ECDC) Covid-19 Cases i Microsoft Azure Open Datasets-katalogen. Initiera filtreringsfält. |
| MNIST |
Representerar MNIST-datamängden för handskrivna siffror. MNIST-databasen med handskrivna siffror har en träningsuppsättning med 60 000 exempel och en testuppsättning med 10 000 exempel. Siffrorna har storleksnormaliserats och centrerats i en bild med fast storlek. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i MNIST-databasen med handskrivna siffror i Katalogen Microsoft Azure Open Datasets. Ett exempel på hur du använder MNIST-datamängden finns i självstudien Träna bildklassificeringsmodeller med MNIST-data och scikit-learn med Azure Machine Learning. |
| NoParameterOpenDatasetBase |
Amerikansk arbetsbasklass. Initiera. |
| NoaaGfsWeather |
Representerar datamängden National Oceanic and Atmospheric Administration (NOAA) Global Forecast System (GFS). Den här datamängden innehåller väderprognosdata för 15 dagar per timme i USA (till exempel temperatur, nederbörd, vind) som produceras av Det globala prognossystemet (GFS) från National Oceanic and Atmospheric Administration (NOAA). Information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NOAA Global Forecast System i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| NoaaIsdWeather |
Representerar National Oceanic and Atmospheric Administration (NOAA) Integrated Surface Dataset (ISD). Den här datamängden innehåller data om världsomfattande väderhistorik varje timme (till exempel temperatur, nederbörd, vind) som kommer från National Oceanic and Atmospheric Administration (NOAA). Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NOAA Integrated Surface Data in the Microsoft Azure Open Datasets catalog ( NOAA Integrated Surface Data data in the Microsoft Azure Open Datasets catalog). Initiera filtreringsfält. |
| NycSafety |
Representerar den offentliga datamängden New York City Safety. Den här datamängden innehåller alla 311-tjänstbegäranden i New York City från 2010 fram till nutid. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i New York City Safety Data i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| NycTaxiBase |
New York Taxi-klass – det här är en överordnad klass som kan ärvas. Initiera filtreringsfält. |
| NycTlcFhv |
Representerar den offentliga datamängden NYC Taxi & Limousine Commission. Den här datamängden innehåller For-Hire Reseposter för Vechicle (FHV), som innehåller fält som samlar in det sändande baslicensnumret och plats-ID:t för upphämtningsdatum, tid och taxizon (formfil nedan). Dessa poster genereras från de FHV Trip Record-inlämningar som görs av baser. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Reseposter för NYC Taxi & Limousine Commission – For-Hire Vehicle (FHV) i Microsoft Azure Open Datasets-katalogen. Initiera filtreringsfält. |
| NycTlcGreen |
Representerar NYC Taxi & Limousine Commission green taxi trip public dataset. De gröna taxiresorna innehåller fält som fångar upp datum/tider för upphämtning och avlämning, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och passagerarantal som rapporterats av förare. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i NYC Taxi & Limousine Commission – green taxi trip records in the Microsoft Azure Open Datasets catalog . Ett exempel på hur du använder klassen NycTlcGreen finns i självstudien Använda automatiserad maskininlärning för att förutsäga taxipriser. Initiera filtreringsfält. |
| NycTlcYellow |
Representerar NYC Taxi & Limousine Commission yellow taxi trip public dataset. De gula taxiresorna innehåller fält som fångar upp upphämtnings- och avlämningsdatum/tider, upphämtnings- och avlämningsplatser, reseavstånd, specificerade priser, pristyper, betalningstyper och passagerarantal som rapporterats av förare. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i NYC Taxi & Limousine Commission – gul taxiresa i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| OjSalesSimulated |
Representerar datauppsättningen Exempel på apelsinjuiceförsäljning simulerad datamängd. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Exempel: OJ Sales Simulated Data i Katalogen Microsoft Azure Open Datasets. |
| PublicHolidays |
Representerar datauppsättningen offentliga helgdagar. Dessa datauppsättningar innehåller globala helgdagsdata från PyPI-semesterpaketet och Wikipedia, som omfattar 38 länder eller regioner från 1970 till 2099. Varje rad anger semesterinformationen för ett visst datum, land eller region och om de flesta har betalat ledighet. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i Allmänna helgdagar i Microsoft Azure Open Datasets-katalogen. Initiera filtreringsfält. |
| PublicHolidaysOffline |
Representerar den offentliga datauppsättningen För helgdagar offline. En beskrivning av raderna finns i Allmänna helgdagar i Microsoft Azure Open Datasets-katalogen. Initiera filtreringsfält. |
| SampleDatasetBase |
Representerar klassen Sample Dataset Base. |
| SanFranciscoSafety |
Representerar den offentliga datamängden San Francisco Safety. Den här datamängden innehåller brandkårsanrop för service och 311 fall i San Francisco. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i San Francisco Safety Data i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| SeattleSafety |
Representerar den offentliga datamängden Seattle Safety. Den här datamängden innehåller Seattle Fire Department 911 dispatch data. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Seattle Safety Data i Katalogen Microsoft Azure Open Datasets. Initiera filtreringsfält. |
| UsLaborCPI |
Representerar den offentliga datamängden för us Consumer Price Index. Konsumentprisindex (KPI) är ett mått på den genomsnittliga förändringen över tid i de priser som betalas av stadskonsumenter för en marknadskorg med konsumentvaror och tjänster. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Consumer Price Index i Microsoft Azure Open Datasets-katalogen. Initiera. |
| UsLaborEHENational |
Representerar us National Employment Hours and Earnings public dataset. Den här datamängden innehåller branschuppskattningar av icke-jordbruksanställda, timmar och inkomster för arbetare på löner i USA. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Us National Employment Hours and Earning in the Microsoft Azure Open Datasets catalog ( Nationella anställningstimmar och intäkter i Microsoft Azure Open Datasets-katalogen). Initiera. |
| UsLaborEHEState |
Representerar us State Employment Hours and Earnings public dataset. Den här datamängden innehåller branschuppskattningar av icke-jordbruksanställda, timmar och inkomster för arbetare på löner i USA. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i US State Employment Hours and Earning in the Microsoft Azure Open Datasets catalog ( Us State Employment Hours and Earning in the Microsoft Azure Open Datasets catalog). Initiera. |
| UsLaborLAUS |
Representerar den offentliga datamängden för us Local Area Unemployment Statistics. Den här datamängden innehåller månatliga och årliga uppgifter om sysselsättning, arbetslöshet och arbetskraft för censusregioner och -divisioner, delstater, län, storstadsområden och många städer i USA. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i Us Local Area Unemployment Statistics in the Microsoft Azure Open Datasets catalog ( Us Local Area Unemployment Statistics in the Microsoft Azure Open Datasets catalog). Initiera. |
| UsLaborLFS |
Representerar den offentliga datamängden us Labor Force Statistics. Den här datamängden innehåller data om arbetskraften i USA, inklusive arbetskraftsandel och den civila icke-institutionella befolkningen efter ålder, kön, ras och etniska grupper. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i US Labor Force Statistics i Microsoft Azure Open Datasets-katalogen. Initiera. |
| UsLaborPPICommodity |
Representerar us Producer Price Index (PPI) – Commodities public dataset. Producentprisindex (PPI) är ett mått på genomsnittlig förändring över tid i de försäljningspriser som inhemska producenter får för sin produktion. Priserna som ingår i PPI kommer från den första kommersiella transaktionen för produkter och tjänster som omfattas. Den här datamängden innehåller protonpumpshämmare för enskilda produkter och grupper av produkter som släpps varje månad. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Producer Price Index – Commodities in the Microsoft Azure Open Datasets catalog ( US Producer Price Index – Commodities in the Microsoft Azure Open Datasets catalog). Initiera. |
| UsLaborPPIIndustry |
Representerar us Producer Price Index (PPI) – Bransch offentlig datauppsättning. Producentprisindex (PPI) är ett mått på genomsnittlig förändring över tid i de försäljningspriser som inhemska producenter får för sin produktion. Priserna som ingår i PPI kommer från den första kommersiella transaktionen för produkter och tjänster som omfattas. Den här datamängden innehåller protonpumpshämmare för en mängd olika branschsektorer i den amerikanska ekonomin. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i US Producer Price Index – Industry in the Microsoft Azure Open Datasets catalog ( US Producer Price Index – Industry in the Microsoft Azure Open Datasets catalog). Allmän information om Azure Open Datasets finns i Dokumentation om Azure Open Datasets. Initiera. |
| UsPopulationCounty |
Representerar den offentliga datamängden US Population by County. Den här datamängden innehåller amerikansk befolkning efter kön och ras för varje amerikanskt län från 2000 och 2010 decennial census. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datamängden och exempel finns i US Population by County i Microsoft Azure Open Datasets-katalogen. Initiera. |
| UsPopulationZip |
Representerar den amerikanska populationen efter postnummer, offentlig datauppsättning. Den här datamängden innehåller amerikansk befolkning efter kön och ras för varje amerikanskt postnummer från 2010 decennial census. Mer information om den här datamängden, inklusive kolumnbeskrivningar, olika sätt att komma åt datauppsättningen och exempel finns i AMERIKANSKA population efter postnummer i katalogen Microsoft Azure Open Datasets. Initiera. |