Hämta och förbereda data
Data är grunden för maskininlärning. Både datakvantitet och datakvalitet påverkar modellens noggrannhet.
Om du vill träna en maskininlärningsmodell måste du:
- Identifiera datakälla och format.
- Välj hur du ska hantera data.
- Utforma en datainmatningslösning.
För att hämta och förbereda de data som du använder för att träna maskininlärningsmodellen måste du extrahera data från en källa och göra dem tillgängliga för den Azure-tjänst som du vill använda för att träna modeller eller göra förutsägelser.
Identifiera datakälla och format
Först måste du identifiera din datakälla och dess aktuella dataformat.
| Identifiera | Exempel |
|---|---|
| Datakälla | Data kan till exempel lagras i ett CRM-system (Customer Relationship Management), i en transaktionsdatabas som en SQL-databas eller genereras av en IoT-enhet (Internet of Things). |
| Dataformat | Du måste förstå det aktuella formatet för data, som kan vara tabellbaserade eller strukturerade data, halvstrukturerade data eller ostrukturerade data. |
Sedan måste du bestämma vilka data du behöver för att träna din modell och i vilket format du vill att dessa data ska betjänas till modellen.
Utforma en datainmatningslösning
I allmänhet är det bästa praxis att extrahera data från källan innan du analyserar dem. Oavsett om du använder data för datateknik, dataanalys eller datavetenskap vill du extrahera data från källan, transformera dem och läsa in dem i ett serveringslager. En sådan process kallas även extrahering, transformering och inläsning (ETL) eller extrahering, inläsning och transformering (ELT). Serveringslagret gör dina data tillgängliga för den tjänst som du använder för ytterligare databehandling, till exempel träningsmaskininlärningsmodeller.
Om du vill flytta och transformera data kan du använda en pipeline för datainmatning. En datainmatningspipeline är en sekvens med uppgifter som flyttar och transformerar data. Genom att skapa en pipeline kan du välja att utlösa aktiviteterna manuellt eller schemalägga pipelinen när du vill att aktiviteterna ska automatiseras. Sådana pipelines kan skapas med Azure-tjänster som Azure Synapse Analytics, Azure Databricks och även Azure Machine Learning.
En vanlig metod för en datainmatningslösning är att:
- Extrahera rådata från källan (t.ex. ett CRM-system eller en IoT-enhet).
- Kopiera och transformera data med Azure Synapse Analytics.
- Lagra förberedda data i en Azure Blob Storage.
- Träna modellen med Azure Machine Learning.
Utforska ett exempel
Anta att du vill träna en väderprognosmodell. Du föredrar en tabell där alla temperaturmätningar för varje minut kombineras. Du vill skapa aggregeringar av data och ha en tabell med medeltemperaturen per timme. Om du vill skapa tabellen vill du transformera halvstrukturerade data som matas in från IoT-enheten som mäter temperatur med jämna mellanrum till tabelldata.
Om du till exempel vill skapa en datauppsättning som du kan använda för att träna prognosmodellen kan du:
- Extrahera datamätningar som JSON-objekt från IoT-enheterna.
- Konvertera JSON-objekten till en tabell.
- Transformera data för att hämta temperaturen per dator och minut.
Nu ska vi utforska de tjänster som vi kan använda för att träna maskininlärningsmodeller.