Definiera problemet
Från och med det första steget vill du definiera det problem som modellen ska lösa genom att förstå:
- Vad modellens utdata ska vara.
- Vilken typ av maskininlärningsuppgift du använder.
- Vilka kriterier gör en modell framgångsrik.
Beroende på vilka data du har och de förväntade utdata från modellen kan du identifiera maskininlärningsuppgiften. Uppgiften avgör vilka typer av algoritmer du kan använda för att träna modellen.
Några vanliga maskininlärningsuppgifter är:
- Klassificering: Förutsäga ett kategoriskt värde.
- Regression: Förutsäga ett numeriskt värde.
- Prognostisering av tidsserier: Förutsäga framtida numeriska värden baserat på tidsseriedata.
- Visuellt innehåll: Klassificera bilder eller identifiera objekt i bilder.
- Bearbetning av naturligt språk (NLP): Extrahera insikter från text.
För att träna en modell har du en uppsättning algoritmer som du kan använda, beroende på vilken uppgift du vill utföra. För att utvärdera modellen kan du beräkna prestandamått som noggrannhet eller precision. Vilka mått som är tillgängliga beror också på vilken uppgift din modell behöver utföra och hjälper dig att avgöra om en modell lyckas i sin uppgift.
Utforska ett exempel
Tänk dig ett scenario där du vill avgöra om patienter har diabetes. Problemet du försöker lösa och vilken typ av data som är tillgängliga avgör vilken maskininlärningsuppgift du väljer. I det här fallet är tillgängliga data andra hälsodatapunkter från patienter. Vi kan representera de utdata vi vill ha som kategorisk information om att patienten antingen har diabetes eller inte har diabetes. Därför är maskininlärningsuppgiften klassificering.
Genom att förstå hela processen innan du börjar kan du kartlägga de beslut du behöver fatta för att utforma en lyckad maskininlärningslösning. Här följer ett diagram som visar ett sätt att hantera problemet med att identifiera diabetes hos en patient. I diagrammet förbereds, delas och tränas data med hjälp av specifika algoritmer. Därefter utvärderas modellen för kvalitet.
- Läs in data: Importera och inspektera datauppsättningen.
- Förbearbeta data: Normalisera och rensa för konsekvens.
- Dela upp data: Dela upp data i tränings- och testuppsättningar.
- Välj modell: Välj och konfigurera en algoritm.
- Träningsmodell: Lär dig mönster från träningsdata.
- Poängmodell: Generera förutsägelser på testdata.
- Utvärdera: Beräkna prestandamått.
Att träna en maskininlärningsmodell är ofta en iterativ process, där du går igenom vart och ett av dessa steg flera gånger för att hitta den modell som fungerar bäst. Nu ska vi undersöka förberedelseprocessen för data för att utveckla en maskininlärningslösning.