Modellsopning och val för prognostisering i AutoML

2025-03-11

Den här artikeln beskriver hur automatiserad maskininlärning (AutoML) i Azure Machine Learning söker efter och väljer prognosmodeller. Om du är intresserad av att lära dig mer om prognosmetoden i AutoML kan du läsa Översikt över prognosmetoder i AutoML. Information om hur du utforskar träningsexempel för prognosmodeller i AutoML finns i Konfigurera AutoML för att träna en prognosmodell för tidsserier med SDK och CLI.

Modellsankning i AutoML

Den centrala uppgiften för AutoML är att träna och utvärdera flera modeller och välja den bästa med avseende på det angivna primära måttet. Ordet "modell" i det här fallet refererar till både modellklassen, till exempel ARIMA eller Random Forest, och de specifika hyperparameterinställningarna som skiljer modeller inom en klass. Till exempel refererar ARIMA till en klass av modeller som delar en matematisk mall och en uppsättning statistiska antaganden. Träning, eller anpassning, en ARIMA-modell kräver en lista över positiva heltal som anger modellens exakta matematiska form. Dessa värden är hyperparametrarna. Modellerna ARIMA(1, 0, 1) och ARIMA(2, 1, 2) har samma klass, men olika hyperparametrar. Dessa definitioner kan anpassas separat med träningsdata och utvärderas mot varandra. AutoML-sökningar, eller svepningar, över olika modellklasser och inom klasser genom att variera hyperparametrarna.

Svepmetoder för hyperparameter

I följande tabell visas de olika svepmetoder för hyperparametrar som AutoML använder för olika modellklasser:

Modellklassgrupp	Modelltyp	Svepmetod för hyperparameter
Naiv, Säsongsnaiv, Genomsnitt, Säsongsgenomsnitt	Tidsserier	Ingen svepning inom klassen på grund av modell enkelhet
Exponentiell utjämning, ARIMA(X)	Tidsserier	Rutnätssökning efter svepning inom klassen
Profet	Tillbakagång	Ingen svepning inom klassen
Linjär SGD, LARS LASSO, Elastic Net, K Nearest Neighbors, Decision Tree, Random Forest, Extremely Randomized Trees, Gradient Boosted Trees, LightGBM, XGBoost	Tillbakagång	AutoML:s modellrekommendationstjänst utforskar dynamiskt hyperparameterutrymmen
ForecastTCN	Tillbakagång	Statisk lista över modeller följt av slumpmässig sökning över nätverksstorlek, avhoppsförhållande och inlärningsfrekvens

En beskrivning av de olika modelltyperna finns i avsnittet Prognostiseringsmodeller i AutoML i översiktsartikeln prognosmetoder.

Mängden svepning av AutoML beror på konfigurationen av prognostiseringsjobbet. Du kan ange stoppvillkoren som en tidsgräns eller en gräns för antalet utvärderingsversioner eller motsvarande antal modeller. Logik för tidig avslutning kan användas i båda fallen för att sluta sopa om det primära måttet inte förbättras.

Modellval i AutoML

AutoML följer en process i tre faser för att söka efter och välja prognosmodeller:

Fas 1: Svep över tidsseriemodeller och välj den bästa modellen från varje klass med hjälp av metoder för maximal sannolikhetsuppskattning .
Fas 2: Svep över regressionsmodeller och rangordna dem, tillsammans med de bästa tidsseriemodellerna från fas 1, enligt deras primära måttvärden från valideringsuppsättningar.
Fas 3: Skapa en ensemblemodell från de högst rankade modellerna, beräkna dess valideringsmått och rangordna den med de andra modellerna.

Modellen med det högst rankade måttvärdet i slutet av fas 3 är den bästa modellen.

Viktigt!

I fas 3 beräknar AutoML alltid mått på out-of-sample-data som inte används för att passa modellerna. Den här metoden hjälper till att skydda mot överanpassning.

Valideringskonfigurationer

AutoML har två valideringskonfigurationer: korsvalidering och explicita valideringsdata.

I korsvalideringsfallet använder AutoML indatakonfigurationen för att skapa datadelningar i tränings- och valideringsdelegeringar. Tidsordningen måste bevaras i dessa delningar. AutoML använder så kallad rullande korsvalidering av ursprung, vilket delar upp serien i tränings- och valideringsdata med hjälp av en ursprungstidspunkt. Om du skjuter ursprunget i tid genereras korsvalideringsvecken. Varje valideringsveck innehåller nästa horisont av observationer omedelbart efter ursprungspositionen för den angivna viken. Den här strategin bevarar dataintegriteten i tidsserien och minskar risken för informationsläckage.

Diagram som visar korsvalideringsdelegeringar som avgränsar tränings- och valideringsuppsättningarna baserat på stegstorleken för korsvalidering.

AutoML följer den vanliga korsvalideringsproceduren och tränar en separat modell för varje vik och medelvärde av valideringsmått från alla veck.

Korsvalidering för prognostiseringsjobb konfigureras genom att ange antalet korsvalideringsdelegeringar och valfritt antal tidsperioder mellan två på varandra följande korsvalideringsdelegeringar. Mer information och ett exempel på hur du konfigurerar korsvalidering för prognostisering finns i Anpassade korsvalideringsinställningar.

Du kan också ta med egna valideringsdata. Mer information finns i Konfigurera tränings-, validerings-, korsvaliderings- och testdata i AutoML (SDK v1).

Feedback

Var den här sidan till hjälp?