Dela via


Prognostisering i stor skala: många modeller och distribuerad träning

I den här artikeln beskrivs modeller för träningsprognoser för stora mängder historiska data. Anvisningar och exempel på modeller för träningsprognoser i AutoML finns i Konfigurera AutoML för prognostisering av tidsserier.

Tidsseriedata kan vara stora på grund av antalet serier i data, antalet historiska observationer eller både och. Många modeller och hierarkiska tidsserier, eller HTS, är skalningslösningar för det första scenariot, där data består av ett stort antal tidsserier. I dessa fall kan partitionering av data i grupper och träning av ett stort antal oberoende modeller parallellt på grupperna förbättra modellens noggrannhet och skalbarhet. Omvänt fungerar en eller några modeller med hög kapacitet bättre för andra scenarier. Distribuerad DNN-utbildning riktar sig mot det här fallet. Resten av den här artikeln granskar begrepp som rör dessa scenarier.

Många modeller

Med de många modellkomponenterna i AutoML kan du träna och hantera miljontals modeller parallellt. Anta till exempel att du har historiska försäljningsdata för ett stort antal butiker. Du kan använda många modeller för att starta parallella AutoML-träningsjobb för varje butik, enligt följande diagram:

Diagram som visar arbetsflödet autoML många modeller.

Träningskomponenten för många modeller tillämpar AutoML:s modells svepning och val oberoende av varje butik i det här exemplet. Den här modellens oberoende underlättar skalbarheten och kan vara till nytta för modellens noggrannhet, särskilt när butikerna har olika försäljningsdynamik. En enskild modellmetod kan dock ge mer exakta prognoser när det finns vanliga försäljningsdynamiker. Mer information finns i avsnittet distribuerad DNN-utbildning .

Du kan konfigurera datapartitioneringen, AutoML-inställningarna för modellerna och graden av parallellitet för många modellers träningsjobb. Exempel finns i vårt guideavsnitt om många modellkomponenter.

Prognostisering för hierarkisk tidsserie

I affärsprogram innehåller tidsseriedata ofta kapslade attribut som utgör en hierarki. Geografiska attribut och produktkatalogattribut kapslas till exempel ofta inom varandra. Tänk dig ett exempel där hierarkin innehåller två geografiska attribut, tillstånds- och butiks-ID och två produktattribut, kategori och SKU:

Exempeltabell med hierarkiska tidsseriedata.

Följande diagram illustrerar den här hierarkin:

Diagram över datahierarkin för exempeldata.

Försäljningskvantiteterna på lövnivån (SKU) uppgår till de aggregerade försäljningskvantiteterna på delstatsnivå och total försäljningsnivå. Hierarkiska prognosmetoder bevarar dessa aggregeringsegenskaper vid prognostisering av den kvantitet som säljs på valfri nivå i hierarkin. Prognoser med den här egenskapen är sammanhängande med avseende på hierarkin.

AutoML stöder följande funktioner för hierarkisk tidsserie (HTS):

  • Träning på valfri nivå i hierarkin. I vissa fall kan data på lövnivå vara bullriga, men aggregerade data kan vara lättare att förutse.
  • Hämtar punktprognoser på valfri nivå i hierarkin. Om prognosnivån är "under" träningsnivån, disaggregerar modellen prognoser från träningsnivån med hjälp av genomsnittliga historiska proportioner eller andelar av historiska medelvärden. Om prognosnivån är "över" träningsnivån summerar modellen träningsnivåprognoser enligt aggregeringsstrukturen.
  • Hämtar kvantil- och probabilistiska prognoser för nivåer på eller "under" träningsnivån. Aktuella modelleringsfunktioner stöder disaggregering av probabilistiska prognoser.

HTS-komponenter i AutoML bygger på många modeller, så HTS delar de skalbara egenskaperna för många modeller. Exempel finns i vår guideavsnitt om HTS-komponenter.

Distribuerad DNN-utbildning (förhandsversion)

Viktigt!

Den här funktionen är för närvarande i allmänt tillgänglig förhandsversion. Den här förhandsversionen tillhandahålls utan ett serviceavtal och vi rekommenderar det inte för produktionsarbetsbelastningar. Vissa funktioner kanske inte stöds eller kan vara begränsade.

Mer information finns i Kompletterande villkor för användning av Microsoft Azure-förhandsversioner.

Datascenarier som innehåller stora mängder historiska observationer eller ett stort antal relaterade tidsserier kan dra nytta av en skalbar och enkel modellmetod. Därför stöder AutoML distribuerad träning och modellsökning på TCN-modeller (temporal convolutional network), som är en typ av djup neuralt nätverk (DNN) för tidsseriedata. Mer information om AutoML:s TCN-modellklass finns i vår DNN-artikel.

Distribuerad DNN-träning uppnår skalbarhet med hjälp av en algoritm för datapartitionering som respekterar tidsseriegränser. Följande diagram illustrerar ett enkelt exempel med två partitioner:

Exempeldiagram över en partition för distribuerade träningsdata.

Under träningen läser DNN-datainläsarna på varje beräkningsnod in precis vad de behöver för att slutföra en iteration av bakåtspridning. hela datamängden läss aldrig in i minnet. Partitionerna distribueras ytterligare över flera beräkningskärnor (vanligtvis GPU:er) på eventuellt flera noder för att påskynda träningen. Horovod-ramverket tillhandahåller samordning mellan beräkningsnoder.

Nästa steg