Dela via


Förberedelse av data för prognostisering

Den här artikeln beskriver hur AutoML förbereder data för prognosträning och beskriver konfigurerbara datainställningar. Du kan justera de här alternativen under experimentkonfigurationen i AutoML-användargränssnittet.

Information om hur du konfigurerar dessa inställningar med autoML-API:et finns i Referens för AutoML Python API.

Datafunktionstyper som stöds

Endast de funktionstyper som anges nedan stöds. Bilder stöds till exempel inte .

Följande funktionstyper stöds:

  • Numeriska (ByteType, ShortType, IntegerType, LongType, FloatTypeoch DoubleType)
  • Booleskt
  • Sträng (kategorisk eller engelsk text)
  • Tidsstämplar (TimestampType, DateType)
  • ArrayType[Numerisk] (Databricks Runtime 10.4 LTS ML och senare)
  • DecimalType (Databricks Runtime 11.3 LTS ML och senare)

Impute saknade värden

I Databricks Runtime 10.4 LTS ML och senare kan du ange hur null-värden ska imputeras. I användargränssnittet väljer du en metod i listrutan i kolumnen Impute with i tabellschemat. Använd parametern i API:et imputers . Mer information finns i AutoML Python API-referens.

Som standard väljer AutoML en imputationsmetod baserat på kolumntyp och innehåll.

Kommentar

Om du anger en imputationsmetod som inte är standard utför AutoML inte semantisk typidentifiering.

Dela upp prognosdata i tränings-, validerings- och testuppsättningar

AutoML delar upp dina data i tre delar för träning, validering och testning.

För prognostiseringsaktiviteter använder AutoML tidsserier för korsvalidering. Den här metoden utökar inkrementellt träningsdatauppsättningen kronologiskt och utför validering på efterföljande tidpunkter. Korsvalidering ger en robust utvärdering av en modells prestanda över olika tidssegment. Det säkerställer att prognosmodellen testas noggrant mot osynliga framtida data, vilket bibehåller relevansen och noggrannheten för förutsägelser.

Antalet korsvalideringsveckningar beror på indatatabellens egenskaper, till exempel antalet tidsserier, förekomsten av samvariat och tidsserielängden.

Aggregering av tidsserier

För prognostiseringsproblem använder AutoML medelvärdet av värdena när det finns flera värden för en tidsstämpel i en tidsserie.

Om du vill använda summan i stället redigerar du den källkodsanteckningsbok som genereras av utvärderingskörningarna. I cellen Aggregera data efter ... ändrar du .agg(y=(target_col, "avg")) till .agg(y=(target_col, "sum")), enligt följande:

group_cols = [time_col] + id_cols
df_aggregation = df_loaded \
  .groupby(group_cols) \
  .agg(y=(target_col, "sum")) \
  .reset_index() \
  .rename(columns={ time_col : "ds" })