Aggregator Klass

Definierar en aggregering mot angivna kolumner som identifieras med kopplingsnycklar.

Konstruktor

Aggregator()

Kommentarer

Aggregeringar instansieras vanligtvis inte direkt. Ange i stället typen av aggregator när du använder en berikare, till exempel HolidayEnricher objektet.

Härledda aggregeringar inkluderar AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

Metoden process(env, customer_data, public_data, join_keys, debug) utför aggregeringen.

Metoder

get_log_property

Hämta loggegenskapstuppeln, Ingen om ingen egenskap.

process

Vänsterkoppling customer_data med public_data på join_keys.

Släpp alla kolumner i join_keys och alla kolumner som finns i listan över to_be_cleaned_up_column_names efteråt.

process_public_dataset

Utför aggregering på angivna offentliga datakolumner.

get_log_property

Hämta loggegenskapstuppeln, Ingen om ingen egenskap.

get_log_property()

process

Vänsterkoppling customer_data med public_data på join_keys.

Släpp alla kolumner i join_keys och alla kolumner som finns i listan över to_be_cleaned_up_column_names efteråt.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parametrar

Name	Description
env Obligatorisk	RuntimeEnv Körningsmiljön.
customer_data Obligatorisk	CustomerData Kunddata.
public_data Obligatorisk	PublicData Offentliga data.
join_keys Obligatorisk	list[tuple] En lista över kopplingsnyckelpar.
debug Obligatorisk	bool Anger om felsökningsinformation ska skrivas ut.

Returer

Typ	Description
tuple[ CustomerData, PublicData, CustomerData, list[tuple([str, str])]	En tuppeln av ( en ny instans av klassen CustomerData, oförändrad instans av PublicData, en ny ansluten instans av klassen CustomerData, kopplingsnycklar (lista över tuppeln))

process_public_dataset

Utför aggregering på angivna offentliga datakolumner.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parametrar

Name	Description
env Obligatorisk	RuntimeEnv Körningsmiljön.
_public_dataset Obligatorisk	DataFrame En offentlig datauppsättningsdataram.
cols	list En lista med kolumnnamn som ska hämtas. Standardvärde: None
join_keys	list En lista över kopplingsnycklar som ska användas. Standardvärde: []

Returer

Typ	Description
object	En ny dataram för den offentliga datauppsättningen.

Attribut

should_direct_join

should_direct_join = True

Feedback

Var den här sidan till hjälp?

Dela via

Aggregator Klass

Konstruktor

Kommentarer

Metoder

get_log_property

process

Parametrar

Returer

process_public_dataset

Parametrar

Returer

Attribut

should_direct_join

Feedback