Dela via


Aggregator Klass

Definierar en aggregering mot angivna kolumner som identifieras med kopplingsnycklar.

Konstruktor

Aggregator()

Kommentarer

Aggregeringar instansieras vanligtvis inte direkt. Ange i stället typen av aggregator när du använder en berikare, till exempel HolidayEnricher objektet.

Härledda aggregeringar inkluderar AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.

Metoden process(env, customer_data, public_data, join_keys, debug) utför aggregeringen.

Metoder

get_log_property

Hämta loggegenskapstuppeln, Ingen om ingen egenskap.

process

Vänsterkoppling customer_data med public_data på join_keys.

Släpp alla kolumner i join_keys och alla kolumner som finns i listan över to_be_cleaned_up_column_names efteråt.

process_public_dataset

Utför aggregering på angivna offentliga datakolumner.

get_log_property

Hämta loggegenskapstuppeln, Ingen om ingen egenskap.

get_log_property()

process

Vänsterkoppling customer_data med public_data på join_keys.

Släpp alla kolumner i join_keys och alla kolumner som finns i listan över to_be_cleaned_up_column_names efteråt.

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

Parametrar

Name Description
env
Obligatorisk

Körningsmiljön.

customer_data
Obligatorisk

Kunddata.

public_data
Obligatorisk

Offentliga data.

join_keys
Obligatorisk

En lista över kopplingsnyckelpar.

debug
Obligatorisk

Anger om felsökningsinformation ska skrivas ut.

Returer

Typ Description

En tuppeln av ( en ny instans av klassen CustomerData, oförändrad instans av PublicData, en ny ansluten instans av klassen CustomerData, kopplingsnycklar (lista över tuppeln))

process_public_dataset

Utför aggregering på angivna offentliga datakolumner.

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

Parametrar

Name Description
env
Obligatorisk

Körningsmiljön.

_public_dataset
Obligatorisk

En offentlig datauppsättningsdataram.

cols

En lista med kolumnnamn som ska hämtas.

Standardvärde: None
join_keys

En lista över kopplingsnycklar som ska användas.

Standardvärde: []

Returer

Typ Description

En ny dataram för den offentliga datauppsättningen.

Attribut

should_direct_join

should_direct_join = True