Aggregator Klass
Definierar en aggregering mot angivna kolumner som identifieras med kopplingsnycklar.
Konstruktor
Aggregator()
	Kommentarer
Aggregeringar instansieras vanligtvis inte direkt. Ange i stället typen av aggregator när du använder en berikare, till exempel HolidayEnricher objektet.
Härledda aggregeringar inkluderar AggregatorAll, AggregatorAvg, AggregatorMax, AggregatorMin, AggregatorTop.
Metoden process(env, customer_data, public_data, join_keys, debug) utför aggregeringen.
Metoder
| get_log_property | 
					 Hämta loggegenskapstuppeln, Ingen om ingen egenskap.  | 
			
| process | 
					 Vänsterkoppling customer_data med public_data på join_keys. Släpp alla kolumner i join_keys och alla kolumner som finns i listan över to_be_cleaned_up_column_names efteråt.  | 
			
| process_public_dataset | 
					 Utför aggregering på angivna offentliga datakolumner.  | 
			
get_log_property
Hämta loggegenskapstuppeln, Ingen om ingen egenskap.
get_log_property()
process
Vänsterkoppling customer_data med public_data på join_keys.
Släpp alla kolumner i join_keys och alla kolumner som finns i listan över to_be_cleaned_up_column_names efteråt.
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
		Parametrar
| Name | Description | 
|---|---|
| 
		 env 
			
				Obligatorisk
			 
	 | 
	
		
		 Körningsmiljön.  | 
| 
		 customer_data 
			
				Obligatorisk
			 
	 | 
	
		
		 Kunddata.  | 
| 
		 public_data 
			
				Obligatorisk
			 
	 | 
	
		
		 Offentliga data.  | 
| 
		 join_keys 
			
				Obligatorisk
			 
	 | 
	
		
		 En lista över kopplingsnyckelpar.  | 
| 
		 debug 
			
				Obligatorisk
			 
	 | 
	
		
		 Anger om felsökningsinformation ska skrivas ut.  | 
Returer
| Typ | Description | 
|---|---|
| 
					 En tuppeln av ( en ny instans av klassen CustomerData, oförändrad instans av PublicData, en ny ansluten instans av klassen CustomerData, kopplingsnycklar (lista över tuppeln))  | 
		
process_public_dataset
Utför aggregering på angivna offentliga datakolumner.
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
		Parametrar
| Name | Description | 
|---|---|
| 
		 env 
			
				Obligatorisk
			 
	 | 
	
		
		 Körningsmiljön.  | 
| 
		 _public_dataset 
			
				Obligatorisk
			 
	 | 
	
		
		 En offentlig datauppsättningsdataram.  | 
| 
		 cols 
	 | 
	
		
		 En lista med kolumnnamn som ska hämtas. Standardvärde: None 
			 | 
| 
		 join_keys 
	 | 
	
		
		 En lista över kopplingsnycklar som ska användas. Standardvärde: [] 
			 | 
Returer
| Typ | Description | 
|---|---|
| 
					 En ny dataram för den offentliga datauppsättningen.  | 
		
Attribut
should_direct_join
should_direct_join = True