Aggregator 类

针对使用联接键标识的指定列定义聚合。

构造函数

Aggregator()

注解

聚合器通常不会直接实例化。 而是在使用扩充器(如 HolidayEnricher 对象)时指定聚合器的类型。

派生聚合器包括AggregatorAll,,AggregatorAvgAggregatorMaxAggregatorMinAggregatorTop

该方法 process(env, customer_data, public_data, join_keys, debug) 执行聚合。

方法

get_log_property

获取日志属性元组;如果没有属性,则为 None。

process

左联接customer_data与join_keys上的public_data。

删除join_keys中的所有列以及之后to_be_cleaned_up_column_names列表中的所有列。

process_public_dataset

对指定的公共数据列执行聚合。

get_log_property

获取日志属性元组;如果没有属性,则为 None。

get_log_property()

process

左联接customer_data与join_keys上的public_data。

删除join_keys中的所有列以及之后to_be_cleaned_up_column_names列表中的所有列。

process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)

参数

名称 说明
env
必需

运行时环境。

customer_data
必需

客户数据。

public_data
必需

公共数据。

join_keys
必需

联接键对的列表。

debug
必需

指示是否打印调试信息。

返回

类型 说明

元组(类 CustomerData 的新实例、PublicData 的未更改实例、CustomerData 类的新联接实例、联接键(元组列表)的元组

process_public_dataset

对指定的公共数据列执行聚合。

process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object

参数

名称 说明
env
必需

运行时环境。

_public_dataset
必需

公共数据集数据帧。

cols

要检索的列名列表。

默认值: None
join_keys

要使用的联接键列表。

默认值: []

返回

类型 说明

公共数据集的新数据帧。

属性

should_direct_join

should_direct_join = True