Aggregator 类
针对使用联接键标识的指定列定义聚合。
构造函数
Aggregator()
注解
聚合器通常不会直接实例化。 而是在使用扩充器(如 HolidayEnricher 对象)时指定聚合器的类型。
派生聚合器包括AggregatorAll,,AggregatorAvg,AggregatorMax,AggregatorMinAggregatorTop。
该方法 process(env, customer_data, public_data, join_keys, debug) 执行聚合。
方法
| get_log_property |
获取日志属性元组;如果没有属性,则为 None。 |
| process |
左联接customer_data与join_keys上的public_data。 删除join_keys中的所有列以及之后to_be_cleaned_up_column_names列表中的所有列。 |
| process_public_dataset |
对指定的公共数据列执行聚合。 |
get_log_property
获取日志属性元组;如果没有属性,则为 None。
get_log_property()
process
左联接customer_data与join_keys上的public_data。
删除join_keys中的所有列以及之后to_be_cleaned_up_column_names列表中的所有列。
process(env: SparkEnv | PandasEnv, customer_data: CustomerData, public_data: PublicData, join_keys: list, debug: bool)
参数
| 名称 | 说明 |
|---|---|
|
env
必需
|
运行时环境。 |
|
customer_data
必需
|
客户数据。 |
|
public_data
必需
|
公共数据。 |
|
join_keys
必需
|
联接键对的列表。 |
|
debug
必需
|
指示是否打印调试信息。 |
返回
| 类型 | 说明 |
|---|---|
|
元组(类 CustomerData 的新实例、PublicData 的未更改实例、CustomerData 类的新联接实例、联接键(元组列表)的元组 |
process_public_dataset
对指定的公共数据列执行聚合。
process_public_dataset(env: RuntimeEnv, _public_dataset: object, cols: List[str] | None = None, join_keys: List[Tuple[str, str]] = []) -> object
参数
| 名称 | 说明 |
|---|---|
|
env
必需
|
运行时环境。 |
|
_public_dataset
必需
|
公共数据集数据帧。 |
|
cols
|
要检索的列名列表。 默认值: None
|
|
join_keys
|
要使用的联接键列表。 默认值: []
|
返回
| 类型 | 说明 |
|---|---|
|
公共数据集的新数据帧。 |
属性
should_direct_join
should_direct_join = True