OpenDatasetBase 类
打开用于继承的数据集基类。
构造打开的数据集。
构造函数
OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)
参数
| 名称 | 说明 |
|---|---|
|
cols
|
要从数据集加载的列名称列表,默认值为 None 默认值: None
|
|
enable_telemetry
|
是否为此数据集启用遥测,默认值为 True 默认值: True
|
|
kwargs
必需
|
筛选器的 args |
方法
| get_file_dataset |
获取打开数据集的文件数据集。 |
| get_tabular_dataset |
使用 Blob URL 初始化 AbstractTabularOpenDataset。 |
| to_pandas_dataframe |
到 pandas 数据帧。 |
| to_spark_dataframe |
激发数据帧。 |
get_file_dataset
获取打开数据集的文件数据集。
get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset
参数
| 名称 | 说明 |
|---|---|
|
cls
必需
|
当前类 |
|
start_date
必需
|
开始日期,默认值为 None |
|
end_date
必需
|
结束日期,默认值为 None |
|
enable_telemetry
必需
|
启用遥测,默认值为 True |
返回
| 类型 | 说明 |
|---|---|
|
文件数据集 |
get_tabular_dataset
使用 Blob URL 初始化 AbstractTabularOpenDataset。
get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset
参数
| 名称 | 说明 |
|---|---|
|
cls
必需
|
打开数据集的类型名称。 |
|
start_date
必需
|
非独占查询的开始日期。 |
|
end_date
必需
|
非独占查询的结束日期。 |
|
cols
必需
|
要检索的列名列表。 无将获取所有列。 |
|
enable_telemetry
必需
|
是否启用遥测,仅对 UT 禁用。 |
返回
| 类型 | 说明 |
|---|---|
|
TabularDataset |
to_pandas_dataframe
到 pandas 数据帧。
to_pandas_dataframe() -> DataFrame
to_spark_dataframe
激发数据帧。
to_spark_dataframe()
属性
cols
获取要检索的列名列表。
data
获取 OpenDataset 对象的数据。
id
获取打开数据的位置 ID。
log_properties
获取日志属性。
registry_id
获取在后端注册的此公共数据集的注册表 ID。
此注册表 ID 用于获取最新的元数据,例如存储位置。 期望所有公共数据子类分配_registry_id。
返回
| 类型 | 说明 |
|---|---|
|
注册表 ID 字符串。 |
time_column_name
时间列名称。