OpenDatasetBase 类

打开用于继承的数据集基类。

构造打开的数据集。

构造函数

OpenDatasetBase(cols: List[str] | None = None, enable_telemetry: bool = True, **kwargs)

参数

名称	说明
cols	list[str] 要从数据集加载的列名称列表，默认值为 None 默认值: None
enable_telemetry	bool 是否为此数据集启用遥测，默认值为 True 默认值: True
kwargs 必需	dict 筛选器的 args

方法

get_file_dataset	获取打开数据集的文件数据集。
get_tabular_dataset	使用 Blob URL 初始化 AbstractTabularOpenDataset。
to_pandas_dataframe	到 pandas 数据帧。
to_spark_dataframe	激发数据帧。

get_file_dataset

获取打开数据集的文件数据集。

get_file_dataset(start_date: datetime = None, end_date: datetime = None, enable_telemetry: bool = True, **kwargs) -> FileDataset

参数

名称	说明
cls 必需	type 当前类
start_date 必需	datetime 开始日期，默认值为 None
end_date 必需	datetime 结束日期，默认值为 None
enable_telemetry 必需	bool 启用遥测，默认值为 True

类型	说明
FileDataset	文件数据集

get_tabular_dataset

使用 Blob URL 初始化 AbstractTabularOpenDataset。

get_tabular_dataset(start_date: datetime = None, end_date: datetime = None, cols: List[str] = None, enable_telemetry: bool = True, **kwargs) -> TabularDataset

参数

名称	说明
cls 必需	type 打开数据集的类型名称。
start_date 必需	datetime 非独占查询的开始日期。
end_date 必需	datetime 非独占查询的结束日期。
cols 必需	list[str] 要检索的列名列表。无将获取所有列。
enable_telemetry 必需	bool 是否启用遥测，仅对 UT 禁用。

类型	说明
TabularDataset	TabularDataset

to_pandas_dataframe

到 pandas 数据帧。

to_pandas_dataframe() -> DataFrame

to_spark_dataframe

激发数据帧。

to_spark_dataframe()

属性

cols

获取要检索的列名列表。

data

获取 OpenDataset 对象的数据。

id

获取打开数据的位置 ID。

log_properties

获取日志属性。

registry_id

获取在后端注册的此公共数据集的注册表 ID。

此注册表 ID 用于获取最新的元数据，例如存储位置。期望所有公共数据子类分配_registry_id。

类型	说明
str	注册表 ID 字符串。

time_column_name

时间列名称。

反馈

此页面是否有帮助？

通过