dataset_utilities 模块

用于与 azureml.core.Dataset 交互的实用工具方法。

函数

collect_usage_telemetry

collect_usage_telemetry(compute: Any, spark_context: Any, **kwargs: Any) -> None

参数

名称 说明
compute
必需
spark_context
必需

convert_inputs

将给定数据集转换为可跟踪定义。

convert_inputs(X: Any, y: Any, sample_weight: Any, X_valid: Any, y_valid: Any, sample_weight_valid: Any) -> Tuple[Any, Any, Any, Any, Any, Any]

参数

名称 说明
X
必需

表示 X 的数据集

y
必需

表示 y 的数据集

sample_weight
必需

表示示例权重的数据集

X_valid
必需

表示X_valid的数据集

y_valid
必需

表示y_valid的数据集

sample_weight_valid
必需

表示验证示例权重的数据集

convert_inputs_dataset

将给定数据集转换为可跟踪定义。

convert_inputs_dataset(*datasets: Any) -> Tuple[Any, ...]

参数

名称 说明
datasets
必需

要转换为可跟踪定义的数据集

ensure_saved

ensure_saved(workspace: Workspace, **kwargs: Any) -> None

参数

名称 说明
workspace
必需

get_dataset_from_mltable_data_json

从 MLTable 数据 json 获取数据集

get_dataset_from_mltable_data_json(ws: Workspace, mltable_data_json_obj: Dict[str, Any], data_label: MLTableDataLabel) -> AbstractDataset | None

参数

名称 说明
ws
必需

要从中获取数据集的工作区

mltable_data_json_obj
必需

mltable data json 对象

data_label
必需

指示要从 mltable 数据 json 加载的数据集的标签

get_datasets_from_data_json

从数据 json 获取数据集,可以是 MLTable 数据 json(含 uri)或 Dataprep json(包含数据集 ID)

get_datasets_from_data_json(ws: Workspace, data_preparation_json: Dict[str, Any], data_labels: List[MLTableDataLabel]) -> Tuple[AbstractDataset | None, AbstractDataset | None, AbstractDataset | None]

参数

名称 说明
ws
必需

要从中获取数据集的工作区

data_preparation_json
必需

data json 对象

data_labels
必需

指示数据集从数据 json 加载的标签列表

get_datasets_from_dataprep_json

从 Dataprep json 获取数据集(包含数据集 ID)

get_datasets_from_dataprep_json(ws: Workspace, dataprep_json: Dict[str, Any], data_labels: List[MLTableDataLabel]) -> Tuple[AbstractDataset | None, AbstractDataset | None, AbstractDataset | None]

参数

名称 说明
ws
必需

要从中获取数据集的工作区

data_preparation_json
必需

data json 对象

data_labels
必需

指示数据集从数据 json 加载的标签列表

dataprep_json
必需

get_datasets_from_mltable_data_json

从 MLTable 数据 json 获取数据集(含 uri)

get_datasets_from_mltable_data_json(ws: Workspace, mltable_data_json_obj: Dict[str, Any], data_labels: List[MLTableDataLabel]) -> Tuple[AbstractDataset | None, AbstractDataset | None, AbstractDataset | None]

参数

名称 说明
ws
必需

要从中获取数据集的工作区

data_preparation_json
必需

data json 对象

data_labels
必需

指示数据集从数据 json 加载的标签列表

mltable_data_json_obj
必需

get_datasets_json

获取 dataprep json。

get_datasets_json(training_data: Any | None = None, validation_data: Any | None = None, test_data: Any | None = None) -> str | None

参数

名称 说明
training_data

训练数据。

默认值: None
validation_data

验证数据

默认值: None
test_data

测试数据

默认值: None

返回

类型 说明

数据集听写的 JSON 字符串表示形式

is_dataset

检查给定对象是否为数据集或数据集定义。

is_dataset(dataset: Any) -> bool

参数

名称 说明
dataset
必需

要检查的对象