Apache Spark(Microsoft Fabric 的一部分)可大规模实现机器学习。 使用它从大量结构化、非结构化和流式处理数据中获得见解。 使用开源库(如 Apache Spark MLlib、SynapseML 等)在 Microsoft Fabric 中训练模型。
Apache SparkML 和 MLlib
Apache Spark(Microsoft Fabric 的一部分)是统一的开源并行数据处理框架。 它使用内存中处理来加快大数据分析的速度。 Spark 专为快速、易于使用和高级分析而构建。 Spark 的内存中分布式计算适用于迭代机器学习和图形算法。
MLlib 和 SparkML 可缩放的机器学习库为此分布式环境带来了算法建模功能。 MLlib 提供基于 RDD 的原始 API。 SparkML 是一个较新的包,它提供用于生成 ML 管道的基于数据帧的更高级别的 API。 它提供基于 DataFrames 构建的更高级 API,用于构造 ML 管道。 SparkML 尚不支持所有 MLlib 功能,但它取代 MLlib 作为标准 Spark 机器学习库。
注意
在使用 Apache Spark MLlib 训练模型中了解更多信息。
常用库
适用于 Apache Spark 的 Microsoft Fabric 运行时包括几个用于训练机器学习模型的常用开源包。 这些库为项目提供可重用的代码。 运行时包括以下机器学习库:
Scikit-learn - 经典机器学习算法的热门单节点库。 它支持大多数监督和非监督算法,并处理数据挖掘和数据分析。
XGBoost - 一个常用的库,其中包含用于训练决策树和随机林的优化算法。
PyTorch 和 Tensorflow 是功能强大的 Python 深度学习库。 使用这些库,可以将池中的执行器数量设置为零,以构建单机模型。 尽管该配置不支持 ApacheSpark,但它是创建单机模型的一种简单、经济高效的方法。
SynapseML
SynapseML 开源库(以前称为 MMLSpark)可帮助你构建可缩放的机器学习(ML)管道。 它加快试验速度,使你能够将高级技术(包括深度学习)应用于大型数据集。
在生成可缩放的 ML 模型时,SynapseML 提供高于 SparkML 低级别 API 的层。 这些 API 涵盖字符串编制索引、特征向量程序集、将数据强制转换为适合机器学习算法的布局等。 SynapseML 库简化了可在 PySpark 中生成模型的这些任务以及其他常见任务。
相关内容
了解在 Microsoft Fabric 中训练 Apache Spark 中的机器学习模型的选项。 有关详细信息,请参见: