适用于:  SQL Server 2017 (14.x) 及更高版本
microsoftml 是 Microsoft 推出的 Python 包,可提供高性能的机器学习算法。 它包括用于定型和转换、评分、文本和图像分析的功能,以及用于从现有数据中派生值的特征提取功能。 该包在 SQL Server 机器学习服务中提供,支持高性能的大数据、多核处理及快速数据流式处理。
| 包详细信息 | 信息 | 
|---|---|
| 当前版本: | 9.4 | 
| 内置于: | Python 3.7.1 的 Anaconda 4.2 分发版 | 
| 包分发: | SQL Server 机器学习服务 2017 或 2019 版。 | 
如何使用 microsoftml
将 Python 添加到安装时,microsoftml 模块将作为 SQL Server 机器学习服务的一部分进行安装。 你可以获取专用包的完整集合,以及带有模块和解释器的 Python 发行版。 可以使用任何 python IDE 编写 Python 脚本来调用 microsoftml 中的函数,但该脚本必须在同时安装有 SQL Server 机器学习服务和 Python 的计算机上运行。
Microsoftml 和 revoscalepy 紧密耦合;microsoftml 中使用的数据源定义为 revoscalepy 对象 。 Revoscalepy 中的计算上下文限制传递到 microsoftml 。 即,所有功能都可用于本地操作,但切换到远程计算上下文需要 RxSpark 或 RxInSQLServer。
版本和平台
microsoftml 模块仅在安装以下 Microsoft 产品或下载之一时才可用:
注意
完整产品发布版本为 SQL Server 2017(仅限 Windows)。 SQL Server 2019 中的 microsoftml 同时支持 Windows 和 Linux 。
包依赖项
microsoftml 中的算法依赖于以下内容的 revoscalepy :
- 数据源对象 - microsoftml 函数使用的数据是使用 revoscalepy 函数创建的 。
- 远程计算(将函数执行转移到远程 SQL Sever 实例)- revoscalepy 包提供用于创建和激活 SQL Server 远程计算上下文的函数。
在大多数情况下,在使用 microsoftml 时,需要一起加载包 。
按类别列出函数
本部分按类别列出函数,以帮助了解每个函数的使用方式。 此外,还可以使用目录按字母顺序查找函数。
1 训练函数
| 函数 | 说明 | 
|---|---|
| microsoftml.rx_ensemble | 定型模型的系综。 | 
| microsoftml.rx_fast_forest | 随机林。 | 
| microsoftml.rx_fast_linear | 线性模型。 以及随机双坐标上升。 | 
| microsoftml.rx_fast_trees | 提升树。 | 
| microsoftml.rx_logistic_regression | 逻辑回归。 | 
| microsoftml.rx_neural_network | 神经网络。 | 
| microsoftml.rx_oneclass_svm | 异常检测。 | 
2 转换函数
分类变量处理
| 函数 | 说明 | 
|---|---|
| microsoftml.categorical | 将文本列转换为类别。 | 
| microsoftml.categorical_hash | 将文本列进行哈希处理并转换为类别。 | 
架构操作
| 函数 | 说明 | 
|---|---|
| microsoftml.concat | 将多个列串联为一个矢量。 | 
| microsoftml.drop_columns | 从数据集中删除列。 | 
| microsoftml.select_columns | 保留数据集的列。 | 
变量选择
| 函数 | 说明 | 
|---|---|
| microsoftml.count_select | 基于计数的功能选择。 | 
| microsoftml.mutualinformation_select | 基于互信息的功能选择。 | 
文本分析
| 函数 | 说明 | 
|---|---|
| microsoftml.featurize_text | 将文本列转换为数字特征。 | 
| microsoftml.get_sentiment | 情绪分析。 | 
图像分析
| 函数 | 说明 | 
|---|---|
| microsoftml.load_image | 加载图像。 | 
| microsoftml.resize_image | 调整图像大小。 | 
| microsoftml.extract_pixels | 从图像中提取像素。 | 
| microsoftml.featurize_image | 将图像转换为特征。 | 
特征化函数
| 函数 | 说明 | 
|---|---|
| microsoftml.rx_featurize | 数据源的数据转换 | 
评分函数
| 功能 | 说明 | 
|---|---|
| microsoftml.rx_predict | 使用 Microsoft 机器学习模型评分 | 
如何调用 microsoftml
可在存储过程中封装的 Python 代码中调用 microsoftml 中的函数 。 大多数开发者会在本地构建 microsoftml 解决方案,然后将已完成的 Python 代码迁移到存储过程作为部署练习 。
默认情况下,将安装 Python 的 microsoftml 包,但与 revoscalepy 不同,使用随 SQL Server 安装的 Python 可执行文件启动 Python 会话时,默认不加载该包 。
首先,导入 microsoftml 包,然后在需要使用远程计算上下文或相关连接或数据源对象时导入 revoscalepy 。 然后,引用所需的各个函数。
from microsoftml.modules.logistic_regression.rx_logistic_regression import rx_logistic_regression
from revoscalepy.functions.RxSummary import rx_summary
from revoscalepy.etl.RxImport import rx_import_datasource