了解数据科学过程
从数据中提取见解的一种常见方法是可视化数据。 每当有复杂的数据集时,你可能想要更深入地探讨并尝试在数据中找到复杂的模式。
作为数据科学家,可以训练机器学习模型来查找数据中的模式。 可以使用这些模式来生成新的见解或预测。 例如,可以预测预计在未来一周内销售的产品数量。
虽然训练模型很重要,但它并不是数据科学项目中唯一的任务。 在探索典型的数据科学过程之前,让我们探索可以训练的常见机器学习模型。
探索常见的机器学习模型
机器学习的目的是训练可以识别大量数据模式的模型。 然后,你可以使用这些模式进行预测,获取新的洞见,并据此采取行动。
机器学习的可能性可能无休止,因此让我们首先了解四种常见的机器学习模型类型:
- 分类:预测分类值,例如客户是否可能会流失。
- 回归:预测数值,例如产品的价格。
- 聚类分析:将类似的数据点分组到群集或组中。
- 预测:根据时序数据预测未来数值,例如未来月份的预期销售额。
若要确定需要训练的机器学习模型类型,首先需要了解业务问题和可用的数据。
了解数据科学过程
若要训练机器学习模型,此过程通常涉及以下步骤:
- 定义问题:与业务用户和分析师一起,确定模型应预测的内容以及成功时间。
- 获取数据:通过将数据存储在 Lakehouse 中来查找数据源并获取访问权限。
- 准备数据:将数据从 Lakehouse 中读取到笔记本后进行分析。 根据模型的要求清理和转换数据。
- 训练模型:使用 MLflow 跟踪试验,根据试验和错误选择算法和超参数值。
- 生成见解:使用模型批处理评分来生成请求的预测。
作为数据科学家,大部分时间都花在准备数据和训练模型上。 如何准备数据以及你选择训练模型的算法可能会影响模型的成功。
可以使用可用于所选语言的开源库来准备和训练模型。 例如,如果使用 Python,可以使用 Pandas 和 Numpy 准备数据,并使用 Scikit-Learn、 PyTorch 或 SynapseML 等库训练模型。
试验时,需要概述已训练的所有不同模型。 你想要了解你的选择如何影响模型的成功。 通过在 Microsoft Fabric 中使用 MLflow 跟踪试验,可以轻松管理和部署已训练的模型。