了解数据科学过程

已完成

从数据中提取见解的一种常见方法是可视化数据。 每当有复杂的数据集时,你可能想要更深入地探讨并尝试在数据中找到复杂的模式。

作为数据科学家,可以训练机器学习模型来查找数据中的模式。 可以使用这些模式来生成新的见解或预测。 例如,可以预测预计在未来一周内销售的产品数量。

虽然训练模型很重要,但它并不是数据科学项目中唯一的任务。 在探索典型的数据科学过程之前,让我们探索可以训练的常见机器学习模型。

探索常见的机器学习模型

机器学习的目的是训练可以识别大量数据模式的模型。 然后,你可以使用这些模式进行预测,获取新的洞见,并据此采取行动。

机器学习的可能性可能无休止,因此让我们首先了解四种常见的机器学习模型类型:

四种常见类型的机器学习模型的关系图。

  1. 分类:预测分类值,例如客户是否可能会流失。
  2. 回归:预测数值,例如产品的价格。
  3. 聚类分析:将类似的数据点分组到群集或组中。
  4. 预测:根据时序数据预测未来数值,例如未来月份的预期销售额。

若要确定需要训练的机器学习模型类型,首先需要了解业务问题和可用的数据。

了解数据科学过程

若要训练机器学习模型,此过程通常涉及以下步骤:

数据科学流程的顺序步骤图。

  1. 定义问题:与业务用户和分析师一起,确定模型应预测的内容以及成功时间。
  2. 获取数据:通过将数据存储在 Lakehouse 中来查找数据源并获取访问权限。
  3. 准备数据:将数据从 Lakehouse 中读取到笔记本后进行分析。 根据模型的要求清理和转换数据。
  4. 训练模型:使用 MLflow 跟踪试验,根据试验和错误选择算法和超参数值。
  5. 生成见解:使用模型批处理评分来生成请求的预测。

作为数据科学家,大部分时间都花在准备数据和训练模型上。 如何准备数据以及你选择训练模型的算法可能会影响模型的成功。

可以使用可用于所选语言的开源库来准备和训练模型。 例如,如果使用 Python,可以使用 Pandas 和 Numpy 准备数据,并使用 Scikit-LearnPyTorchSynapseML 等库训练模型。

试验时,需要概述已训练的所有不同模型。 你想要了解你的选择如何影响模型的成功。 通过在 Microsoft Fabric 中使用 MLflow 跟踪试验,可以轻松管理和部署已训练的模型。