了解数据科学过程

从数据中提取见解的一种常见方法是可视化数据。每当有复杂的数据集时，你可能想要更深入地探讨并尝试在数据中找到复杂的模式。

作为数据科学家，可以训练机器学习模型来查找数据中的模式。可以使用这些模式来生成新的见解或预测。例如，可以预测预计在未来一周内销售的产品数量。

虽然训练模型很重要，但它并不是数据科学项目中唯一的任务。在探索典型的数据科学过程之前，让我们探索可以训练的常见机器学习模型。

探索常见的机器学习模型

机器学习的目的是训练可以识别大量数据模式的模型。然后，你可以使用这些模式进行预测，获取新的洞见，并据此采取行动。

机器学习的可能性可能无休止，因此让我们首先了解四种常见的机器学习模型类型：

四种常见类型的机器学习模型的关系图。

若要确定需要训练的机器学习模型类型，首先需要了解业务问题和可用的数据。

若要训练机器学习模型，此过程通常涉及以下步骤：

数据科学流程的顺序步骤图。

作为数据科学家，大部分时间都花在准备数据和训练模型上。如何准备数据以及你选择训练模型的算法可能会影响模型的成功。

可以使用可用于所选语言的开源库来准备和训练模型。例如，如果使用 Python，可以使用 Pandas 和 Numpy 准备数据，并使用 Scikit-Learn、 PyTorch 或 SynapseML 等库训练模型。

试验时，需要概述已训练的所有不同模型。你想要了解你的选择如何影响模型的成功。通过在 Microsoft Fabric 中使用 MLflow 跟踪试验，可以轻松管理和部署已训练的模型。

此页面是否有帮助？