定义问题
首先,你需要通过了解以下内容来定义模型应解决的问题:
- 模型的输出应是什么。
- 使用哪种类型的机器学习任务。
- 什么条件促使模型成功。
根据拥有的数据和模型的预期输出,可以识别机器学习任务。 该任务确定可用于训练模型的算法类型。
一些常见的机器学习任务包括:
- 分类:预测分类值。
- 回归:预测数值。
- 时序预测:基于时序数据预测将来的数值。
- 计算机视觉:对图像进行分类或检测图像中的对象。
- 自然语言处理 (NLP):从文本中提取见解。
若要训练模型,可以使用一组算法,具体取决于要执行的任务。 若要评估模型,可以计算性能指标,例如准确性或精度。 可用的指标还取决于模型需要执行的任务,并有助于确定模型是否成功执行其任务。
探索示例
考虑这样一个场景,你想要确定患者是否患有糖尿病。 尝试解决的问题以及可用的数据类型决定了选择的机器学习任务。 在这种情况下,可用数据是患者的其他健康数据点。 我们可以将我们想要的输出表示为患者患有糖尿病或未患糖尿病的分类信息。 因此,机器学习任务是“分类”。
在开始之前,先了解整个过程,让你有机会制定出设计成功的机器学习解决方案所需的决策。 下面是一个示意图,显示了一种识别患者糖尿病的方式。 在关系图中,使用特定的算法对数据进行准备、拆分和训练。 之后,评估模型的质量。
- 加载数据:导入并检查数据集。
- 预处理数据:规范化并清理以实现一致性。
- 拆分数据:拆分为训练集和测试集。
- 选择模型:选择并配置算法。
- 训练模型:从训练数据中了解模式。
- 使用模型进行评分:对测试数据生成预测。
- 评估:计算性能指标。
训练机器学习模型通常是一个迭代过程,在这个过程中,你要多次执行这些步骤,以找到性能最佳的模型。 接下来,让我们检查用于开发机器学习解决方案的数据准备过程。