训练数据的数量不足

训练数据不具代表性

质量差的数据

无关特征

特征工程

一个成功的机器学习项目,关键部分是提取一组好的用了训练的特征集,这个过程叫做特征工程。

  1. 特征选择
  2. 特征提取
  3. 通过手机数据创造新的特征

训练数据过度拟合

在模型的训练数据上表现良好,但是泛化时却不尽人如意。

解决方法

  • 简化模型
  • 收集更多的训练数据
  • 减少训练数据中的噪声(修复数据错误和消除异常值)

正则化

通过约束模型使其更简单,并降低过度拟合风险。

超参数

通过调整超参数来调整应用正则化的程度。调整超参数是构建机器学习系统的非常重要的组成部分。

训练数据拟合不足

解决方法:

  • 选择一个带有更多参数、更强大的模型
  • 给学习算法提供更好的特征集
  • 减少模型中的约束(如减少正则化超参数)