机器学习的主要挑战
训练数据的数量不足⌗
训练数据不具代表性⌗
质量差的数据⌗
无关特征⌗
特征工程⌗
一个成功的机器学习项目,关键部分是提取一组好的用了训练的特征集,这个过程叫做特征工程。
- 特征选择
- 特征提取
- 通过手机数据创造新的特征
训练数据过度拟合⌗
在模型的训练数据上表现良好,但是泛化时却不尽人如意。
解决方法
- 简化模型
- 收集更多的训练数据
- 减少训练数据中的噪声(修复数据错误和消除异常值)
正则化⌗
通过约束模型使其更简单,并降低过度拟合风险。
超参数⌗
通过调整超参数来调整应用正则化的程度。调整超参数是构建机器学习系统的非常重要的组成部分。
训练数据拟合不足⌗
解决方法:
- 选择一个带有更多参数、更强大的模型
- 给学习算法提供更好的特征集
- 减少模型中的约束(如减少正则化超参数)