集成学习算法
集成学习算法(Ensemble Learning)
传统机器学习算法 (例如:决策树,人工神经网络,支持向量机,朴素贝叶斯等) 都是通过弱学习机(weak learners)来对目标进行预测(分类)。但是,以决策树算法为例,决策树算法在递归过程中,可能会过度分割样本空间,最终导致过拟合。集成学习 (Ensemble Learning) 算法的基本思想就是将多个弱学习机组合,从而实现一个预测效果更好的集成学习机[^1]。集成学习在统计(Statistical)、 计算(computational) 以及 表示(representation) 上相较之弱学习机有较大改善[^2]。Bagging
和Boosting
对比如下:
红色线条代表训练过程;绿色线条代表
Boosting
更新权重得到的权重训练集;蓝色线条代表结合策略;中间蓝色方块代表得到的训练集(Bagging
通过随机采样,Boosting
则是更新权重得到训练集)