bagging和boosting考点
降低偏差/方差
在一个模型的表现中,我们可以将其误差分解为三个部分:偏差、方差和随机误差。偏差是由于模型假设与真实模型不同造成的误差,这意味着即使我们用相同的算法和数据重复多次训练,我们仍然会得到同样的错误的预测结果。方差则是由于模型对训练数据的变化而导致的误差,如果我们用相同的算法在不同的训练集上训练,我们会得到不同的预测结果。最后,随机误差是由于我们在采集数据的时候会有误差,所以我们的训练集是不完美的。
**偏差(bias)**是指模型的预测值与真实值之间的偏差,即模型本身的准确度。偏差较高的模型往往欠拟合,无法捕捉到数据中的复杂关系,会导致高误差。
**方差(variance)**是指在不同的训练集上,同一个模型所预测的结果的差异,即模型的泛化能力。方差较高的模型往往过拟合,对于训练数据的拟合程度很高,但对于新的数据却预测能力较差,也会导致高误差。
Bagging可以降低模型的方差,而不是偏差。
Bagging通过对训练数据进行有放回的随机抽样(bootstrap),得到多个不同的训练集,然后在每个训练集上分别训练一个模型,再通过平均或投票的方式得到最终的预测结果。这种方法可以降低模型的方差,因为每个模型都是在不同的训练集上训练的,而不是在同一个训练集上,使得模型更具泛化能力。理解: 多棵树的结果通过max或者平均值计算出最终一个结果, 所以方差减小.
当我们使用Bagging算法的时候,我们构建了多个基础模型,每个基础模型都是基于随机抽样的方式构建的