简介:梯度Boosting思想在解释Boosting算法的运行机制时基于基学习器张成的空间为连续泛函空间,但是实际上在有限样本条件下形成的基学习器空间不一定是连续的。针对这一问题,从可加模型的角度出发,基于平方损失,提出一种重抽样提升回归树的新方法。该方法是一种加权的加法模型的逐步更新算法。实验结果表明,这种方法可以显著地提升一棵回归树的效果,减小预测误差,并且能得到比L2Boost算法更低的预测误差。
简介:鉴于极差比方差更容易获得,所以利用极差对正态总体方差进行间接预估以确定样本量的想法很有实用价值。根据数理统计理论,若以E(Rn)表示正态总体在样本规模n下样本极差的期望,则有E(Rn)=dnσ,dn可以通过多重积分计算得到,且只与n有关,而与μ和σ^2无关。但这种多重积分式虽然有利于在理论上阐明dm与相关变量之间的“定性”关系,却无助于在应用上获得dm与n的定量关系式。本文利用随机模拟方法和线性回归分析得到dm的一个简明表达式:dm=0.5ln(n)+3,从而由此间接获得一个正态总体方差的估计值:σ^2=[Rn/(0.5ln(n)+3)]^2。这将使直接利用“更便宜的”极差确定样本量具有可操作性。
简介:平均单一依赖估计算法(averagedone-dependenceestimators,AODE)是通过放松朴素贝叶斯算法的假设条件得到的一种更加高效的分类算法,但AODE算法将所有父属性对分类的贡献程度看成是一样的,这使得AODE算法的分类效果受到限制。针对这个问题,利用相关系数Tau-y和Lambda-y分别计算各个特征属性对分类的贡献程度,并用计算结果对父属性加权,得到了两个改进的AODE算法:T-AODE和L-AODE算法。然后,利用加利福尼亚大学的埃文斯(UniversityofCaliforniaIrvine,UCI)标准数据集在Eclipse上对这两个算法进行分类实验,结果显示两个改进的AODE算法的精确度要优于原始AODE算法。