- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
拟自适应分类随机森林算法
马景义 吴喜之 谢邦昌
2011-12-13 15:00:25 来源:《数理统计与管理》(京)2010年5期第805~811页
内容提要:本文给出了集成学习模型可以收敛的集成学习算法,拟自适应分类随机森林算法。拟自适应分类随机森林算法综合了Adaboost算法和随机森林算法的优势,实验数据分析表明,训练集较大时,拟自适应随机森林算法的效果会好于随机森林算法。另外,拟自适应分类随机森林算法的收敛性确保它的推广误差可以通过训练集估计,所以,对于实际数据,拟自适应分类随机森林算法不需要把数据划分为训练集和测试集,从而,可以有效地利用数据信息。 关键词:集成学习 拟自适应 随机森林 作者简介:马景义,中央财经大学统计学院(北京100081);吴喜之,中国人民大学统计学院(北京100872);谢邦昌,中央财经大学统计学院(北京100081),台湾辅仁大学统计资讯学系(台北24205)。 0引言 通过对的训练,分类树[1]、C4.5[2]和神经网络[3]等算法都可以得到预测y的函数,或者模型;分类问题的集成学习方法(ensemble learning methods)则把多个不同个体分类模型的预测结果集合到一起,通过投票,得到一个分类更精确的预测结果。这里个体分类模型的投票模型就是集成学习模型;而个体分类模型被称作基学习模型(base learning model),通过基学习算法获得。在一类集成学习算法中,基学习模型可以被视为某个随机模型的实现。例如Bagging分类树算法中,通过基学习算法(分类树算法)训练,从中等权重抽取的随机自助训练集(bootstrap training data)L,得到的随机模型可以被表示为f(x;L),f指代采用分类树算法得到的模型,L为随机参数。只要获得L的随机实现,就可以通过分类树算法得到基学习模型f(x;),i=l,…,m。每个基学习器模型以权重1/m(等权重)投票,就可以得到集成学习模型,或者Bagging分类树模型 其中,I(·)是示性函数。出于简便,本文后面部分将类似Bagging分类树模型,简称特定集成学习算法的集成学习模型。 另外,需要说明的是,等权重自助抽样权重为N维向量。本文后面的部分中,自助抽样权重也是N维向量,自助训练集的大小为N。以自助权重从中抽取自助训练集指,独立地,从中的元素中随机选出(中第n个样本被选中的概率为自助抽样权重的第n个元素,n=1,…,N)N个样本组成自助训练样本。 Breiman的分类随机森林算法[4]业已证明为集成学习算法中最为优秀的算法之一,实践表明,分类随机森林模型的预测性能要优于Bagging分类树模型。和Bagging分类树算法类似,分类随机森林算法的基学习模型也可以表示为随机模型h(x;θ)的实现,只是h(x;θ)通过随机变量划分分类树算法获得。此处,h代表以随机变量划分分类树得到的模型;随机参数θ表示两个方面的随机要素:从中等权重获得的随机自助训练样本L,以及对L实施随机变量划分分类树算法的过程中,在每个节点处产生划分条件时,随机选择的p个自变量。L的第i个随机实现,以及每个节点处随机选择的p个自变量被确定,则意味着得到了θ的第i个实现,相应的,基学习模型h(x;)就可以被确定,i=1,…,m。基学习模型的等权投票模型 就是分类随机森林模型。 Adaboost算法是另一个优秀的集成学习算法[5-6],实践中,它的集成学习模型和分类随机森林模型均有上佳,而且难分伯仲的预测效果。Adaboost算法也是通过多个基学习器模型的投票得到集成学习模型,基学习器模型也利用对的自助训练集训练获得;然而,在获取自助训练集时,它采用自适应自助抽样权重,在集成基学习器模型时,采用自适应投票权重。 所谓的自适应自助抽样权重指,随着算法的运行,根据已得到的基学习器模型确定下一个自助训练集的自助抽样权重,更具体地,第i个自助抽样权重和前i-1个基学习器模型有关,有了后,以为抽样权重,从中抽取自助训练样本。 自适应投票权重指,Adaboost算法采用基学习器算法,如分类树算法,得到基学习器模型f(x;)(f指代分类树模型,Adaboost算法中也使用C4.5和弱神经网络算法为基学习器算法)后,将它们集成为集成学习模型 理论研究表明,在样本量N→∞时,Adaboost算法的集成学习模型的推广误差(generalization error)可以收敛到贝叶斯误差(Bayes risk)[7];然而,许多应用问题中,N→∞是不能被保证的,例如那些样本成本非常高的研究。Breiman[8]指出:N非常大,并不意味着无穷大,许多数据的研究中,N可能非常大
文档评论(0)