- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
摘要
随着科学的进步和信息技术的发展,现代数据的类型和规模也在迅猛增
长,它们往往具有高维特征,而高维数据会增加学习成本,导致模型训练速
度下降,还会带来维度灾难等问题。同时,获取有标记的数据需要耗费大量
的人力物力,因此从现实场景中获取的数据通常不具有完备的标签信息,即
只有少部分样本有标签信息,大部分样本没有标签信息。因此,如何对具有
少量标签信息的高维数据进行特征选择,已经成为大数据挖掘领域的研究热
点。
现有的半监督特征选择方法大多存在以下问题:一是在训练时没有考虑
样本的重要性,认为所有样本是同等重要的,这就会导致噪声样本和异常值
对模型的性能产生影响;二是在训练时只考虑了特征的重要性,忽视了特征
的冗余性,导致相似的特征包在最优特征子集中同时存在,这将对模型的性
能产生影响。
为了解决上述问题,本文提出了一种基于自步学习的半监督特征选择算
法。首先,分别通过岭回归和自表示学习来对有标签样本和无标签样本进行
特征选择,并通过赋予权重的方式将他们融合到一个半监督特征选择框架中。
接着,本文将混合式自步学习融入上述框架中,通过自步学习自动学习样本
的重要性,在训练过程中控制训练样本的数量,可以有效地抑制噪声异常值
对模型的影响,进而提高模型的性能。最后,为了解决特征冗余问题,本文
引入了一个正则化项,主要思想是考虑特征之间的成对相似性,使相似的特
征不太可能同时被选择,以保证选择出低冗余的特征。
为验证本文所提算法的有效性,将其与其他6种特征选择算法在6个真
实数据集上进行了比较。实验结果表明,在大部分情况下,本文所提算法在
特征选择率变化下以及标签比例变化下的性能都是优于其他特征选择方法的。
关键词:半监督特征选择自步学习自表示学习
1
Abstract
Abstract
Withtheprogressofscienceandthedevelopmentofinformationtechnology,
thesizeandcomplexityofmoderndataareincreasingrapidly,oftencontaining
high-dimensionalfeatures.High-dimensionaldatawillincreasethelearningcost,
leadtoslowmodeltraining,andalsobringproblemssuchasthecurseof
dimensionality.Atthesametime,acquiringlabeleddatarequiressignificant
amountsoftime,manpower,andresources.Therefore,dataobtainedfromreal-life
scenariosusuallylackcompletelabelinformation,whereonlyahandfulof
sampleshavelabelinformation,andtherestdonot.Consequently,theselectionof
featuresfromhigh-dimensionaldatawithlimitedlabelinginformationisahot
topicofresearchinthefieldofbigdatamining.
Mostofthesemi-supervisedfeature
文档评论(0)