基于动态迭代谱聚类方法的生物数据特征选择算法.pdfVIP

基于动态迭代谱聚类方法的生物数据特征选择算法.pdf

  1. 1、本文档共65页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

随着医疗大数据信息化的发展与生物信息领域各种测基因序列技术的势头

日益渐长,其发展实现了大规模基因表达数据的自动获取,使得健康医疗数据规

模大幅度增加。但由于医疗数据中的疾病相关的基因表达谱数据的样本收集起来

较困难,且病人数据良莠不齐,难以记录、收集。导致一般疾病的样本数量都较

少,另一点由于,人体内具有基因约39000多个,并且人类的基因表达谱数据中

往往包含着反映疾病产生原因的重要信息,并且特征中包含了大量与冗余的疾病

特征。正是由于以上两点原因,本文中所使用的生物基因表达谱数据具有特征量

非常大,但样本数往往远小于特征数的特点。所以对此类大P小N的生物基因

数据进行分析的最重要的步骤即是特征选择。特征选择是从初始特征集合中选取

具有强分类信息特征构成特征子集。我们使用特征选择筛选出与分类任务高度相

关的最优特征子集,从而提高生物基因数据的分类准确率。

而在基因表达谱数据中,与病变类似的基因与正常样本种的基因差别很大,

因此可以使用机器学习的二分类,实现疾病基因的检测和预测。生物信息学领域

认为,功能相似的基因往往协同进行工作,可以视为一个整体看待。生物标志物

本身存在关联性,基因之间共同构成了多个功能子系统,功能子系统共同对生物

体状态有重要影响,而在这其中的生物标志物起到了至关重要的作用。同时,这

些基因在基因表达谱上在表型上较为相关,这些相似的基因便是生物标志物。而

如果能够从人体疾病基因中挖掘和疾病相关的生物标志物,可以帮助医学更好的

了解研究和治疗该病症,为广大患者带来福音。如何选取出有高分类能力的特征

基因子集是处理生物医学数据的关键点。

针对以上问题,本文基于生物信息学的基础,为了挖掘出生物标志物,提出

基于动态迭代聚类和无监督学习的谱聚类的特征选择算法BioDynClu,为了提升

预测精准度,减少基因特征有效信息的丢失。本文使用处理稀疏数据更加有效的

谱聚类,在第一次聚类之后得到各个类别的聚类结果。并求得谱聚类数据各个类

别簇内的质心。以聚类Calinski-Harabasz指标,对聚类的结果做出评估,重新筛

I

Íò·½Êý¾Ý

选最优聚类,直到性能提升到稳定为止。再筛选出性能最优的特征子集。

本文在16个基因表达数据集上进行实验测试,结果表明:与同类特征选择

算法对比,本文提出的BioDynClu算法均在大部分数据集上有着更优的分类预

测性能,并且有着更小的特征数量,同时与其他算法相比也有更优的稳定性。

BioDynClu均能选择到更优的基因特征子集。其次,在结肠癌独立测试集上,也

有着不错的表现。较为圆满的完成对生物基因表达谱数据的特征选择研究。最后,

本文提出的在生物基因数据上的分类算法,未来可尝试在其他生物类型数据集上

使用并不断改进,推进生物医学分类问题的发展。

关键词:

基因表达谱、生物标志物、特征选择、谱聚类、动态迭代聚类

II

Íò·½Êý¾Ý

Abstract

Afeatureselectionalgorithmforbiologicaldatabasedondynamic

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档