基于多视图结构表示的非编码RNA序列比对分类的深度森林集成学习.pdfVIP

基于多视图结构表示的非编码RNA序列比对分类的深度森林集成学习.pdf

  1. 1、本文档共56页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

摘要

基于多视图结构表示的非编码RNA序列比对分类的深度森林集

成学习

自人类基因组测序完成以来,学者们发现除少量编码蛋白的基因序列外,基因组

中大部分不参与蛋白质编码工作,仅转录成RNA,这些转录产物被称为非编码RNA

(Non-codingRNAs,ncRNAs)。物种进化等级越高,非编码RNA占该基因组的比例越

高(人类基因组高达98%)。越来越多的研究揭示非编码RNA在众多非常重要的生理

和病理过程中起着关键的调控作用,与多种疾病密切相关,可作为疾病诊断和治疗

的分子靶标。非编码RNA种类繁多,常见的家族种类包括miRNA,piRNA,snoRNA,

snRNA,siRNA和lncRNA等。随着新一代测序技术的广泛使用,涌现了数量庞大的

非编码RNA,其中绝大多数非编码RNA的功能和分子机理未知,从而在海量非编

码RNA与匮乏的注释信息之间产生了巨大的数据鸿沟。基于生物实验的方法往往需要

投入巨大的人力财力成本,周期长且难以应用于大规模数据分析中。因此亟需使用机

器学习和信息技术来构建高效率、高准确度的非编码RNA功能分析模型。判定不同

非编码RNA在序列特别是结构上的关系是理解和推断非编码RNA功能的最主要途径

之一。已有的非编码RNA关系判定的算法主要都是基于非监督学习的,并且由于绝

大多数的非编码RNA的序列保守性很低,为此如何提取和更好利用结构信息是非编

码RNA的研究的挑战之一。

在本论文中,我们提出了一种基于卷积神经网络和深度森林算法(多粒度级联森

林,GcForest)的深度融合学习框架,整合多种序列结构比对特征的非编码RNA分类

识别模型,称为GCFM(Gcforestfusionmethod)。相比于非监督学习算法,基于监督

学习框架的GCFM能够更好的利用已知的非编码RNA家族信息,进而有助于深入挖掘

非编码RNA间复杂抽象的内在关系。GCFM包含多视图结构表示模块和深度集成模块

I

两部分:(i)多视图结构表示模块:提出了三类多视图表示方法,序列-结构比对编码

表示、结构图像表示和局部结构形状比对编码表示。这些不同角度和层次的比对和结

构特征表示,使得非编码RNA之间潜在的特异性能被GCFM捕获到。(ii)深度集成模

块:提出了基于卷积神经网络和深度森林算法的深度集成模型,卷积模块用来学习更

高级的特征表示。深度森林算法中的级联森林模块训练得到最终分类模型,每个级联

层都是由XGboosting、RandomForest和ExtraTrees三种算法构成。相较于其他深度学习

架构,深度森林算法不需要调整大量的参数,具有更好的分类预测精度。

与现有基于比对的非编码RNA分类方法相比,GCFM方法的F值提高了6%。并

且通过全面系统的实验探究了多视图结构特征表示和深度集成架构的有效性,分

析了GCFM方法相较于仅包含卷积模块方法的时间消耗情况。此外,为了进一步评

估GCFM模型的有效性和可用性,我们设计了GCFM模型在三种非编码RNA任务中

的应用实例:基于GCFM的非编码RNA聚类任务,GCFM推断非编码RNA系统进化

树和GCFM预测RNA相互作用。在非编码RNA家族的聚类实验中,基于GCFM生成

的分类矩阵,以行向量为特征应用多种聚类方法得到最终聚类结果。与现有的非编

码RNA聚类方法(RNAclust,Ensembleclust和CNNclust)相比,基于GCFM的研究方

法在包含未知非编码RNA家族的聚类研究中,准确率提高了20%。在应用GCFM构

建了非编码RNA的系统进化树构建中,大部分非编码RNA在系统进化树中定位正确。

在RNA相互作用的研究中,基于GCFM方法的预测准确率为90.63%。最后,为了最大

化本研究方法的可用性,开发了GCFM的在线服务平台(/gcfm/),

源代码和相关数据也可以在平台中获得。

关键词:非编码RNA比对分类,非编码RNA聚类,多视图特征表示,深度森林,深度

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档