- 1、本文档共55页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
摘要
探究蛋白质结构与功能之间的关系是现代生物信息学领域中最为关键的课
题之一,对工农业生产和生物医药发展等方面都有着十分重大的价值。由于新基
因组时期的出现,蛋白质的信息量迅速增加,如贝叶斯、K近邻和支撑向量机
(SupportVectorMachines,SVM)等技术都已不那么适合,基于神经网络的机器
学习模型在大数据分析的新形势下有了良好的发展。
本文针对蛋白质8类二级结构预测提出了一种Deep-BGRU模型,通过多层
双向门控循环单元系统(BidirectionalGatedRecurrentunit,BGRU)来深入获取氨
基酸序列的全局信息,进而利用Softmax分类器实现蛋白质8类二级结构预测。
较之当前应用广泛的长短期记忆神经网络(LongShort-termMemory,LSTM)模
型和基于LSTM构成的融合模型,Deep-BGRU模型除了改善传统的循环神经网
络(RecurrentNeuralNetwork,RNN)梯度消失无法处理极长依赖性的问题,还在
蛋白质二级结构预测速度和预测结果精度上有着明显的提升。实验结果表明,
Deep-BGRU模型在基准数据集CB513上的Q8准确度达到了70.6%。与其他模
型方法相比,本文提出的模型能够很好地提高蛋白质8类二级结构的预测精度,
具有很好的可扩展性和较低的训练成本。
由于氨基酸序列编码方式对搭建的蛋白质二级结构预测模型准确度有较大
影响,本文设计了相关对比实验,研究了该领域常用的三种氨基酸编码方式对预
测模型准确度的影响。实验结果表明,将进行了独热编码和Profile轮廓编码的
氨基酸序列组合输入时,预测模型的准确度较好。
随着蛋白质数据库的完善和高通量技术的发展,基于深度学习的蛋白质二级
结构预测算法得到了广泛研究,许多蛋白质结构预测平台应运而生。现有的大多
数预测平台只能进行3类二级结构预测,不能进行预测算法的选择,基于此,本
文设计和实现了基于Vue和SpringBoot的蛋白质二级结构预测算法平台PSP
(ProteinStructurePrediction,PSP)。该平台内置了若干性能优良的基于深度学
习的8类/3类蛋白质二级结构预测模型供用户选择使用,包括DeepACLSTM、
DeepCNF、PSRSM、融合卷积神经网络和贝叶斯优化等模型以及本文提出的
Deep-BGRU预测模型。PSP平台采用ECharts可视化技术对预测结果进行可视
化展示。用户还可参考平台内置模型和公共数据集来构建自己的预测模型。此外,
PSP平台中集成的算法种类可以更新,具有良好的可扩展性。
关键词:蛋白质二级结构;Q8;深度学习;预测平台;GRU
I
Abstract
Investigatingtherelationshipbetweenproteinstructureandfunctionisoneofthe
mostcriticaltopicsinmodernbioinformatics,andisofgreatvalueforindustrialand
agriculturalproductionandbiomedicaldevelopment.Duetotheemergenceofthenew
genomicperiod,theamountofinformationaboutproteinshasincreasedrapidly,and
techniquessuchasBayesian,K-nearestneighbor,andsupportvectormachines(SVM)
arenolongersosuitable,andneuralnetwork-basedmac
文档评论(0)