- 1、本文档共73页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
生物信息学蛋白质序列数据库包其郁剖析
六、蛋白质序列数据库 UniPro Swiss-Prot TrEMBL PIR-PSD 1. Swiss-Prot SWISS-PROT由瑞士日内瓦大学医学生化系于1978年创建,后来与欧洲分子生物学实验室合作,由瑞士生物信息学研究所(Swiss Institute of Bioinformatics,SIB)和欧洲生物信息学研究所(EBI)共同维护和管理现已整合进UniProtKB/Swiss-Prot。 SWISS-PROT的特点 b. 每个条目包含条目基本信息、分类信息(描述蛋白质的生物来源) 、引用文献信息、注释、蛋白质序列等(如:ampG)。 c. 蛋白质注释 包括蛋白质的功能、翻译后修饰(如糖基化和磷酸化)、结构域和结合位点、二级结构(如α- 螺旋和β- 片层)、四级结构(如同聚体和异聚体)、与其它蛋白质序列的相似性、蛋白质序列残缺与疾病的关系、序列冲突和变异体等信息。 d. SWISS-PROT中尽可能减少冗余序列 e. 与其它30多个数据库建立了交叉引用,其中包括核酸序列数据库、蛋白质序列数据库和蛋白质结构数据库等。 f. 利用序列检索系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。 2. TrEMBL TrEMBL数据库建于1995年,意为“Translation from EMBL”。 该数据库采用SwissPro数据库格式,其数据来源于: EMBL核酸序列数据库(或GenBank、DDBJ)中所有编码序列经计算机程序自动翻译的蛋白质 从文献中查到的 或向SWISS-PROT递交的并未整合到SWISS-PROT的蛋白质序列 3. PIR-PSD 蛋白质信息资源-国际蛋白质序列数据库(the Protein Information Resource-International Protein Sequence Database, PIR-PSD 由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护, PIR是最早的数据库,现已并入UniProt Knowledgebase 是一个全面的、非冗余的、经过专家注释的公共蛋白质序列数据库。PIR-PSD收集已发表的蛋白质序列、来源、参考文献和特征信息等,她的注释中还包括一些原始递交记录中没有的相关信息,如在遗传图谱的位置、内含子位置、以及和其他序列、结构、基因组和引文数据库(如Medline、PDB和TIGR等)的相互参照 PIR-PSD的另一个重要特征是其对蛋白质超家族的分类,提供序列的等级聚类信息,揭示序列间的进化关系。 4. UniPro 蛋白质信息资源(PIR)、欧洲生物信息学研究所(EBI)和瑞士生物信息学研究所(SIB)合作,于2002年共同组建世界蛋白质资源(the Universal Protein Resource,UniPro)。 UniPro把Swiss-Prot、TrEMBL和PIR等蛋白质数据库整合在一起,是目前国际上最全面的蛋白质信息库。 The UniProt Knowledgebase (UniProtKB) The UniProt Knowledgebase continues the work of Swiss-Prot, TrEMBL and PIR-PSD by providing an expertly and richly curated protein database Consisting of two sections. UniProtKB/Swiss-Prot UniProtKB/TrEMBL. UniProt Reference Clusters (UniRef) TheUniProt Reference Clusters (UniRef) provide clustered sets of sequences from UniProtKB and selected UniParc records. It provide complete coverage of sequence space at several resolutions and speed similarity searches via sequence space compression by merging sequences that are 100% (UniRef100), 90% (UniRef90) or 50% (UniRef50) identical. UniRef90 and UniRef50 yield a dat
文档评论(0)