5、生物信息数据库幻灯片.pptVIP

  1. 1、本文档共81页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第三章 生物信息数据库 人类基因组计划(Human Genome Project, HGP) 1990年启动,预计2003年完成。由美、日、德、法、英、中六国参加。测出人类约 3,000,000,000 碱基对的序列(相当于每页3,000个字母,共需100万页印完)。中国承担其中的 1%。 模式生物基因组计划 酵母、线虫、果蝇、细菌共约50多种已完成,水稻等70余种正在进行。目前总量已达60亿碱基对! 已经完成全序列测定的基因组 Homo sapiens 智人 Escherichia coli 大肠杆菌 Saccharomyces cerevisiae 酿酒酵母 秀丽线虫Caenorhabditis elegans 一种透明的、生活在海滩泥沙中的小虫。 Drosophila melanogaster 果蝇 Arabidopsis thaliana 拟南芥 一、 引言 除了蛋白质序列数据之外,PIR还包含以下信息: 1 蛋白质名称、蛋白质的分类、蛋白质的来源; 2 关于原始数据的参考文献; 3 蛋白质功能和蛋白质的一般特征,包括基因表达、翻译后处理、活化等; 4 序列中相关的位点、功能区域。 PDB中含有通过实验(X射线晶体衍射,核磁共振NMR)测定的生物大分子的三维结构 蛋白质 核酸 糖类 其它复合物 一种是隐式序列信息 implicit sequence PDB的隐式序列即为立体化学数据,包括每个原子的名称和原子的三维坐标。 5、蛋白质结构分类数据库 PIR提供三种类型的检索服务: 一是基于文本的交互式查询, 用户通过关键字进行数据查询。 二是标准的序列相似性搜索, 包括BLAST、FastA等。 三是结合序列相似性、注释信息 和蛋白质家族信息的高级搜索, 包括按注释分类的相似性搜索、 结构域搜索等。 三个子数据库 4、蛋白质结构数据库 PDB(protein data bank) 1. 目前最主要的蛋白质分子结构数据库; 2. 1970年代建立,美国Brookhaven国家实验室维护管理; 3. 1988年,由美国RCSB research collaboratory for structural biology 管理; 4. 以文本格式存放数据,包括原子坐标、物种来源、测定方法、提交者信息、一级结构、二级结构等; 5. PDBsum数据库:PDB注释信息综合数据库,具有检索、分析、可视化的功能。 PDB的网址:/pdb 美国 PDBsum的网址:http://www.biochem.ucl.ac.uk/bsm/pdbsum PDB(Protein Data Bank) 一种是显式序列信息(explicit sequence) 在PDB文件中,以关键字SEQRES作为显式序列标记,以该关键字打头的每一行都是关于序列的信息。 1、核酸序列数据库 国际上权威的核酸序列数据库 (1)欧洲分子生物学实验室的EMBL http://www.embl-heidelberg.de (2)美国生物技术信息中心的GenBank /Web/Genbank/index.html (3)日本遗传研究所的DDBJ http://www.ddbj.nig.ac.jp/ GenBank DDBJ EMBL 核酸序列数据的增长趋势 (纵轴代表总的核酸序列长度,单位:百万bp) 三个数据库中的数据基本一致,仅在数据格式上有所差别,对于特定的查询,三个数据库的响应结果一样。 这三个数据库是综合性的DNA和RNA序列数据库,每条记录代表一个单独、连续、附有注释的DNA或RNA片段。 美国的核酸数据库GenBank〖Banson,D.A. et al. 1998 Nucleic Acids Res. 26, 1-7〗从1979年开始建设,1982年正式运行; 欧洲分子生物学实验室的EMBL数据库也于1982年开始服务 日本于1984年开始建立国家级的核酸数据库DDBJ,并于1987年正式服务。 从那个时候以来,DNA序列的数据已经从80年代初期的百把条序列,几十万碱基上升至现在的110亿碱基!这就是说,在短短的约18年间,数据量增长了近十万倍。 EMBL数据库序列记录随时间增长 568 27,248,475 EMBL数据库序列总长随时间增长 3.4?1010 5.8?105 EMBL2003年8月数据状况 Release 76 Division Entries Nucleotides 表达序列标签 ESTs 18,001,332 9,172,848,447 真菌 Fungi 81,533 124,814,006 基因组检测序列 GSSs 5,951,552

文档评论(0)

lifang365 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档