GATK使用方法.docxVIP

  1. 1、本文档共22页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
GATK使用方法

原创】GATK使用方法详解(包含bwa使用)第一部分 ? (2014-03-03 11:07:29)  HYPERLINK javascript:; 转载▼ 标签:?  HYPERLINK /?c=blogq=gatkby=tag \t _blank gatk ?  HYPERLINK /?c=blogq=bwaby=tag \t _blank bwa ?  HYPERLINK /?c=blogq=snpby=tag \t _blank snp ?  HYPERLINK /?c=blogq=indelby=tag \t _blank indel分类:? HYPERLINK /s/articlelist_5056118076_1_1.html \t _blank 生物信息由于新浪博客规定,每篇文章不可超过2万字符,因此分4篇发布。 一、使用GATK前须知事项: (1)对GATK的测试主要使用的是人类全基因组和外显子组的测序数据,而且全部是基于illumina数据格式,目前还没有提供其他格式文件(如Ion Torrent)或者实验设计(RNA-Seq)的分析方法。 (2)GATK是一个应用于前沿科学研究的软件,不断在更新和修正,因此,在使用GATK进行变异检测时,最好是下载最新的版本,目前的版本是2.8.1(2014-02-25)。下载网站: HYPERLINK /gatk/download /gatk/download。 (3)在GATK使用过程中(见下面图),有些步骤需要用到已知变异信息,对于这些已知变异,GATK只提供了人类的已知变异信息,可以在GATK的FTP站点下载(GATK resource bundle)。如果要研究的不是人类基因组,需要自行构建已知变异,GATK提供了详细的构建方法。 (4)GATK在进行BQSR和VQSR的过程中会使用到R软件绘制一些图,因此,在运行GATK之前最好先检查一下是否正确安装了R和所需要的包,所需要的包大概包括ggplot2、gplots、bitops、caTools、colorspace、gdata、gsalib、reshape、RColorBrewer等。如果画图时出现错误,会提示需要安装的包的名称。 ? 二、GATK的使用流程 GATK最佳使用方案:共3大步骤。原始数据的处理—变异检测—初步分析。 ? 第一大步:原始数据的处理 ? 1.?对原始下机fastq文件进行过滤和比对(mapping) 对于Illumina下机数据推荐使用bwa进行mapping。 ? Bwa比对步骤大致如下: (1)对参考基因组构建索引: ?????例子:bwa index -a bwtsw hg19.fa。最后生成文件:hg19.fa.amb、hg19.fa.ann、hg19.fa.bwt、hg19.fa.pac和hg19.fa.sa。 ?????构建索引时需要注意的问题:bwa构建索引有两种算法,两种算法都是基于BWT的,这两种算法通过参数-a is?和-a bwtsw进行选择。其中-a bwtsw对于短的参考序列是不工作的,必须要大于等于10Mb;-a is是默认参数,这个参数不适用于大的参考序列,必须要小于等于2G。 (2)寻找输入reads文件的SA坐标。 ?????对于pair end数据,每个reads文件单独做运算,single end数据就不用说了,只有一个文件。 ?????例子:pair end: bwa??aln??hg19.fa??read1.fq.gz??-l 30??-k 2??-t 4??-I?? read1.fq.gz.sai bwa??aln??hg19.fa??read2.fq.gz??-l 30??-k 2??-t 4??-I?? read2.fq.gz.sai single end: bwa??aln??hg19.fa??read.fq.gz??-l 30??-k 2??-t 4??-I?? read.fq.gz.sai 主要参数说明: -o int:允许出现的最大gap数。 -e int:每个gap允许的最大长度。 -d int:不允许在3’端出现大于多少bp的deletion。 -i int:不允许在reads两端出现大于多少bp的indel。 -l int:Read前多少个碱基作为seed,如果设置的seed大于read长度,将无法继续,最 好设置在25-35,与-k 2?配合使用。 -k int:在seed中的最大编辑距离,使用默认2,与-l配合使用。 -t int:要使用的线程数。 -R int:此参数只应用于pair end中,当没有出现大于此值的最佳比对结果时,将会降低标 准再次进行比对。增加这个

文档评论(0)

xingkongwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档