第十章 Kallisto使用说明.docx

下载文档

486
0
约6.26千字
约 6页
2017-06-07 发布于湖北
举报
版权申诉
保障服务

第十章 Kallisto使用说明.docx

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

Kallisto使用说明2017-03-19 RenNanFang HospitalKallisto是一款快速比对的软件，由加州大学伯克利分校的Bray等人于2015年开发出来。它的优势是快速、耗费内存小，可以在普通台式机上在几分钟之内完成人或其他物种的转录组二代测序比对任务。其最大的特点是不需要完整的参考基因组，但是也需要对某物种的全转录本序列建立索引，然后再进行所谓的假比对（pseudoalignment）。该算法的基础是转录组德布鲁因图（transcriptomedeBruijn graph，T-DBG）Kallisto可以从github上获得二进制文件，https://pachterlab.github.io/kallisto/，目前的版本是v0.43.0，2016年6月2日更新。在Linux系统上对文件进行解压缩，进入相应文件夹kallisto_linux-v****后可以看到可执行文件kallisto，把该文件的路径写入到PATH中，即可在其它路径下运行。如下图所示，在用户目录下键入kallisto则出现软件的版本和简单的使用说明。在github网页上有Kallisto的使用手册。从上图可以看到Kallisto主要有6个命令，分别是index，quant，pseudo，h5dump，version，cite。其中最常使用的是前2个，index建立转录组索引和quant进行转录本水平的表达定量。pseudo为单细胞转录组测序使用，h5dump为转换文件格式，把hdf5格式的文件转换成纯文本tsv格式的文件。另外2个version则是查阅软件版本号，cite则是显示出引用文献。kallisto 0.43.0Usage: kallisto CMD [arguments] Where CMD can be one of: index Builds a kallisto index quant Runs the quantification algorithm pseudo Runs the pseudoalignment step h5dump Converts HDF5-formatted results to plaintext version Prints version information cite Prints citation informationRunning kallisto CMD without arguments prints usage information for CMD所需材料：Linux电脑（我是用的版本是Ubuntu 16.04 Sever LTS x64）、Kallisto、测序文件Fastaq格式或者Fastaq压缩文件、相应物种的全转录组cdna序列，可以从UCSC或者Ensembl上下载获得，我是用的是Ensembl的cdna序列文件。假设以上材料已经准备好，且Kallisto安装完可以运行，那么下面要做的第一件事就是使用该物种的全转录组cdna序列文件建立索引，使用kallistoindex命令，如下：kallisto index PATH/Mus_musculus.GRCm38.cdna.all.fa.gz -i ensemblgrc38.mm.87输入相应cdna序列的压缩文件，-i后跟建立的索引文件的名字。几分钟后可以看到文件夹中有了ensemblgrc38.mm.87的索引文件。第二，对测序数据进行定量分析使用kallisto quant命令，这里我使用的是小鼠10.5天胚胎的RNA-seq双端测序数据（*.R1.clean.fastq.gz *.R2.clean.fastq.gz），如下：kallisto quant -i PATH/ensemblgrc38.mm.87 -o ./ -t 24 PATH/10-5_L2_I367.R1.clean.fastq.gz PATH/10-5_L2_I367.R2.clean.fastq.gz参数-i后面跟刚才建立好的索引名字，-o后面跟输出文件的指定目录；其它选项如-t后面跟线程数量，最后是FASTAQ格式的测序文件，如果是双端测序（paired-end）文件两个文件中间使用空格，程序会自动识别两个文件为左右两端的测序文件。如果使用的是单端测序（single-end）文件，要使用--single参数指定；并且一定要使用-l参数，后面跟片段长度，估计的平均片段长度；-s参数后面跟估计的片段长度的标准差。-l和-s参数最好使用类似Agilent Bioanalyzer软件去确定。kallisto q