- 1、本文档共5页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
单细胞转录组实战02:数据整理与之质控
整理数据
从cellranger的输出目录中读取filtered_feature_bc_matrix.h5表达量矩阵,并把多个样本合并为1个anndata对象。
导库建立工作目录
from?pathlib?import?Path
import?scanpy?as?sc
OUTPUT_DIR=output/01.preprocess
Path(OUTPUT_DIR).mkdir(parents=True,exist_ok=True)
adata_dict?=?{}
for?i?in?Path(quantify).glob(**/filtered_feature_bc_matrix.h5):
adata?=?sc.read_10x_h5(i)
adata.var_names_make_unique()
adata.obs_names_make_unique()
adata_dict[str(i.parent).split(/)[1]]?=?adata
adata?=?sc.concat(adata_dict,label=Sample,axis=0)
adata.obs_names_make_unique()
Quality control
数据质控包括过滤细胞和过滤基因。
过滤细胞
评估一个细胞的质量:总的UMIs数量, 基因数量, 线粒体比例
过滤基因
一个基因至少在几个细胞中表达
简单的过滤一下细胞和基因,一个细胞至少表达300个基因,一个基因至少在10个细胞中表达。
sc.pp.filter_cells(adata,min_genes=300)
sc.pp.filter_genes(adata,min_cells=10)
计算线粒体基因的比例,线粒体基因以MT开头
adata.var[Mito]?=?adata.var_names.str.startswith(rMT-,rmt-)
sc.pp.calculate_qc_metrics(adata,?qc_vars=[Mito],?percent_top=None,?log1p=False,?inplace=True)
可视化count数量、基因数量、线粒体基因百分比
ks?=?(total_counts,n_genes_by_counts,pct_counts_Mito)
_,?axes?=?plt.subplots(1,?3,?figsize=(6,?3))
axes?=?axes.flatten()
for?a,k?in?enumerate(ks):
sc.pl.violin(adata,?keys=k,jitter=False,show=False,ax=axes[a],ylabel=)
plt.subplots_adjust(wspace?=?0.5);
每个样本的count数量、基因数量、线粒体基因百分比
_,?axes?=?plt.subplots(1,?2,?figsize=(6,?3))
for?a,k?in?enumerate(ks[1:]):
sc.pl.scatter(adata,?x=total_counts,?y=k,color=pct_counts_Mito,ax=axes[a],legend_loc=right?margin,show=False)
plt.subplots_adjust(wspace?=?0.3);
_,?axes?=?plt.subplots(1,?3,?figsize=(6,?3))
axes?=?axes.flatten()
for?a,k?in?enumerate(ks):
sc.pl.violin(adata,keys=k,groupby=Sample,rotation=45,jitter=False,show=False,stripplot=False,ax=axes[a])
plt.subplots_adjust(wspace?=?0.5);
细胞中有较高的线粒体比例有两种可能,1是该细胞受到刺激或者是正在死亡的细胞,2是细胞活性比较强。
简单的过滤
线粒体基因比例小于20%,n_genes_by_counts小于整体的98%,total_counts_upper小于整体的98%
n_genes_by_counts_upper_lim?=?np.quantile(adata.obs.n_genes_by_counts.values,?.98)
total_counts_upper_lim?=?np.quantile(adata.obs.total_counts.values,?.98)
afilter?=?{
pct_counts_Mito:x20,
n_genes_by_
您可能关注的文档
- 甘露醇外渗个案护理.ppt
- 一种基于ES的电子病历检索方法[发明专利].pdf
- 污水管网运营维护方案.docx
- 英语作文MyFavoriteSinger(通用12篇).docx
- 基础教育精品课四年级下册数学第三单元加法运算定律的应用学习任务单.docx
- 仪器分析实验一 紫外吸收光谱定性分析的应用.doc
- 《中国民间故事》阅读测试题(附答案).doc
- 植物地理学(实习报告).doc
- 政治学习材料.doc
- 大学交际英语口语-unit-1-getting-to-know-you.pptx
- 计及电动汽车移动储能动态电价的微电网优化调度研究及解决方案.pdf
- 浅谈电动汽车充电桩绝缘智能化自检装置的设计与应用 .pdf
- 浅谈电动汽车公共充电桩布局方案评价方法.pdf
- 浅谈基于弹性响应的电动汽车快充电价定价策略 汽车充电桩有序充电.pdf
- 浅谈光储充一体化社区的有序充电策略及解决方案.pdf
- 晚期肾透明细胞癌系统性治疗中国专家共识(2024版).pptx
- 中国膀胱癌保膀胱治疗多学科诊治协作共识(2022版).pptx
- 成人心血管外科手术体外循环患者血液管理指南.pptx
- 下尿路修复重建移植物应用规范中国专家共识.pptx
- 中国儿童急性非静脉曲张性上消化道出血诊治指南(2024).pptx
文档评论(0)