- 1、本文档共32页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华为杯第十三届全国研究生数学建模竞赛
参赛密码
(由组委会填写)
“华为杯”第十三届全国研究生
数学建模竞赛
学 校 浙江大学
参赛队号
1. 李克西
队员姓名 2. 林苾湲
3. 张苏锐
参赛密码
(由组委会填写)
题 目 具有遗传性疾病和性状的遗传位点分析
摘 要:
本文根据全基因组关联分析的步骤,运用统计学和机器学习方法,对样本数
据建立数学模型,主要完成了以下几方面的工作:
针对问题一:在对原始数据进行统计分析、清洗及质量控制检测后,比较了
数值编码、哑元化以及 One-Hot 向量等几种对无序特征编码的方案,出一种改
进的数值型编码方式,既不增加样本向量空间维度,又考虑了碱基对排列组合方
式间的距离问题。
针对问题二:利用卡方检验获取在显著水平为 0.01 的条件下,与疾病 A 相
关性较高的 16 个位点。并进行进一步检验,确定位点 rs2273298 为疾病 A 的致
病位点,位点 rs932372 、位点 r 和位点 rs2807345 极有可能为疾病 A
的致病位点。Logistic 回归检验的准确率为 68.3%.
针对问题三:首先,在显著性水平为 0.05 的条件下,筛选出 167 个可能与
疾病相关的位点。然后,根据位点信息对包含这些位点的 105 个基因进行重编码。
使用卡方检验对这些基因与疾病 A 进行关联性分析;同时采用权重累加编码方
式进行辅助检验,确定出与疾病 A 最相关的基因为 gene_55,其他较为相关的基
因为gene217、293 、169。使用Logistic 回归检验准确率为79.9%.
针对问题四:采用典型相关分析法,将多维变量转为单一综合变量,具体使
用 K-means 方法对相关性状数据进行聚类,根据多次实验的残差平方和确定类
别数k 为2 。接着使用卡方检验确定位点r为这些相关性状的致病位点,
位点 r和位点 rs3218121 极有可能为表现综合性状的致病位点。Logistic
回归检验准确率为 68.3%.
关键词:GWAS、卡方检验、Logistic 回归检验、K-means 聚类、典型相关分析
目 录
1. 问题重述 1
1.1 问题背景 1
1.2 问题出 1
2. 问题假设与符号系统3
2.1 问题假设3
2.2 定义与符号系统3
2.2.1 定义3
2.2.2 符号系统3
3. 问题分析5
3.1 相关概念5
3.1.1
您可能关注的文档
最近下载
- 初中语文新课标教学设计及反思.pptx
- 就地型馈线自动化选型技术原则(试行).ppt
- 小学生交通安全知识竞赛课件.ppt
- 科技经费管理培训通用课件.ppt
- 激光模拟打靶技术方案.pptx
- 《思想政治教育方法论》PPT课件 2.第八章 课件 第八章《思想政治教育的一般方法》201812.pptx VIP
- 餐饮劳务外包合同(五篇).doc VIP
- 2023年成都信息工程大学数据科学与大数据技术专业《操作系统》科目期末试卷B(有答案).docx VIP
- 中小型企业局域网的规划与设计.doc VIP
- 2024-2025学年新教材高中英语 Unit 3 On the move理解 课文精研读教案 外研版必修第二册.docx
文档评论(0)