华为杯第十三届全国研究生数学建模竞赛.pdf

华为杯第十三届全国研究生数学建模竞赛.pdf

  1. 1、本文档共32页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
华为杯第十三届全国研究生数学建模竞赛

参赛密码 (由组委会填写) “华为杯”第十三届全国研究生 数学建模竞赛 学 校 浙江大学 参赛队号 1. 李克西 队员姓名 2. 林苾湲 3. 张苏锐 参赛密码 (由组委会填写) 题 目 具有遗传性疾病和性状的遗传位点分析 摘 要: 本文根据全基因组关联分析的步骤,运用统计学和机器学习方法,对样本数 据建立数学模型,主要完成了以下几方面的工作: 针对问题一:在对原始数据进行统计分析、清洗及质量控制检测后,比较了 数值编码、哑元化以及 One-Hot 向量等几种对无序特征编码的方案,出一种改 进的数值型编码方式,既不增加样本向量空间维度,又考虑了碱基对排列组合方 式间的距离问题。 针对问题二:利用卡方检验获取在显著水平为 0.01 的条件下,与疾病 A 相 关性较高的 16 个位点。并进行进一步检验,确定位点 rs2273298 为疾病 A 的致 病位点,位点 rs932372 、位点 r 和位点 rs2807345 极有可能为疾病 A 的致病位点。Logistic 回归检验的准确率为 68.3%. 针对问题三:首先,在显著性水平为 0.05 的条件下,筛选出 167 个可能与 疾病相关的位点。然后,根据位点信息对包含这些位点的 105 个基因进行重编码。 使用卡方检验对这些基因与疾病 A 进行关联性分析;同时采用权重累加编码方 式进行辅助检验,确定出与疾病 A 最相关的基因为 gene_55,其他较为相关的基 因为gene217、293 、169。使用Logistic 回归检验准确率为79.9%. 针对问题四:采用典型相关分析法,将多维变量转为单一综合变量,具体使 用 K-means 方法对相关性状数据进行聚类,根据多次实验的残差平方和确定类 别数k 为2 。接着使用卡方检验确定位点r为这些相关性状的致病位点, 位点 r和位点 rs3218121 极有可能为表现综合性状的致病位点。Logistic 回归检验准确率为 68.3%. 关键词:GWAS、卡方检验、Logistic 回归检验、K-means 聚类、典型相关分析 目 录 1. 问题重述 1 1.1 问题背景 1 1.2 问题出 1 2. 问题假设与符号系统3 2.1 问题假设3 2.2 定义与符号系统3 2.2.1 定义3 2.2.2 符号系统3 3. 问题分析5 3.1 相关概念5 3.1.1

文档评论(0)

wangyueyue + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档