【研究生数学建模】抗乳腺癌候选药物的优化建模研究.pdf

【研究生数学建模】抗乳腺癌候选药物的优化建模研究.pdf

  1. 1、本文档共53页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
中国研究生创新实践系列大赛 “华为杯”第十八届中国研究生 数学建模竞赛 学校 南京林业大学 参赛队号 21102980066 1.钱伟杰 队员姓名 2.石泽峰 3.王汉钊 中国研究生创新实践系列大赛 “华为杯”第十八届中国研究生 数学建模竞赛 题目 抗乳腺癌候选药物的优化建模 摘 要: 研究发现,雌激素受体α 亚型 (ERα )是治疗乳腺癌的重要靶标,能够拮抗ERα 活性 的化合物可能是治疗乳腺癌的候选药物。一个化合物想要成为候选药物,除了需要具备 良好的生物活性外,还需要在人体内具备良好的药代动力学性质和安全性。通常采用建 立化合物生物活性预测模型的方法来筛选潜在活性化合物。本文构建化合物生物活性的定 量预测模型和 ADMET 性质的分类预测模型,从而为同时优化 ERα 拮抗剂的生物活性和 ADMET 性质提供预测服务。 本文所做的工作可概括为以下几点: 问题一:首先通过低方差滤波去除225 个单一值特征变量,再对剩余的 504 个变量进 行灰色关联分析筛选出前 200 名的特征变量,将样本特征比提高至接近 10:1。接着使用 基于随机森林的递归特征消除算法选取前 30 名的特征变量,考虑到算法的随机性影响, 将算法试验 50 次,对每次选出的30 个变量计数,最后得到出现频数最高的 30 个变量。 因得到的30 个变量只有计数,没有得分排名,再对选出的 30 个变量做 10 次随机森林回 归,取10 次回归的平均值作为30个变量最终的相关性得分,选出排名靠前的20个变量。 同时,对得分靠前的20 个变量分别计算其与pIC50 的最大互信息系数得分,距离相关性系 数得分,皮尔森系数得分,验证变量选取的合理性。 问题二:结合问题 1 递归特征消除选出的和生物活性相关性最高的 30 个特征变量, 将变量按对生物活性相关性从高到低排序,求出变量与变量之间的距离相关系数,再通 过类似非极大值抑制的方式,对分数高的变量删去和其距离相关系数为强相关的变量(系 数0.6),从而保证所选变量的独立性,保证选出的特征子集尽可能最优。接着选用 5 种 最常用的非线性模型支持向量回归模型,随机森林回归模型,梯度提升回归树模型, XGBoost 模型和BP 神经网络来建立生物活性预测模型。将 1974 个样本划分成 80%训练集 和 20%的测试集,用训练集训练模型,用测试集对模型进行检验,分别得到5 种模型的三 2 2 个评价指标MSE,MAE, ,通过比对这三个指标,最终确定了拟合优度 为0.8076 的梯度 提升回归树预测模型。使用模型对test 文件中的50 个化合物预测pIC50 ,并通过pIC50 与 IC50 之间的转换公式得到50 个IC50 的结果。 问题三:首先对每个 ADMET 性质分别进行最优特征子集的选取,每个性质特征子集选 取的步骤相同,以 Caco-2 为例,第一步滤去数据集中 225 个单一值特征变量,第二步使 用最大互信息系数求取与 Caco-2 相关性最高的 200 个变量,第三步使用基于随机森林的 1 递归特征消除算法选取变量,试验 50 次,每次选出40 个变量,挑选出现频数大于40 的 特征变量,第四步,按随机森林得分排序变量,第五步使用问题二中提出的类似非极大 值抑制的独立性变量剔除算法选出最优的特征子集。得到了5 个性质各自的特征子集后, 选用5 种分类预测模型,通过在测试集上的准确率比较,确定最终各ADMET 性质的分类预 测模型。一共选出三个支持向量机分类模型和两个 XGBoost 分类模型,使用模型对 test 文件中50 个化合物预测5 个性质的分类结果。 问题四:筛选样本数据,分析主要变量分布,选定需要优化的变量。为满足ADMET 中 至少有三个性质较好及各变量上下限的约束条件下,

您可能关注的文档

文档评论(0)

187****3326 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档