- 1、本文档共117页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
(5) 描述符组合 将原始描述符进行某种组合以产生新的描述符。例如, 将LUMO与HOMO组合成二者之差时, 通常是考虑到电子激发能对分类的影响。近年来,利用遗传算法(GA)对描述符进行重组,是一种比较有效的手段。 4. 活性指标 活性指标和描述符是QSAR的两个不可分割的组成部分。生物活性通常定义为产生预定生物效应所需的剂量或浓度C的倒数。常用剂量或浓度有: (1)半数有效剂量ED50 (2)半数致死剂量LD50 (3)半数有效浓度EC50 (4)半数致死浓度LC50 5. 相似性量度 模式识别的重要功能之一是分类。研究样本分类属于Q型模式,研究描述符分类属于R型模式,通常对前者用得较多。无论哪种分类,都是依据“物以类聚”即相似者相聚的原理。然而,怎样才算相似?需要从数学上给出某种相似性量度。 相似性量度有多种定义,常用的有 (1) 相似矩阵 从几何意义看, 每个样本相当于n维空间中一个模式矢量。样本k与l 越相似,其模式矢量在模式空间中的夹角αkl越小,夹角余弦越大。所以,夹角余弦可以作为样本相似性的一种指标: 夹角余弦是用原始数据定义的。若改用与样本平均值的差值来定义, 就是相似系数rkl(k=1,2,…, m;l=1,2,…, m): (2) 协方差矩阵 对于原始数据矩阵X,定义描述符k与l之间的相似程度为协方差ckl(行标处的圆点表示该平均值由列标指定的列上对所有行求出): 所有“描述符对”的协方差,汇集成协方差矩阵C (3) 相关矩阵 如果先将原始数据矩阵X标准化,再求其协方差,就得到标准协方差rkl,其值在(-1)到(+1)之间,也称相关系数;组成的矩阵称为相关矩阵。rkl越近与1,表明描述符k与l 越相似。 (4) 描述符之间的相关分析可以推广到目标值(例如药物分子活性)与描述符之间的相关分析: i为样本号(i=1,2,…, m),ti是第i个样本的目标值,xij是第i个样本的第j个描述符。r=+1表明第i个样本的目标值与该样本第j个描述符正相关,r=-1表明第i个样本的目标值与该样本第j个描述符负相关。绝大多数情况下,r的绝对值介于0和1之间。 (5) 距离 相似性还可用模式空间中的“距离”来量度, 这是3D空间距离在高维空间的拓展。这种“距离”的定义很多,如Minkoski距离、Haming距离、Tanimoto距离等。 6. 监督模式识别 监督模式识别需要有一训练集。对于两类的情况,训练集中有一些样本属于A类,另一些属于B类。将此信息输入计算机,经训练后, 可对未知样本进行分类。 监督模式识别的一般步骤: (1)用一组已知类别的样本作为训练集,对计算机进行训练而建立数学模型; (2)用另一组已知类别的样本作为测试集来检验所得数学模型的识别率。测试集的分类对于研究者是已知的, 却不输入计算机; (3)若识别率符合要求, 就可以对预测集进行预测。预测集的活性对于研究者和计算机都是未知的,预测结果正确与否只能由实验去检验。有些研究并不专门使用测试集,而是直接对预测集进行预测,再用实验检验预测结果。在这种情况下,测试集和预测集是同义词。 监督模式识别方法之一 :主成分分析 主成分分析是一种简化数据结构、突出主要矛盾的多元统计方法。它利用某些数学方法将原有特征组合成相互正交的新特征—-主成分,以突出反映事物的规律性。它既是一种模式识别方法,也是一种数据预处理手段, 用主成份作为新特征进行模式识别,有时分类结果会更好。 基本步骤: (1) 写出原始数据矩阵X: (2) 对X作标准化变换,构成标准化数据矩阵Z : (3) 求矩阵Z的协方差矩阵Σ,其矩阵元为 (4) 解矩阵Σ 的本征方程 |Σ -λI| = 0, 求出所有n个本征值及对应的n个本征向量(这与求解HMO久期方程作法相同)。n是描述符的数目。将非零本征值由大到小依次排列, 本征向量也相应排列。 (5) 从这n个本征值中选出前r个本征值(r ? n,只要这r个本征值之和占到n个本征值之和的85%以上即可), 并选出r个对应的本征向量作为列向量, 构成n行r列的系数矩阵D。 (6)
文档评论(0)