化学计量学姓名:***学号: ********* 专业:********评阅人:***1、化学计量学化学计量学是将数学和计算机科学应用于化学的一门新的交叉学科,是化学领域的一个重要分支。
它运用数学、统计学、计算机科学以及其他相关学科的理论与方法,优化化学测量过程,并从化学测量数据中最大限度地提取有用的化学信息。
化学计量学的研究对象:化学计量学的研究对象是有关化学量测的基础理论和方法学。
其内容涉及到统计学与统计方法、实验设计与优化、分析信号处理、多元校正、化学模式识别、定量构效关系(QSAR)、数据库及专家系统。
在我国的发展已经有20多年的历史,为化学各分支学科特别是分析化学、环境化学、药物化学、有机化学、化学工程等提供了不少解决问题的新思路、新途径和新方法。
化学计量学的任务:其任务是研究有关化学测量的理论与方法学,应用数学、统计学与信息理论、计算机科学的方法和手段,科学地设计化学实验,选择最优的测量方法,最有效地获取体系有用的特征数据,并通过解析测量数据最大限度地从中提取有关物质的定性、定量、形态、结构等信息。
2、化学计量学的方法常用的化学计量学方法有多元线性回归、主成分分析、偏最小二乘法、人工神经网络、遗传算法以及支持向量机算法等。
2.1、多元线性回归在传统二维构效关系研究中,多元线性回归(Multiple Linear Regression,MLR)是最为常见的统计方法。
一个分子可以用很多分子参数来表达,但在建立线性回归模型的时候,为了避免过拟合(over-fitting),只能从这些物理化学参数中选择一部分参数来建立回归模型。
一般来讲,化合物的数目和所选取参数的数目比应大于n2(n表示选取的参数个数),也有人提出应大于3~5(样本数目较大时显然不合适),怎样选择合适的参数一直是定量构象关系研究中的一个难题。
而且对于线性回归来讲,当体系噪声较强或干扰严重时,有可能导致所得的模型失真。
2.2、主成分回归主成分回归(Principle Component Regression)方法首先采用主成分分析(Principle Component Analysis,PCA)方法选取重要的因子,然后采用常规的回归方法建立数学模型,从而实现对原来数据的降维处理。
所谓主成分,它为一新的变量,而该新变量是原来变量ij x的线性组合。
主成分回归的主要步骤包括:①数据的标准化处理;②由数据的协方差矩阵求得本征矢量;③选取主成分实施多元回归分析。
2.3、偏最小二乘法在主成分回归法中,所处理的仅为自变量,而对因变量的信息并未考虑。
事实上,因变量中可能包含非常有用的信息。
偏最小二乘法(Partial Least Square,PLS)在考虑自变量的同时也考虑了因变量的作用,同时通过折衷各自空间内的因子,使模型较好地同时描述自变量和因变量。
PLS的主要优点是:①对自变量之间的相关性要求不苛刻;②当自变量的数目多于样本的数目时,PLS仍可获得有意义的结果;③传统的PCA仅仅考虑自变量的信息,而PLS则同时考虑了自变量和因变量方面的信息,所以更易获得有意义的结果;④算法中由于采用交互检验来选取模型中的最佳主成分数目,所以降低了模型的偶然相关性。
2.4、人工神经网络人工神经网络(Artifical Neural Network,ANN)是QSPR和QSAR研究中处理非线性问题的常用方法,其基本原理是受生物大脑的启发,试图模仿人脑神经系统的组成方式与思维过程而构成的信息处理系统,具有非线性、自学习、容错性、联想记忆和可训练性等特点。
理论上已证明,具有一个隐含层的ANN网络即可实现对任意连续函数的逼近,实现任何非线性映射。
ANN 在多元校正、试验条件优化、蛋白质结构预测以及QSPR/QSAR研究中都得到了广泛的应用。
从网络的结构和训练算法来分,其中RBFNN由于其简单的优化过程以及较强的非线性拟合能力,故有着非常广泛的应用。
2.5、遗传算法遗传算法是一种借鉴生物界自然选择和自然遗传机制的并行、随机、自适应搜索算法。
遗传算法来源于对自然界进化过程的模拟,可以说是对达尔文进化论公式化的表达。
其主要思想是利用简单的编码技术和繁殖机制来表达复杂的现象,从而解决复杂问题。
它是由复制(replication)、杂交(crossover)、和变异(mutation)三个算子组成。
基于遗传算法的QSPR/QSAR的计算分为下面的步骤:①产生初始种群。
首先随即产生初始的种群,即一组2D-QSAR模型。
产生了初始种群后,就用得分函数来评价每个个体;②选择操作。
当种群中的所有个体被评价后,就可以根据种群中个体的得分结合随机方法来选择被新种群保留的个体,对每个要淘汰的个体,都将用新的个体来替代;③杂交操作。
进行杂交操作时,在种群中选择两个被保留的个体作为母体,然后将这两个母体随机的分为两段,而后在不同的母体中选择一部分组成新的个体;④突变操作。
进行突变操作时,在种群中随机的选择一个个体,然后将个体中地某一个元素随机地改变而得到新的个体。
通过杂交和突变而产生地所有个体均要用得分函数来予以评价,然后根据得分情况对新个体进行选择,产生新种群;⑤部分替换操作。
在经过了若干次突变和杂交操作以后,对于种群中得分最低的部分个体,进行部分替换操作。
部分替换操作可以减少计算陷入局部最小的危险性。
一般来讲,每隔200~300步进行一次部分替换操作就够了;⑥比较操作。
为了将最好的若干个体保存下来,采用”精华”种群来保存它们。
进行完杂交和变异操作后,逐一比较新种群中的个体和精华种群中的个体,如果新种群中存在更好的个体,就把它们拷贝到精华种群中去。
2.6、支持向量机算法数学家Vladimir N. Vapnik等通过三十余年的严格的数学理论研究,提出来的统计学习理论和支持向量机算法已得到国际数据挖掘学术界的重视,并在语音识别、文字识别、药物设计、组合化学、时间序列预测等研究领域得到成功运用。
SVM在生物信息学中得到了广泛的应用,在HIV蛋白酶裂解点预测、蛋白质折叠和高级结构预测,蛋白亚细胞定位、蛋白与蛋白相互作用研究以及疾病辅助诊断等方面。
3、化学计量学的应用3.1 在分析化学中的应用3.1.1、应用于化学定量构效关系化学定量构效关系的研究在理论化学研究中是一个十分重要的目标,它是化学学科的根本性问题,即怎样从物质的化学结构与化学成分来定量预测该物质的化学特性。
在化学定量构效关系的研究中,可以采用图论与数值方法的结果来表征各种化合物分子,并把计算结果和实际量测化合物的化学、生物学、物理特性等结合起来,将含糊的定性描述由明确的定量关系取代,把经验规则逐渐转变为半理论规律。
目前化学定量构效关系的研究把全局最优算法引入分子力学的寻优,以指导最佳先导化合物的寻找,并已广泛应用于实践中。
把误差反向传播多层感知模型用于对位取代的苯酚衍生物的物化性质与生物活性参数的化学定量构效关系研究,其预测均方差为0.036,结果和传统方法相比,有着较为明显的改进。
3.1.2、应用于人工神经网络现代生物学研究在不断研究人脑组织后,提出了人工神经网络这一概念。
人工神经网络是十分复杂的网络,它是由大量简单的处理单元连接而成的,可以模拟大脑的行为。
ANN能够对数据模式进行有效地分类与解析,它比较适合处理结果与原因关系不确定的非线性测量数据,许多化学问题都是由于这种不确定性产生的,所以它成功地应用于很多化学领域。
目前已有报道:人工神经网络应用在在药物分子的药效预测、谱图分析以及蛋白质结构的预测。
在分析化学中,遗传算法也被广泛地应用,如发射光谱试验条件选择、多组分分析波长的选择、校正数据的优化、生物大分子的构象分析与核磁共振脉冲波形的选择等。
另外,ANN也使仪器联机和实验室自动化得到一定的促进,并很好地指导或控制生产,使生产质量得到提高与保证。
3.1.3、应用于模式识别法模式识别法是根据化学量测数据矩阵,把样本集按样本的某种性质进行分类及特征选取的方法。
根据量测参量在多维模式空间中的相对位置区分不同的组,线性判别分析法、K-最邻近法及SIMCA法都是模式识别的方法。
模式识别法的研究对决策和过程优化提供很有实用价值的信息,为我国材料化学与石油化工等领域带来了解决研究难题的新思路。
其中Thomas等同时应用K-最邻近法与线性学习机从伏安波中区分重叠伏安响应信号,将K-邻近法用于电位阶伏安波和微分电毛细管曲线的分类,可对有机化合物构效关系进行表征。
SIMCA法在食品鉴定、加入赋形剂的药品近红外光谱识别与环境等方面也有着一定的应用。
3.1.4、应用于多元校正分析法随着多元分析的逐步崛起与不断开发,研究对象及目标变得越来越复杂,这就要求化学分析工作者能够快速给出准确的定量、定性与结构分析的结果。
通过因子设计、正交设计、析因设计、均匀设计等化学实验设计与优化方法能够研究包含多种因素的协同作用与影响,使分析选择性得到了有效地改善,同时还使应用范围大大拓宽。
3.1.5、应用于波谱化学如何利用现存波谱数据库,对复杂分析体系(如红外光谱、质谱、色谱、核磁共振谱的保留时间库和吸收、发射光谱等)作出快速定量、定性分析,这是分析化学家一直努力的目标。
化学专家系统技术与智能数据库,尤其是化学计量学在此提供了新的解析途径。
推广使用了各种滤波、(减)差谱、平滑、变换、卷积技术以及最优化技术,这使得分析面貌焕然一新,提供可不经分离直接地测定相互干扰的共存物种,甚至完全未知的混合物。
南开大学与中国科学院等单位都先后建立了多种波谱的专家系统与数据库。
Kankare等对聚(3-甲基噻吩)在0.1mol/L 高氯酸四丁基铵的乙腈溶剂中所形成的电极薄膜的光谱电化学性质进行了渐进因子分析,十分容易地确定了循环伏安分析中由于电极反应所产生的中间产物在何电位处产生。
3.2 在中药研究中的应用3.2.1化学计量学在中药材鉴别和质量评价方面的应用模式识别方法是化学计量学中的重要方法。
化学模式识别是用现代分离分析检测方法对中药材或药品样本中的有机或无机的药用化学成分进行检测,用化学计量学方法对所得化学数据进行处理,确定可用于样品质量控制的模式,然后进行整体分析、分类和对未知样本进行识别。
此方法综合了中药材或中药制剂内各种化学成分的整体信息,能够更准确、更全面、更科学地对中药材或中药制剂进行质量评价,在对大批量样品进行鉴别分类时,其快速、准确的特点尤为突出。
在中药鉴别和质量控制方面常用有如下的一些模式识别方法。
3.2.1.1主成分分析法所谓主成分分析方法,就是根据在初选的特征量间可能存在的相关性,找到一种空间变换方式,通过对原特征(经标准化后的)变量进行线性组合,形成若干个新的特征矢量,要求它们之间相互正交,并能最大限度地保留原样本集所含的原始信息。