One of the main aims in chemometrics and Chemoinformatics is to build up an effective and reliable chemical model in order to predict the unknown samples.So far, there many chemometric algorithms, such as principal component regresssion, partial least squares, support vector machines, artificial neaclear networks, classification and regression trees(CART) and ect. However, there are rarely the methods for effective assessment of the obtained models. The cross-validation is the main tool for this purpose. However, there are lots of critiques on the cross-validation, especially on the leave-one-out-Cross-validation. The methods based on cross validation always too optimistic. Overmore, the domain of applicability of the obtained models is not well defined. Without the domain of applicability of the models, it is very difficult to really use the obtained models, which is now the main obstacle for the usage of the chemoiical models. Now, it is a common situation for chemical modeling, that is, the number of variables is much graeter than the number of the samples, which is a big challenge for chemival modeling, which is the open question in chemometrics, chemoinformatics and bioinformatics. The above mentioned important problems confronted in chemotrics will be systematically researched in this project.
化学计量学和化学信息学研究的一个主要目标就在于建立起一个有效并可靠的化学模型以对未知的化学样本进行预测。目前,可用的化学计量学方法,如主成分回归,偏最小二乘,支撑向量机,人工神经网络,分类回归树等,已发展不少,但如何有效地对所得模型进行有效评价的研究却十分缺乏,目前还主要靠交叉效验来进行,但现已有很多学者指出,只靠交叉效验来进行模型评价有很大缺陷;另外,模型建立后,其可靠应用域如何定义也鲜有报道,对模型的可靠应用域如不能有效定义,则将严重影响该模型的可用性,是模型实际应用的主要障碍;此外,目前样本数远小于变量数的情况在光谱分析、代谢组学分析和模式识别中非常常见,这样多变量少样本的的情况是目前化学计量学、化学信息学和生物信息学的共同具有挑战性的难点问题。本研究将针对这几个十分重要的基本问题进行系统研究。
本项目主要针对化学信息学和生物信息学中的共同具有挑战的难点问题,进行了系统的化学计量学基础及新算法研究,经过五年的努力,已在如下几个方面取得显著成果:.1)提出了新的模型校正方法,样本复杂度评价标准,新的模型应用域算法,更好的基于色谱指纹图谱的定量分析方法等多种新算法,为化学计量学中的若干具有挑战的难点问题提供了新方案及新的解决思路.2)针对化学和生物学中的高维数据(包括蛋白质组学,代谢组学,分析信号处理,变量选择,药物网络分析等),基于随机跳蛙及模型集群分析等基本原理,发展了一系列有影响的化学计量学新方法.3)本项目成果应用于复杂体系的仪器分析数据解析,说明本项目成果不但为化学建模,解决代谢组学与蛋白组学等领域的分析难题提供了新的化学计量学算法,为化学计量学的后续发展提供了理论基础和实践的框架和思路
{{i.achievement_title}}
数据更新时间:2023-05-31
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
核酸适配体生物传感器基础研究中若干重要问题的化学计量学应用
机器学习中的若干重要问题研究
流密码中若干重要问题的研究
缺失数据分析中若干重要问题研究