Nowadays, class-imbalanced data arises from many fields of scientific discoveries, whereas many standard classfiers usually perform poor for class-imbalanced data due to the lack of attention on the minority. In this project, we focus on statistical modeling and applications for class-imbalanced data. Firstly, we try to calculate the area under precision-recall curve (AUPRC) based on the binormal assumption, clarify the advantages of PRC plot over the receiver operating characteristic curve(ROC), establish PRC-based evaluation criterion for class-imbalanced data. Secondly, by building AUPRC-based optimal function, we investigate variable selection via both sparse regularized penalties and principal component extraction, and study group variable selection algorithm by capped-LASSO penalty. In addtion, we consider the stability of all these variable selection algorithms. Lastly, based on the research mentioned above, we deal with metabolomics data, which generally presents class-imbalance and high-dimensionlity. We try to find the biomarkers which correspond to those most important predictors and contribute to uncovering pathogenesis and decreasing error rate and false positive rate. Not only does this research effectively establish a new evaluation metric and variable selection methods for class-imbalanced data, but also it can enrich the statistical theory for class-imbalanced data. It also provides an effective way and reliable guidance to deal with the real class-imbalanced data from metabolomics and so on.
类不平衡数据在各个领域广泛存在,然而常规分类器在处理类不平衡数据时容易忽视少数类而出现较大偏差。本项目就类不平衡数据的统计建模与应用问题展开深入研究。首先,在双正态假设下研究准确率-召回率曲线(PRC)下方面积(AUPRC)的计算与性质,分析PRC图比接收者操作特征(ROC)图在处理类不平衡数据时的优势,建立基于PRC图的模型评估标准;其次,对高维的类不平衡数据以AUPRC最优为准则,建立基于稀疏正则惩罚与基于主成分提取的变量选择模型以及基于封顶-LASSO惩罚的群组变量选择算法,深入讨论变量选择稳健性理论;再次,对具有偏斜特征的高维代谢组学数据统计建模,寻找其关键的生物标记物以探索病发机理和降低错分率与伪正率。本项目将为类不平衡数据分析建立新的评估标准和高效的变量选择算法,丰富和完善类不平衡高维数据的统计建模理论,为实际类不平衡数据的处理提供可靠的技术指导和有效的数据分析手段。
近年来类不平衡数据越来越广泛地出现在各个领域,本项目聚焦于类不平衡数据统计建模的难点问题,系统地研究了如下几个方面的内容:(1)针对类不平衡数据统计建模的模型评价准则问题,提出了基于准确率-召回率曲线(PRC)的类不平衡数据统计建模的模型评价准则和模型选择方法;(2)就高维类不平衡数据的变量选择问题,提出了基于Hellinger距离、类重叠最小化、基于秩聚合和LASSO类型稀疏正则化的四种高维类不平衡数据的稳健变量选择方法;(3)从数据层面建立了类不平衡数据的自适应权重SMOTE过采样数据预处理方法;(4)就类不平衡代谢组学数据如何提高少数(阳性)类的预测性能问题,利用上述模型评价准则和模型选择方法,对鼻咽癌、颅脑损伤引发认知障碍、冠心病、石菖蒲等类不平衡代谢组学数据展开了应用研究。.在该地区项目的资助下,我们开展了类不平衡数据统计建模的模型评价、模型选择、数据预处理和应用研究,获得了一系列的研究成果。这些成果丰富和完善了类不平衡高维数据的统计建模理论,为实际类不平衡数据的处理提供了可靠的技术指导和有效的数据分析手段,可应用到代谢组学、生物医学、计算机科学等多个领域。本项目已完成预期研究目标,完成的成果指标如下:(1)表SCI收录的期刊论文8篇(NSFC项目编号11761041均为第一标注),按中科院JCR当年分区,二区文章4篇;(2)培养概率论与数理统计方向硕士研究生4名,在读硕士研究生6名;(3)2020年获云南省自然科学奖三等奖1项;(4)项目主持人晋升为教授,并获云南省“青年拔尖人才”称号。.
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
一种基于多层设计空间缩减策略的近似高维优化方法
转录因子WRKY71对拟南芥根系发育的影响
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于贝叶斯张量分解的高维关系组学数据子空间双聚类建模与统计方法研究
高维数据统计建模与分析
代谢组学数据融合与建模新方法及在糖尿病肾病研究中的应用
代谢组学中的生物启发式高维数据特征选择方法研究