With the rapid development of the internet technology and the information technology, the datasets have greatly increased not only in quantities but also in scales,relationships between data have also been increasingly close and complicated. Under new period and new requirement, analysis of the correlation among data is facing new challenge. Gaussian graphical model is one of the most powerful models for learning the conditional independence structure among a large number of variables and has been successfully applied to various fields, such as machine learning, artificial intelligence, financial markets and bioinformatics. In this proposal, we aim to design efficient and robust algorithms for solve large-scale regularized Gaussian Graphical models and joint Gaussian graphical models. Specially, we firstly study the metric subregulairty of the KKT mappings for the regularized/joint Gaussian graphical model and analyze the convergence rate of some well-established numerical algorithms. Then, we analyze the sparse/low rank structures of the first and the second order information. Based on this information, we develop first-order method, second-order information-based hybrid method, and their combinations. Global convergence results about these proposed methods are also included. The effectiveness the Gaussian graphical model and the efficiency of the proposed method are evaluated by empirical experiments on gene expression data and financial data.
随着信息技术与网络技术的快速发展,数据的数量和规模都呈爆发式增长趋势,数据间的关系也变得更为密切和复杂。这对数据间的相关性分析产生了新的挑战。高斯图模型作为分析数据相关性的有效方法之一,在机器学习、人工智能、金融工程、生物信息特征识别等领域中有着广泛的应用。在此背景下,本项目致力于设计快速而稳定的算法去求解大规模正则化高斯图优化模型和联合高斯图优化模型。具体内容如下:(1)刻画不同正则函数对应的正则化/联合高斯图优化问题Karush-Kuhn-Tuker映射的度量次正则性,为算法的收敛速度分析做准备;(2)挖掘不同正则函数对应的优化问题中包含的一阶、二阶信息及其稀疏、低秩等结构,充分利用这些信息,设计一阶算法、带有二阶信息的混合算法、以及两种算法的有效组合,并给出所设计算法的收敛性和收敛速度;(3)将算法应用到生物医学和金融工程等领域,在分析数据间的相关性的同时,测试算法的有效性。
高斯图模型是分析变量间相关性的一类有效方法。 本项目重点研究了大规模正则化联合高斯图模型有效算法的设计分析与实现。本项目取得的主要成果可概述如下:(1) 分别给出了具有多面体性质的Fused Lasso正则化函数和非多面体性质的Group Lasso正则化函数对应的联合高斯图优化模型Karush-Kuhn-Tuker映射的局部Lipschitz连续性。(2) 通过建立向量形式的正则化函数和矩阵形式正则化函数的关系,给出了不同矩阵变量正则化函数邻近映射的具体表示形式和快速的数值计算方法,同时刻画了正则化函数邻近映射的次微分具体形式。(3)设计了基于二阶信息的邻近点算法,在理论上证明了所设计的算法具有全局收敛性和快速收敛速度,并通过数值实验在金融数据、文本分类等数据上验证了所设计算法的稳定性和有效性;(4)充分利用了一阶算法和基于二阶信息算法的优势,在实际问题求解中我们通过交替方向乘子算法选取适合基于二阶信息算法的初始点,提升了整体计算效率。 本项目关注的最优化模型及所设计的数值算法可用于大规模时间相关性数据和多分类数据中潜在的变量相关性结构分析,为数据的进一步应用和分析提供支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于lncRNA-RIK调控巨噬细胞M2型极化在Fenretinide抗骨肉瘤转移中的作用及机制研究
数据分析中的大规模矩阵优化模型求解算法研究
大规模图中图性质求解的低复杂度分布式算法研究
分布式差分进化算法求解大规模动态优化问题研究
求解大规模数据分析中复杂优化问题的演化算法研究