Data-driven correlation analysis is one of the most important tools for prediction in Big Data. So the sparse canonical correlation analysis (SCCA for short) and its applications have developed rapidly and become the research hotspots. All applications are dependent on efficient algorithms for their SCCA models. However, the researches on the algorithms and their convergence lag to the researches on applications. This project is going to investigate the efficient algorithms for the constrained optimization problems of SCCA models, and study their applications in gene expression data analysis. The current project consists of the following three parts: 1) to design some efficient algorithms for solving the SCCA models and their approximations, and study the properties of the proposed algorithms, including global convergence, convergence rate and implementation performance; 2) for the Big Data, to design some efficient algorithms for solving the huge scale and hybrid sparse regularization SCCA models; and 3) to investigate the applications of the proposed models and methods in gene expression data analysis. By carrying out this project, we hope to obtain the following results: some efficient operator splitting algorithms will be designed for solving the constrained optimization of SCCA models and their approximations; the global convergence and convergence rate of the proposed algorithms will be proved; and the implementation performance will be verified by some numerical comparisons. By using the proposed SCCA models and algorithms to gene expression data analysis, some technological data will be provided for gene diagnosis and holistic treatment design.
数据驱动的相关关系分析是大数据条件下预测的重要工具,因此稀疏典型相关分析(SCCA)及其应用迅速成为多个领域的研究热点。许多应用依赖于求解SCCA模型的有效算法,而当前算法设计及其收敛性分析的研究滞后于应用研究。本项目研究求解SCCA模型的快速算法及其在基因表达数据分析中的应用,主要包括:1)设计与分析求解SCCA的约束优化模型及其逼近模型的快速算法,包括算法收敛性、收敛速率与数值性能分析;2)在大数据背景下,设计求解超大规模、混合稀疏正则化的SCCA约束优化问题的快速算法;3)研究SCCA模型及其算法在基因表达数据分析中的应用。通过研究,获得求解SCCA对应的约束优化模型及其若干逼近模型的快速算子分裂算法,证明所设计算法的全局收敛性、确定算法的收敛速率,通过对比实验说明算法的实现效率;将项目所设计的SCCA模型及其相应的快速算法应用于基因表达数据分析,为疾病的基因诊断与治疗方案设计提供技术资料。
稀疏典型相关性分析是数据分析与大数据技术、人工智能领域的重要数学模型,被广泛应用于基因表达数据分析、模式识别与目标检测等多个领域。本项目根据不同的应用场景,建立并研究了三种稀疏正则化典型相关分析模型;根据模型的结构特征设计了与之相适应数值算法,证明了所设计算法的全局收敛性,分析了算法的数值性能;研究了几种稀疏典型相关分析模型及其算法在基因表达数据分析、人脸识别、超大规模集成电路布局设计等领域的应用,获得了一些理论与数值结果。依托本项目支持,项目组成员共发表被SCI、EI检索的学术论文20余篇,其他各类论文10多篇;培养硕士研究生近30名,博士研究生3名,培养青年教师 2人;主办或承办国际学术研讨会2次,参加国际国内学术会议近80人次,做学术报告40人次,项目组研究生参加各类暑期班20多人次,邀请专家来课题组交流指导近20人次。本项目设计的部分算法被应用于超大规模集成电路布局设计与异步源定位等问题,具有不错的数值表现。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
肿瘤基因表达谱数据分析及应用算法研究
张量最优化算法及其在基因表达数据中的应用
面向癌症基因表达数据分析的稀疏建模方法研究
学习理论中的核典型相关分析及相关算法的研究和应用