Statistical inference on high-dimensional differential structures of big data is a very cutting-edge and important research area with a wide range of applications in genomics, medical imaging, and finance. Motivated by those important scientific applications, the proposed research aims to develop new methodologies, theories, and computational algorithms to address a series of fundamental questions and challenges in estimation and hypothesis testing for high-dimensional differential structures. It produces new opportunities for the scientific problems that cannot be solved by the traditional statistical tools...The complex entry-wise dependence structures of the high-dimensional random variables impose significant methodological and technical challenges not seen in the conventional statistical inference. There are five major research goals to be pursued in the proposed project. One is to develop a new framework for statistical inference on differential structures by incorporating sparsity information of the big data, so as to improve the inferential precision. A second is to construct new sequential inference procedures for differential connectivity network by utilizing variable dependency. The third is to develop nonparametric methods for detecting differential structures, with no assumption on variable distributions. The fourth is to study new methodologies and theories on the inference of differential regression models for big tensor data. The final goal is to apply the newly developed procedures to scientific applications including identification of gene-gene interactions and analysis of heavy-tailed financial data.
大数据异构模型的统计推断是一个非常前沿且重要的统计学研究方向,并且在基因学、医学成像、金融学等领域有着广泛的应用。在这些科学应用的启发之下,本项目旨在建立新的方法、理论及算法来解决一系列高维异构大数据的估计、检验等问题,为传统统计方法所不能解决的科学问题带来新的机遇。..高维变量之间复杂的相依性结构给统计推断问题带来了方法及技术问题上的巨大挑战。针对这些挑战,本项目将重点研究以下五个问题:一、利用数据稀疏性,建立全新的异构模型推断框架,进而提高推断精度;二、利用变量相依性,对连接性网络等异构模型进行顺序分步推断并控制错误率。三、在无分布模型假设下,利用非参方法检测大数据异构性;四、对张量型大数据的回归模型建立异构推断方法与理论;最后,本项目将把新建立的方法应用于科学领域,其中包括推断基因相关性以及重尾金融数据分析等。
大数据异构模型的统计推断在基因学、医学成像、金融学等科学领域有着广泛的应用。受此启发,本项目针对高维变量之间复杂的相依性结构所带来的方法及技术上的巨大挑战,研究了以下几个问题: 一、利用数据稀疏性,建立全新的异构模型推断框架,进而提高推断精度,并将其应用于乳腺癌大数据基因交互作用的识别以及多动症患儿核磁共振矩阵网络数据变化的探测;二、对高维网络模型、回归模型进行异构推断,利用变量相依性,对连接性网络的子网络、成分数据图模型等建立全新的同时推断方法,并应用于阿尔茨海默氏病相关病理蛋白研究及肠道微生物研究之中。三、在没有参数模型的假设下,利用非参方法检测大数据正态分布异构性,并将其应用于肺癌及结肠癌大数据研究之中用以检验数据分布的合理性;四、对张量型大数据建立异构推断方法与理论,并用以探测罕见疾病患者脑部连接性的变化以及新兴市场与发达市场之间资产相关性的异同;五、在保护隐私的情况下对多个异质研究的广义线性模型系数进行综合估计及异构推断,并应用于冠状动脉疾病研究及二型糖尿病研究之中。本项目在以上研究方向上共发表(含在线发表)12篇论文(5篇JASA,2篇Biometrika,1篇JMLR,2篇Sinica,1篇Biostatistics和1篇JOE)。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
二维FM系统的同时故障检测与控制
扶贫资源输入对贫困地区分配公平的影响
复杂数据下结构突变模型的统计推断及应用
偏正态纵向数据混合效应模型的统计推断及应用
复杂数据下变系数模型的统计推断及应用
基于复杂数据的回归模型统计推断及其应用