超高维数据分析的确定独立扫描方法:统计理论及其应用

基本信息
批准号:11301435
项目类别:青年科学基金项目
资助金额:23.00
负责人:钟威
学科分类:
依托单位:厦门大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:李迎星,冯峥晖,陈海强,徐秋华,张传海,张诗悦
关键词:
变量选择超高维数据确定独立扫描渐近性质惩罚回归分析
结项摘要

With the advent of modern technology for data collection, researchers are able to collect ultrahigh dimensional data effectively in diverse fields of scientific research. How to extract useful information from complex ultrahigh dimensional data has become an interesting research topic, meanwhile it brings a new challenge as well as a chance to statistical research. In ultrahigh dimensional data, the number of predictors greatly exceeds the sample size, thus making traditional variable selection techniques and high dimensional penalized regression approaches practically unfeasible. This project aims to explore new sure independence screening approaches on how to select important variables for ultrahigh dimensional data, as well as their theoretical properties and applications. First, we propose a novel model-free sure independence screening procedure based on the mean variance of conditional distribution function (MV-SIS) for ultrahigh dimensional data analysis when response is categorical, and establish its theoretic properties, which will contribute to the literature on ultrahigh dimensional categorical data. Second, a new robust sure independence screening via distance correlation (DC-RoSIS) is proposed to enhance the robustness of the existing DC-SIS approach. This method is practically robust for ultrahigh dimensional heteroscedastic data with potential outliers, and it can maintain the same theoretical sure screening property without any assumption on distributions of predictors or response. At last, we consider the applications of the proposed methods to ultrahigh dimensional gene data in genetics studies. This project will provide new tools to select important genes associated with some genetic trait or disease.

随着现代信息技术的迅速发展,研究人员能有效地搜集到超高维数据。如何从复杂的超高维数据中提取有用信息,已经成为国际科学领域的研究热点,同时也给统计学研究带来了新的挑战和机遇。超高维数据中的自变量维数往往远远大于样本个数,从而传统的变量选择方法和高维数据惩罚回归方法不再适用。本项目旨在研究从超高维数据中选择重要变量的确定独立扫描方法及其理论和应用。首先,针对因变量是属性变量的超高维数据,提出基于自变量条件分布函数的平均方差的全新确定独立扫描方法并研究其理论性质,弥补了现有文献对超高维属性数据研究的空缺;其次,针对具有离群值和异方差的超高维数据,提出基于距离相关系数的稳健确定独立扫描方法,该方法从应用上可以提高现有方法的稳健性,从理论上能去除现有方法对于变量分布假设条件的依赖;最后,将这些方法应用到生物遗传学中的超高维基因数据,为其提供一种筛选影响某种遗传性状或疾病的重要基因的分析工具。

项目摘要

本项目主要研究针对超高维数据研究如何进行变量筛选的问题。首先,我们提出基于因变量的每个自变量条件分布函数的平均方差(MV)指标来刻画自变量的重要性,并基于此提出了一种新的属性数据独立扫描方法(MV-SIS)。理论上,我们证明了该方法具有变量筛选的优良性质,实际应用中,我们将该方法应用到超高维的基因数据中筛选对疾病分类的重要基因。该成果发表在统计学国际顶级期刊Journal of the American Statistical Association上。其次,我们考虑通过每个自变量和边缘累积分布函数转化后的因变量的距离相关系数来刻画自变量的重要性,并基于此提出了一种更加稳健的变量独立扫描的办法(DC-RoSIS)。该成果发表在统计学国际权威期刊 Statistica Sinica上。最后,我们针对超高维人类全基因组数据研究了如何利用变量独立扫描办法选择影响人类身体质量指数(BMI)的重要基因以及其交互项。该成果发表在统计学国际权威期刊 Annals of Applied Statistics上。总的来说,我们顺利地完成了本项目的既定目标,并在本项目的支持下共发表了8篇相关论文。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

钟威的其他基金

批准号:11671334
批准年份:2016
资助金额:48.00
项目类别:面上项目

相似国自然基金

1

随机矩阵/数组形式高维数据的充分降维:统计理论、方法及其应用

批准号:11401095
批准年份:2014
负责人:薛原
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
2

超高维数据统计推断

批准号:11731011
批准年份:2017
负责人:唐年胜
学科分类:A0402
资助金额:250.00
项目类别:重点项目
3

超高维复杂数据统计降维研究

批准号:11771215
批准年份:2017
负责人:来鹏
学科分类:A0402
资助金额:48.00
项目类别:面上项目
4

高维数据统计分析方法及应用研究

批准号:11101397
批准年份:2011
负责人:金百锁
学科分类:A0402
资助金额:23.00
项目类别:青年科学基金项目