随机矩阵/数组形式高维数据的充分降维:统计理论、方法及其应用

基本信息
批准号:11401095
项目类别:青年科学基金项目
资助金额:22.00
负责人:薛原
学科分类:
依托单位:对外经济贸易大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:白芳芳,王景乐,余超,唐晓彬,曹诗男,王明,王渊闻,蔡瑶童
关键词:
变量选择局部回归稳健回归渐近性质充分降维
结项摘要

With the rapid development of data collection technology, modern data are often large and structured. Unlike traditional vector-valued data, those high dimensional matrix-/array-valued data sets are structured with each dimension representing different information. How to reduce the dimensions of those structured objects and extract useful information while preserving the underlying structure interpretation, poses great challenges to statistical research. This project aims to explore new sufficient dimension reduction theory, methods and applications on those structured data. And hereafter, we use sufficient dimension folding to specify the technology for reducing dimensions of those data without losing any information. First, we perform sufficient dimension folding in reference to a functional of the conditional distribution of response given matrix-/array-valued predictors, and establish its theoretic prosperities as well as general estimation methods. Second, new sufficient dimension folding methods based on ensemble are proposed to estimate the central dimension folding subspace. Those methods do not require strong assumptions on distributions of predictors or response. At last, we consider variable selection in sufficient dimension folding to enhance the model accuracy. The proposed methods will be applied to multivariate longitudinal data and stock change rate data. This project will provide new tools to select biomarkers associated with disease and analyze change rates of financial markets.

随着数据收集技术的高速发展,当今数据呈现向高维化和结构化同时发展的趋势。不同于传统随机向量形式的数据,此类结构化、以多维数组形式存在的数据,每一维度都包含了一定的信息。如何充分地降低此类结构化数据的各个维度,从中提取有用信息,同时保持数据的结构性,给统计学研究带来了新的挑战。本项目旨在研究此类数据充分降维的理论、方法及其应用。首先,提出自变量在因变量条件分布泛函空间上充分降维的概念、研究其理论性质并构建具有一般性的估计方法;其次,基于对自变量关于因变量条件均值空间充分降维方法的研究,提出通过叠加中心条件均值充分降维空间,以估计关于条件分布函数充分降维空间的方法,从理论上去除现有方法对于变量分布假设条件的依赖;再其次,研究此类数据充分降维时变量选择的问题,以提高模型预测的准确性。以上方法将被应用到医学高维纵向数据以及股票变化率数据,为疾病侦测以及金融市场变动的研究提供分析工具。

项目摘要

本研究项目着重于高维数据充分降维的理论、方法与应用研究,特别是关于矩阵/数组型高维数据的充分降维方法及其应用。伴随数据科学的发展,数据的多样性特别是高维化和结构化同时发展的趋势挑战了传统的数据分析方法。不同于传统随机向量形式的数据,此类结构化、以多维数组形式存在的数据,每一维度都包含了一定的信息。如何充分地降低此类结构化数据的各个维度,从中提取有用信息,同时保持数据的结构性,给统计学研究带来了新的挑战。本项目提出关于矩阵/数组型高维数据条件均值的充分降维以及在因变量条件分布泛函空间上充分降维的概念、理论性质以及估计方法;同时基于对自变量关于因变量条件均值空间充分降维方法的研究,提出通过整合中心条件均值充分降维空间,以估计关于条件分布函数充分降维空间的方法,从理论上去除现有方法对于变量分布假设条件的依赖;另外,本研究项目还提出了利用新的判断准则进行高维数据充分降维。以上方法被应用到医学高维纵向数据、股票变化率数据以及一组机器学习数据,为疾病侦测、金融市场变动以及机器学习的研究提供分析工具。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
2

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
3

二维FM系统的同时故障检测与控制

二维FM系统的同时故障检测与控制

DOI:10.16383/j.aas.c180673
发表时间:2021
4

LTNE条件下界面对流传热系数对部分填充多孔介质通道传热特性的影响

LTNE条件下界面对流传热系数对部分填充多孔介质通道传热特性的影响

DOI:10.11949/0438-1157.20201662
发表时间:2021
5

城市生活垃圾热值的特征变量选择方法及预测建模

城市生活垃圾热值的特征变量选择方法及预测建模

DOI:10.11936/bjutxb2021010011
发表时间:2021

薛原的其他基金

相似国自然基金

1

高维稀疏矩阵降维方法的理论研究与应用

批准号:60303024
批准年份:2003
负责人:陆建江
学科分类:F0203
资助金额:7.00
项目类别:青年科学基金项目
2

基于随机矩阵理论的高维数据统计分析

批准号:11101181
批准年份:2011
负责人:姜丹丹
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

基于充分降维方法的高维数据假设检验问题的研究

批准号:11201151
批准年份:2012
负责人:於州
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
4

数据缺失时高维数据降维分析的方法、理论与应用

批准号:11171331
批准年份:2011
负责人:王启华
学科分类:A0403
资助金额:40.00
项目类别:面上项目