By analyzing the characteristics of astronomical big data, we propose several novel models for photometric redshift estimation to improve its estimation accuracy and speed. These models explore innovation in the following aspects. Firstly, different from general data mining algorithms which are derived from the data with independent and identical distribution and only build one unified model by using all examples in dataset, we propose a divide and conquer algorithm to break up the entire massive data set into several subsets regarding to the observed waveband distribution. Next, for each subset, we collect them into an association-diffusion structure and further combine local structures together to develop an association-diffusion extimation model. For a test sample, the model can first match it to a local collection with more targeted and precise training examples. Thereby, the model can effectively improve estimation precision. Secondly, we propose a heterogeneity collaborative estimation model by combining multiple sources of astronomical data. It applies data mining algorithms to study the strength conditions for each data source of a survey. Next, we combine complementary strength conditions from multiple sources together for estimation cooperation, so that the integration model achieves high accuracy covering more broad of sky districts than the sky covered by cross-matching method. Thirdly, we propose a fast estimation algorithm by using big-data-oriented graph storage model and local statistical sampling and interpolation strategy. Further, in the context of huge volume of astronomical data, we propose parallel estimation algorithms based on computing cluster platform.
本项目结合天文大数据的特点,提出多种新颖的测光红移估测模型以提高其估测精度和估测速度。这些模型有下列创新点:首先,不同于传统数据挖掘算法中基于独立同分布对所有训练集样本建立一个统一模型,本项目中提出分而治之的策略将整个海量数据集依据观测波段属性分布图分成若干个子集,然后针对每个子集设计关联扩散结构,并进而构造关联扩散机估测模型,该模型能集成相对于测试样本更有针对性、更精确的局部训练样本建模,从而精细化、有效地提高测光红移的估测精度;其二,结合多源天文数据提出异质合作估测模型,它利用数据挖掘算法研究基于各个巡天数据源估测的优势条件,然后通过优势互补的条件组合方法进行合作估测,从而使该模型比交叉证认的融合方法能在更大的数据集合上实现高精度估测;其三,利用面向大数据的图存储模型、局部统计采样插值设计快速估测模型,并进而设计大数据环境下,基于计算机集群的测光红移并行估测算法。
在大数据环境下,海量、多波段的多源信息从不同的维度反映着空间目标的性质。本项目旨在利用空间属性的特征分布、关联扩散结构以及融合估测模型等大数据分析方法来提高测光红移等空间参数的估测精度和速度。本项目开展了下列研究并取得了许多研究成果: . 在大数据的入库、预处理、特征选择及关联扩散结构的构造方面:完善了天文大数据管理及空间索引工具;研究了提升小波变换等多种改善数据质量的算法;探索了粒子群优化等多种特征选择及加权算法,并提出了一种将先验知识与最小绝对收缩和选择算子相结合的属性分组及特征筛选方法;基于多波段属性特征分布图以及生成统计模型研究了关联扩散结构和关联扩散机模型的设计。 . 在多种融合估测算法方面:结合分而治之策略和关联扩散结构提出了自适应的数据驱动组合估测模型,它将波段属性分布相似的数据记录纳入关联扩散结构并进而建立有针对性的估测模型,从而提高估测精度;在一种主要估测算法基础上,利用统计与规则相结合的方法分析该算法的弱势数据子集并结合另一种估测算法提出联合估测矫正模型;在综合分析了多个数据源、多种估测算法在不同空间局部区域的不同估测精度表现的基础上,利用决策树和随机森林算法提出了多种模型优势互补的融合估测算法;探索了卷积神经网络等深度学习估测模型。. 在快速估测算法方面:根据空间数据局部相关性研究了支持快速存储的图存储模型;利用关联扩散结构探索了基于行列同时交换的协同聚类方法及快速估测算法;探索了空间统计插值模型、基于平滑空洞卷积神经网络以及多任务估测、多示例估测、并行计算等其它空间参数快速估测算法。 . 此外,根据上述研究成果开发了测光红移估测原型系统。 . 本项目共发表相关论文14篇,其中SCI期刊论文4篇,EI期刊论文4篇,国际会议论文3篇,硕士毕业论文3篇,合作参编专著一部,申请发明专利1项,获得软件著作权3个,培养硕士研究生11人,取得了预期的研究成果。. 本项目的研究为大数据环境下测光红移等空间参数的估测提供了新的理论模型和科学方法。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
气相色谱-质谱法分析柚木光辐射前后的抽提物成分
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
使用测光-化学模型研究高红移莱曼截断星系
中国空间站光学巡天数据的星系测光红移软件系统和星系团证认软件系统的建立
南极AST3大视场巡天及海量数据高精度测光
高红移大质量星系的大小和演化研究