With the dramatic increase of information on the network ,a large number of low value density of spam flooding. How to get the useful information in timely and effective becomes a problem of users’ concern. This project proposes and researches on the key technologies of timeless data analysis under the big data environment. It will improve the timeliness through data stream. Aim to the dynamic changing of data stream, we will research on the dynamic features which impact on the dynamic data model . By analyzing the changing law of dynamic features at different time to determine the unit of time. Research on the dynamic data model with data stream and historic information base on the impact of dynamic features. This data model should be able to describe the change, multivariate and high-dimensional of data. also it should adjust with the change of dynamic features. We will research on the representatives of distributed algorithms and iterative algorithms applicability of the dynamic data model, take data mining algorithm and statistical algorithm as example. At last, the project will realize the Spark-based prototype system to support large data timeliness of data analysis..
随着网络上的信息急剧增加,数据的时效性变短,而数据的时效性很大程度上制约着数据分析的客观效果并对辅助决策具有重要意义,如何在海量充斥着失效的、低价值密度的信息中获得及时有效的信息成为各个行业领域用户关注的问题。本课题提出并研究大数据环境下基于动态数据模型的时效数据分析关键技术,通过考虑实时流数据以提高数据分析的时效性。拟针对流数据动态变化的特性,研究影响数据模型的动态特征提取及动态特征值的变化规律,通过分析不同时刻数据动态特征的改变规律,确定数据分析的窗口模型。针对数据动态特征对数据模型的影响,研究融合流数据和历史数据的动态数据模型,该模型应能刻画数据的时变、多元和高维的特征,并随动态特征变化进行调整;研究具有代表性的分布式算法和迭代算法在动态数据模型上的适用性问题,其中前者以统计算法为例,后者以数据挖掘方法为例;最后基于Spark框架实现支持大数据下时效数据分析的原型系统。
随着网络上信息量持续不断增长,在这些信息中充斥着大量失效的、低价值密度的垃圾信息,而网络上的数据信息普遍具有时效性,且很多数据只在短时间内有效,数据的时效性很大程度上制约着数据分析的客观效果,因此大数据环境下的时效数据分析对于商业组织及个人的辅助决策具有重要意义。本研究提出并研究了大数据环境下基于动态数据模型的时效数据分析关键技术,首先完成了面向动态数据流特征的动态数据存储模型的设计以及相应的动态滑动窗口设计,所设计的动态数据存储模型融合了流数据和历史数据,为动态数据分析提供了基础;其次研究了典型算法在动态数据模型上的适用性问题,以流数据分类问题为代表;最后实现了所设计的算法在Spark框架上的原型系统。实验结果表明基于动态数据模型的流数据处理方法可以有效的提高数据处理的时效性。课题执行期共发表相关论文三篇,获得专利三项,另有三篇论文待投稿发布。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
3D点云数据模型的实时动态变形关键技术研究
高速不确定数据流环境下数据分析处理关键技术研究
Spark环境下LBSN大数据管理与分析关键技术研究
大数据环境下基于多源数据协同的个性化服务关键技术研究