文件流型大数据的分析模型构建与知识发现研究

基本信息
批准号:61772289
项目类别:面上项目
资助金额:62.00
负责人:袁晓洁
学科分类:
依托单位:南开大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:温延龙,宋春瑶,乜鹏,王超,宋珂慧,吴一可,杨志帆,史慧珂,郭蒙雨
关键词:
文件流型大数据深度学习增量知识发现交互式在线聚集分析多层次数据分析模型
结项摘要

There are a lot of data presented in the form of data file stream in the field of communication, Internet and monitoring. The analysis and mining for such data are faced with the following challenges: 1) Because of the high data redundancy and low value density, it is difficult to conduct the statistical analysis and mining on them directly; 2) Online aggregation analysis method is scarce, and the value of the data cannot be directly obtained; 3) In the scene of typical analysis mining, there are few incremental knowledge discovery frameworks and general algorithms. In view of the above problems, this project studies the key technology of file stream data oriented analysis model construction and knowledge discovery: 1) We provide the solution of data domain analysis and extraction, thematic dimension establishment and loading, multi-dimensional and multi-level analysis model construction; 2) We propose a multi-dimensional and multi-granularity online aggregation method, which obtains efficient online aggregation algorithm by exchanging user 's statistical requirements; 3) We explore the incremental knowledge discovery algorithm based on the online aggregation analysis, and give the knowledge discovery algorithm for typical file stream big data, combined with the relevant statistical methods, the technology of machine learning, data mining and deep learning. The achievements of this project can provide a general solution for data processing and analysis for file stream big data, which will be extended to the field of generalized big data research and further applied to multi-industry public management decision-making.

文件流型大数据广泛存在于通信、互联网和监控等领域,对其进行分析挖掘主要面临三个问题:1)数据冗余度高、价值密度低,难以直接统计分析与挖掘;2)在线聚集分析方法匮乏,无法直接获取数据中蕴含价值;3)典型分析挖掘场景下,缺乏增量知识发现框架和通用算法。针对上述问题,本项目研究文件流型大数据的分析模型构建与知识发现关键技术:1)给出数据域解析与抽取、主题维建立与装载、多维度多层次分析模型构建的解决方案;2)提出多维度多粒度的在线聚集分析方法,通过交互式获取用户统计需求,提出高效在线聚集算法;3)探索结合在线聚集分析的增量知识发现算法,应用相关统计方法、机器学习、数据挖掘和深度学习技术,给出典型文件流型大数据的知识发现算法。本项目研究成果可为文件流型大数据的数据处理与分析挖掘提供通用解决方案,最终将推广到广义大数据研究领域,并进一步应用于面向多行业的公共管理决策。

项目摘要

文件流型大数据广泛存在于通信、互联网和监控等领域,对其进行分析挖掘主要面临三个问题:1)数据冗余度高、价值密度低,难以直接统计分析与挖掘;2)在线聚集分析方法匮乏,无法直接获取数据中蕴含价值;3)典型分析挖掘场景下,缺乏增量知识发现框架和通用算法。针对上述问题,本项目研究文件流型大数据的分析模型构建与知识发现关键技术:1)给出数据域解析与抽取、主题维建立与装载、多维度多层次分析模型构建的解决方案;2)提出多维度多粒度的在线聚集分析方法,通过交互式获取用户统计需求,提出高效在线聚集算法;3)探索结合在线聚集分析的增量知识发现算法,应用相关统计方法、机器学习、数据挖掘和深度学习技术,给出典型文件流型大数据的知识发现算法。本项目研究成果可为文件流型大数据的数据处理与分析挖掘提供通用解决方案,最终将推广到广义大数据研究领域,并进一步应用于面向多行业的公共管理决策。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
2

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
3

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

DOI:10.11842/wst.20190724002
发表时间:2020
4

"多对多"模式下GEO卫星在轨加注任务规划

"多对多"模式下GEO卫星在轨加注任务规划

DOI:10.19328/j.cnki.2096-8655.2022.02.002
发表时间:2022
5

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020

袁晓洁的其他基金

相似国自然基金

1

南京民国建筑修缮BIM模型实例库的构建及其数据挖掘与知识发现研究

批准号:51478102
批准年份:2014
负责人:方立新
学科分类:E0801
资助金额:78.00
项目类别:面上项目
2

面向动态数据认知的知识发现理论模型与方法

批准号:61876201
批准年份:2018
负责人:张清华
学科分类:F0605
资助金额:62.00
项目类别:面上项目
3

针对农残检测数据中隐性知识发现的可视分析模型与算法研究

批准号:31701517
批准年份:2017
负责人:陈红倩
学科分类:C2009
资助金额:24.00
项目类别:青年科学基金项目
4

大数据中的多粒度知识发现模型与方法研究

批准号:61309014
批准年份:2013
负责人:胡峰
学科分类:F06
资助金额:23.00
项目类别:青年科学基金项目