基于相关性的大数据分类理论与方法研究

基本信息
批准号:71471060
项目类别:面上项目
资助金额:62.00
负责人:陈德刚
学科分类:
依托单位:华北电力大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:董泽,王小英,王宁玲,杨燕燕,张敏
关键词:
知识发现数据挖掘信息系统大数据
结项摘要

This proposal focuses on big data decision problems by considering fusion of basiccharacters of big data decision problems by big data as starting point.With assumption of existence of correlativity among big data, this proposal aims to reveal correlation hiding in big data in terms of the population of the whole data set.The fundamental mathematical model of big data classification is set up by developing some notions such as correlative measure, correlative operator,correlative decision system and correlative learning. Based on this model, notion of consistance of correlative learning and a new forecasting model with correlative operator are proposed, while an optimization model to capture the optimal correlative operator is set up and different methods are developed for different type of data. Furthermore, several algorithms for big data classification are put forward to address the huge volume of big data and tested with some experiments. The effectiveness of the theory and methods in this proposal will be demostrated by performing experiments. Results in this paper will contribute to setting up fundamental framework for big data classification in terms of correlativity and effective analysis of big data decision.

在大数据决策问题的背景之下,本项目以融合大数据决策问题的基本特点为出发点,以大数据中存在相关性为基本假设前提,以基于全部数据挖掘大数据中隐含的相关关系为基本目标,通过引入相关测度、相关算子、相关决策系统和相关学习等基本概念建立大数据分类的基本数学模型,在此基础之上提出相关学习一致性的概念和利用相关算子进行预测的新模式,建立求解最优相关算子的优化模型并针对不同类型的数据设计各自的求解算法,针对大数据的容量特点开发各种大数据分类的算法并进行实验验证,研究这些算法的并行式和增量式的实现方式,并利用实验分析与比较来验证所提出的理论与方法的有效性.本项目的完成将会建立基于相关性的大数据分类基本理论框架并实现对大数据决策问题更有效的分析.

项目摘要

摘要.本项目的主要任务是基于数据间的相关性来研究大数据分析的理论与方法,经过项目组成员的共同努力顺利完成了研究任务,主要包括以下四个方面的内容:.1)提出了相关决策系统的基本概念,定义了相关规则并给出了其相关度的计算公式,该计算公式是传统数据挖掘关联规则置信度和支持度的有机结合;在此基础上给出了挖掘相关规则的具体算法,并具体应用到推荐系统中构造了适用于商品推荐系统单个商品推荐和多个商品推荐的两大基本算法。.2)针对大数据集的动态性研究了各种情况下不同类型数据集的特征选择的增量计算的理论与方法。主要包括基于经典粗糙集理论研究了离散数据集特征选择的增量计算、基于模糊粗糙集理论研究了数值型数据集特征选择的增量计算以及基于覆盖粗糙集理论研究了混合型数据集特征选择的增量计算。.3)针对大数据集的稀疏性和不一致性分别采用非负矩阵分解算法和粗糙集理论来讨论其维数约简问题,相应地建立了非负矩阵分解新算法和粗糙集预测算法的泛化误差界。针对区间值数据利用直觉模糊集在序直觉模糊信息系统中,提出了带参数的广义优势关系及其属性约简并给出了在决策问题中的具体应用方法。.4)利用核函数给出了计算数据间相关性的具体方法,在此基础上把核对齐理论推广到多标记问题进而研究了多标记分类问题核函数选择的具体算法以及特征选择的新算法;定义了模糊核函数并给出了模糊核对齐算法,在此基础上给出了多模态数据特征选择的新算法,实验结果表明这些算法具有很好的性能。. 基于以上的研究内容,本项目共发表及录用了十篇第一标记的研究论文,其中七篇为中科院JCR分区一区论文(包括三篇TOP 期刊论文),项目主持人作为第一完成人2017年获得了河北省自然科学奖三等奖,作为第三完成人获得了2018年吴文俊人工智能奖自然科学一等奖,培养毕业了博士两名,硕士四名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
3

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

陈德刚的其他基金

相似国自然基金

1

基于遥感数据的智能地物分类与目标检测方法

批准号:61906106
批准年份:2019
负责人:黄高
学科分类:F0604
资助金额:24.00
项目类别:青年科学基金项目
2

基于n阶引力场理论的数据分类研究

批准号:61273290
批准年份:2012
负责人:许华荣
学科分类:F0304
资助金额:83.00
项目类别:面上项目
3

基于隐特征抽取的异构数据分类方法研究

批准号:61703219
批准年份:2017
负责人:董爱美
学科分类:F0605
资助金额:20.00
项目类别:青年科学基金项目
4

基于分类能力结构度量与类相关性关系保留的特征选取方法研究

批准号:61772288
批准年份:2017
负责人:卫金茂
学科分类:F0607
资助金额:16.00
项目类别:面上项目