In real applications, there is a one-to-many relationship between the entities in different data sets. We call this kind of one-to-many relationship data set as association relationship data and use set-valued attributes to descript an entity that corresponds to transactional records in a period of time as block data. The set-valued data and block data carry the information of behavior and preference of an entity. Furthermore, the information of the behavior and preference often change over time. To find the valuable behavior information from association data sets and solve the problem from the behavior view, the main contents of this researcher proposal include: (1) Concept discovery: propose k-type clustering algorithms for set-valued data and block data, respectively. (2) Concept evolution: investigate the similarity between two concepts and propose evolving algorithms of set-valued data and block data. (3) Concept fusion: study the relevant between concepts with different feature spaces and design concept fusion methods. (4) Applications: develop an experimental system for association relationship data and apply into the telecommunications field. Research results of this proposal will extend the scope of k-type clustering algorithms and have very important significance for big data analysis.
在实际应用中,不同数据集的实体间常常存在一对多关系,在本项目中称这种一对多关系的数据集为关联关系数据,并将一个实体基本信息的描述泛化到集值数据,与该实体关联的明细记录称为块数据。集值数据和块数据隐含了实体的偏好和行为特征,而且这种偏好和行为特征常常随着时间变化且存在一定的相关性。为发现关联关系数据中有价值的行为信息,并从行为角度进行问题求解,本项目主要研究内容包括:(1)概念发现学习:提出面向块数据和集值数据的k-type概念发现方法,包括对象间距离定义、类中心表示和更新方式。(2)概念演化学习:研究概念间的相似性度量,提出面向块数据和集值数据的概念演化算法,探求概念演化的原因。(3)概念融合学习:研究不同特征空间概念的相关性,设计概念融合方法。(4)以电信数据为载体,研制一个面向关联关系数据分析的实验平台。本项目的研究成果将进一步拓展聚类方法的数据适用范围,对大数据分析具有重要的意义。
随着网络技术、计算机技术以及通信技术的快速发展,人类社会的数据总量呈现指数级增长,数据已经渗透到每一个行业,并成为重要的生产要素。从数据中发现知识并加以利用,进而指导人们的决策是大数据分析面临的重要课题之一。在实际应用中,不同数据集的实体间常常存在一对多关系,在本项目中称这种一对多关系的数据集为关联关系数据。这种数据隐含了实体的偏好和行为特征,而且常常随着时间变化发生动态变化。为发现关联关系数据中有价值的行为信息,并从行为角度进行问题求解,本项目主要从概念发现学习、概念演化学习、概念融合学习三个方面进行了研究,取得的主要研究成果有:(1)在概念发现学习方面,提出了面向集值数据、矩阵数据的聚类算法,研究成果分别发表在《IEEE Transactions on Neural Networks and Learning Systems》、《Applied Mathematics And Computation》、《Applied Soft Computing》等国际重要学术期刊上;提出了面向函数型数据、大规模数据的聚类算法,分别发表在《Information Sciences》、《Pattern Recognition》等国际重要学术期刊上;提出了一种基于簇加权的多视图核k-means聚类算法,发表在CCF A类会议AAAI上。(2)在概念演化学习方面,提出了面向分类型数据流的聚类和概念漂移检测统一的优化模型,发表在数据挖掘领域顶级期刊《IEEE Transactions on Knowledge and Data Engineering》上。(3)在概念融合学习方面,提出了一系列聚类集成算法,研究成果发表《IEEE Transactions on Fuzzy Systems》、《Pattern Recognition》、《Applied Mathematics and Computation》等国际重要学术期刊上。(4)在应用研究方面,联合山西诺云科技公司,研发了科技服务平台并进行推广应用,研究成果获得2018年度山西省科学技术进步奖(科技进步类)二等奖;相关理论研究的应用成果,获批软件著作登记权3项。培养硕士研究生7名、博士研究生3名,青年教师2名。本项目研究成果不仅拓展了聚类分析的数据适用范围,而且对丰富行为信息学的处理手段具有重要的意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
面向大数据的安全迁移学习方法
面向异分布数据的主动学习方法
面向复杂数据的哈希学习方法研究
面向高光谱数据分类的深度学习方法研究