In real-world applications such as network monitoring and social platforms, data is continuously generated in a stream and needs to be processed immediately. Since the existence of a large number of irrelevant and redundant features in the stream data will affect the quality and efficiency of subsequent data mining, streaming feature selection has become an important research task which aims to select the optimal feature subset in real-time when the features are continuously generated or acquired over time. The existing streaming feature selection method is mainly constructed for a single type of data in which the feature space is all discrete or continuous. However, in real-world applications, the feature space of the objects may be mixed. This project intends to study the streaming feature selection method for mixed data based on fuzzy rough set theory. The main contents include: (1) we study the construction method of streaming feature selection model for mixed feature space; (2) we study the calculation method of dependency degree for dynamic feature set which can improve the updated efficiency of the model; (3) The measurement mechanism of data perturbation sensitivity for streaming feature selection methods is studied, which provides a basis for evaluating and constructing a stable algorithm. Finally, we design and implement the prototype system on the medical record data which aims to improve and deepen the research work. This project provides a new theoretical exploration for the mixed streaming feature selection method and makes a meaningful attempt to develop systems with practical value.
在网络监控、社交平台等实际应用中,数据以流的方式持续生成且需要被立即处理。由于流数据中存在大量无关和冗余特征会影响后续数据挖掘的质量和效率,因此,特征流选择成为一项重要的研究任务,旨在研究特征以流的方式不断产生或获取场景下实时选择最优特征子集的问题。现有特征流选择方法主要针对特征空间全部为离散或连续的单一类型数据,而实际应用中数据对象的特征类型可能是混合的。为此,本项目拟基于模糊粗糙集理论研究面向混合属性数据的特征流选择方法,主要内容包括:(1)研究混合特征空间下特征流选择模型构建方法;(2)研究动态特征集合的依赖度计算方法以提高模型的更新效率;(3)研究特征流选择方法对数据扰动敏感性的度量机制,为评价和构建稳定的算法提供依据。最后,以医疗病历数据为例构建原型系统并以此完善和深化研究工作。本项目研究为混合特征流选择方法提供新的理论探索,并为研发具有实用价值的系统做出有意义的尝试。
随着数据的爆炸式增长,从数据集原始特征空间中选择最优特征子集的特征选择方法备受关注且不可或缺。在网络监控、社交平台等实际应用中,数据是以流的方式持续生成且需要被立即处理的。由此,产生了特征流选择方法研究,旨在研究特征以流的方式不断产生或获取场景下实时选择最优特征子集的问题。现有特征流选择方法主要针对特征空间全部为离散或连续的单一类型数据,而实际应用中数据对象的特征类型可能是混合的甚至未知的。为此,本项目基于粗糙集等理论研究了面向混合属性数据的特征流选择方法。具体包括:1)开展了流特征类型未知场景下的在线特征选择问题研究,基于最大信息系数方法提出了一个无参且无需考虑流特征类型的在线特征选择模型;2)从可扩展性和提前终止两个方向开展了模型快速更新方法研究,提出了基于动态决策视角的可扩展在线流特征选择框架和基于粗糙集理论的可提前终止在线流特征选择框架;3)从特征交互视角开展了在线流特征选择算法稳定性研究,提出了考虑特征交互的单特征流在线选择框架和组特征流在线选择框架;4)在混合属性医学数据应用示范研究基础上,进一步研究了可以适应不同应用场景和数据类型需求的在线流特性选择通用框架问题,基于粗糙集理论提出了一种可装配的通用在线流特征选择框架。此外,为了促进研究成果的落地和转化,开展了流数据上的在线异常检测方法预研,并取得了初步研究成果。本研究丰富了特征流数据上的在线特征选择理论和关键技术,为工业生产、网络安全和医疗检测等领域上的应用提供模型和方法的支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于SSVEP 直接脑控机器人方向和速度研究
针灸治疗胃食管反流病的研究进展
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于模糊粗糙集的概率数据挖掘方法研究
基于动态模糊粗糙集的太阳耀斑预报方法研究
基于特征聚类的高维混合属性数据特征选择方法
基于单相机混合模糊成像的三维流场测量方法研究