面向多源高维数据流的在线特征选择与分类方法研究

基本信息
批准号:61673152
项目类别:面上项目
资助金额:61.00
负责人:胡学钢
学科分类:
依托单位:合肥工业大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:李培培,李磊,胡骏,周鹏,朱毅,吕俊伟,何俊宏,储光
关键词:
分类概念演化特征选择概念漂移数据流
结项摘要

Classification on data streams has been widely applied in the real-world applications, such as the network monitoring and sensor network, to name a few. However, the real-world data streams such as traffic network monitoring data present new characteristics as being multi-sourcing, high-dimensional and sparse, high-volume, high-velocity and multivariate. It is hence a challenge for traditional approaches of feature selection and classification due to the poor performance in the time overhead and the accuracy. Therefore, in this proposal, we focus on the study of online feature selection and classification approaches for high-dimensional data stream from mutli-data sources. More specifically, in terms of the study in the formalization of the feature vector and the data fusion oriented to the multi-source and high-dimensional data streams, we address the study in the theory and methods of feature ranking based on online filtering feature selection techniques, and in the online model updating, cost evalution and model evaluation based on the embeded feature selection techniques. In addition, considering the impact from the concept drift and evolution caused by the distribution changes of feature rankings and labels, we further study the detection and prediction methods of concept drift and evolution, and propose the corresponding evaluation measures. We aim to sovle the isses in high dimensional data streams from multi-data srouces, and meanwhile we want to provide a new approach to the classification of high dimensional data streams in real-world applications. Lastly, we apply our approaches into labeling traffic congestion states and detecting the drift and evolution of congestion events from the traffic monitoring data streams, and design a prototype classification system for high dimensional data streams to validate the effectiveness of our appraoches.

数据流分类在网络监控、传感器网络等实际领域有着广泛应用。然而,实际数据流如交通网络监控数据具有多源性、高维稀疏、海量快速、多变等特点,使得传统的特征选择与分类方法难以满足时间与精度要求,因此,本课题拟开展面向多源高维数据流的在线特征选择与分类方法研究。在多源海量数据流的特征空间形式化表示与数据融合的研究工作基础上,重点开展基于过滤式在线特征选择策略的特征排序理论与方法研究,以及基于嵌入式特征选择策略的在线分类模型的构建、更新、代价评估与模型评估等方面的研究。此外,考虑由于特征排序分布或类分布变化引发的概念漂移与演化问题对分类模型的影响,研究高维数据流环境下的概念漂移与演化的检测与预测方法及其评价标准,为实际应用领域中多源高维数据流的分类提供新的解决途径;基于上述研究,设计并实现面向交通网络监测数据流的交通拥堵状态分类与拥堵事件漂移与演化检测的数据流分类原型系统,以此验证理论与方法的有效性。

项目摘要

实际应用领域产生大量的数据流,它们呈现出多源、海量、快速、无限等特点,更显著的特点是特征高维稀疏、隐含语义信息低质、概念漂移等。因此,针对多源数据流开展分类任务的研究,以寻求适应多源数据流的在线模型、解决特征高维稀疏、语义低质、概念漂移等问题,具有重要研究意义和实际应用价值。目前我们主要从以下七个方面开展工作,包括:多源海量数据的获取与实体识别研究、海量数据的特征表示方法研究、流特征选择方法研究、多源数据的因果发现方法研究、数据流概念模型与概念漂移检测模型研究、海量数据分类方法及其应用研究,上述研究成果为解决多源数据流中的多源数据获取与表示、特征高维稀疏、概念漂移等难题提供了更多的理论依据和更有效的技术途径。同时,相关研究成果在实际应用领域如:复杂网络社团预测、煤与瓦斯突出预测及新闻网页与专利推荐等进行了探索,为多源数据流的特征选择与在线分类方法的研究贡献了新的理论、机制和方法,创造了实际应用价值。研究工作按照预定计划,取得的研究成果总结如下:. (1) 理论方法上强调创新:在国内外重要学术刊物和会议上发表高质量论文40篇,其中,已发表SCI检索期刊论文23篇(其中IEEE/ACM Trans. 论文4篇)、EI会议论文4篇、国内核心期刊论文13篇(其中,中国科学: 信息科学(中文版)1篇、情报学报1篇、模式识别与人工智能1篇);. (2) 基础研究可持续性:在此项目研究工作的基础上,课题主持人成功延续获批1 项国家基金面上项目(No. 62076085)、课题参与人李培培与李磊成功获批2项国家基金面上项目(No. 61976077与No. 62076087)、课题参与人周鹏与朱毅成功获批2项国家基金青年基金项目(No. 61906056与No. 61906060); . (3) 技术方法在实际应用领域的探索与应用,提高其社会效益:获得授权专利8项;. (4) 人才培养:培养博士生7名、硕士生10名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
4

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
5

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022

胡学钢的其他基金

批准号:61273292
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:60975034
批准年份:2009
资助金额:32.00
项目类别:面上项目

相似国自然基金

1

面向在线检索的医学影像多特征降维方法研究

批准号:61502319
批准年份:2015
负责人:申华磊
学科分类:F0211
资助金额:21.00
项目类别:青年科学基金项目
2

高维、离散、多数据流数据的在线监控

批准号:11571191
批准年份:2015
负责人:李忠华
学科分类:A0402
资助金额:50.00
项目类别:面上项目
3

多标签分类中的特征提取与选择方法研究

批准号:61273246
批准年份:2012
负责人:许建华
学科分类:F0304
资助金额:79.00
项目类别:面上项目
4

面向高维混合数据的信息粒化与特征选择研究

批准号:61662023
批准年份:2016
负责人:舒文豪
学科分类:F0607
资助金额:38.00
项目类别:地区科学基金项目