In the fields of advanced manufacturing, e-commerce, and social culture et al, there are many urgent demands for classifying data streams accurately to ensure quality and safety. However, most of the current algorithms have ignored the complexity of these data streams. Guided by cognitive learning principles and lifelong machine learning theories, the proposal want to explore an algorithm to detect concept-drifts and select samples based on multitask learning framework, in order to make the complex concept-drifting data streams classified and learned effectively. The merits of the proposed algorithm lies in that it can detect concept drifts much more accurately, learn multiple concepts at the same time, and never stop improving the generalization ability for both old and new concepts. The research plan includes that: how to compute the classification confidence by new methods, how to detect concept-drifts accurately and how to learn and classify samples selectively based on multi-task learning, how to learn from the imbalanced concept-drifting data streams based on multi-task learning, how to develop the Verification system of the proposed algorithm and how to use it to handle the problems of industrial image detection, spam filtering, and products evaluation. If the proposal can be supported, it will inspire researching the mechanism of cognitive learning and designing new machine learning models like adaptive learning, lifelong machine learning guided by the mechanism of cognitive learning, and make these works much more significantly.
在先进制造、电子商务和社会文化等领域,为确保质量和安全,迫切需要对数据流进行精确分类。目前大多数算法都忽视了这种数据流的复杂性,本项目在认知学习理论和终身机器学习理论的指导下,重点研究一种基于多任务学习实施概念漂移检测和样本选择的算法,以实现对这种复杂概念漂移数据流的有效分类和学习。该算法能更准确地实施概念漂移检测,能同时学习多个概念,并不断提高对新、旧概念的泛化能力。拟开展的工作包括--分类置信度计算新方法研究、基于多任务学习的多个概念在线学习及概念漂移检测研究、基于多任务学习的不平衡概念漂移数据流分类研究,并开发基于多任务学习的复杂概念漂移数据流分类验证系统,将其用于解决工业图像检测、垃圾邮件过滤和产品评价等实际问题。本项目的研究对于探究人脑的认知学习机制,或根据认知学习机制来研究自适应学习和终身机器学习等新的机器学习模型具有重要的科学意义。
本项目在国家自然科学基金的支持下,针对有概念漂移的多标签数据流分类、基于迁移学习的数据流分类、有重现概念的数据流分类、有概念漂移的数据流的半监督分类、序列数据分类等问题领域以及产品评价数据、社交媒体数据、图像分类数据、教育数据等应用领域展开了深入的研究与实践。提出多个针对有概念漂移数据流的分类算法:一种类别增量学习算法,利用新出现的频繁标签组合实施类别增量学习;一种利用多标号信息熵以及样本类别之间的概率相关性的概念漂移检测算法;一种基于在线迁移学习的重现概念漂移数据流分类算法;一种基于局部分类精度的多源在线迁移学习算法;一种基于主要特征抽取的重复概念漂移处理算法;一种基于半监督学习的数据流分类算法等,以及针对推荐系统与产品评价、链接预测、图像理解及垃圾邮件检测等多项具体应用领域的机器学习算法。本项目的研究对于深化自适应学习和终身机器学习等新的机器学习模型的研究具有重要的科学意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于特征发现的数据流概念漂移问题研究
基于集成学习的分布式XML数据流的挖掘模型与概念漂移挖掘方法研究
面向概念漂移的数据流分类算法及其在移动通信中的应用研究
空间数据流的概念漂移问题研究