随着博客、wiki、微博等社会化媒体的普及应用,如何从社会化媒体文本流中动态识别出特定主题的内容已成为很多应用领域广泛关注的问题。这个应用问题可以转换为文本流动态分类问题,其关键研究难点是:在小样本和无增量训练样本的条件下,如何使分类算法能自动从无类标数据中学习,进而能动态更新和优化分类模型,最终使分类器的精度能随时间的推移不断提高。本课题围绕这个关键问题,在分析社会化媒体文本流特征的基础上,研究基于聚类树分类和集成学习的文本流动态分类模型,以及该模型下的关键算法:(1)聚类树学习算法,用于解决小样本半监督学习问题;(2)主题漂移检测算法,用于解决分类模型何时更新的问题;(3)基于聚类树森林的动态识别算法,用于解决分类模型如何更新的问题。课题的创新在于:基于动态聚类树集成学习的社会化媒体文本流分类模型;基于聚类簇概念相似性计算的主题漂移检测算法;基于误差估计的分类模型动态更新算法。
随着博客、wiki、微博等社会化媒体的普及应用,如何从社会化媒体文本流中动态识别出特定主题内容成为广泛关注的问题。这个应用问题可以转换为文本流动态分类问题。本课题围绕这个核心问题,在分析社会化媒体文本流特征的基础上,研究基于聚类树分类和集成学习的文本流动态分类模型,以及该模型下的关键算法:(1)社会化媒体的静态分类算法,研究了聚类树学习算法以及基于高维数据特征子空间分层抽样的随机森林集成学习算法;(2)主题漂移检测算法以及基于聚类树森林的动态识别算法,用于解决分类模型如何更新的问题;(3)社会化媒体的社区结构发现及多关系社会化媒体的查询和排序,用于优化社会化媒体的结构特征挖掘,并结合社会化媒体的结构和内容,提出多实例多类标分类算法。基于项目的相关研究成果,项目组发表学术论文20篇,其中SCI国际期刊15篇,包括重要国际期刊IEEE Transactions on Knowledge and Data Engineering、IEEE Transactions on Neural Networks and Learning Systems、IEEE Transactions on Cybernetics、Pattern Recognition和重要国际会议SIGKDD、SDM等。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于FTA-BN模型的页岩气井口装置失效概率分析
中外学术论文与期刊的宏观差距分析及改进建议
多源数据驱动CNN-GRU模型的公交客流量分类预测
三级硅基填料的构筑及其对牙科复合树脂性能的影响
多媒体网络舆情危机监测指标体系构建研究
面向大规模社会媒体的动态舆情内容安全监测关键技术研究
语义主题与社交关系融合的特定群体发现关键技术研究
基于社会化媒体全新变现模式的内容消费对内容创造者的内容选择策略行为的影响研究——双边市场动态决策建模
社会化媒体平台用户生成内容的机制与应用研究