How to identify the interests for each user in social networks is a fundamental problem in many real applications, which can be formulated as a problem of multi-label text classification. The big challenge of this problem lies in high noise in small training data sets, complex dependency and correlation among multiple labels, while the classification performance will highly depend on the effectiveness of mining these complex correlations and dependencies. This project will first propose a multi-label cluster tree classification model based on weak learning strategy, and then explore the following research issues: (1)multi-label cluster tree learning algorithm and its model optimization algorithm, to explore the problem of learning single classifier from small training data set with high noise; (2)learning various dependencies of label set from label space with multiple mixture distributions, to solve the problem of learning complex label dependencies; (3)ensemble learning algorithm based on multi-label cluster forest, to smoothly integrate multiple classifiers. The main innovations of this proposal are as follows: multi-label cluster tree learning algorithm and its model optimization algorithm based on error bound estimation; label dependency learning approach through the combination of content and topology information of cluster tree; ensemble learning algorithm based on multi-label cluster forest.
网络社交用户兴趣的识别问题已经成为许多应用的重要基础问题。它可以形式化的映射为多类标文本分类问题,其研究难点是:在高噪音、小样本且类标空间分布复杂的条件下,如何使多类标分类算法能自动化构建和优化分类模型,从而使分类器得到良好的分类精度。围绕着这个核心问题,课题将重点研究基于弱监督学习的多类标聚类树分类模型,以及该模型下的关键算法:(1)多类标聚类树学习和模型优化算法,用于解决小样本、高噪音数据的单个分类模型的学习问题;(2)多混合分布条件下类标间依赖性学习算法,用于解决多类标之间复杂依赖性的学习问题;(3)基于多类标聚类树森林的集成学习算法,用于进一步解决高噪音、小样本条件下多个分类模型的融合学习问题。课题的创新在于:基于误差界估计的多类标聚类树构建与模型优化算法;基于内容属性与多类标聚类树拓扑结构信息融合的类标间依赖性学习方法;基于多类标聚类树森林的集成学习算法。
随着互联网应用的普及,微博、即时通讯、社交网络、论坛等网络社交平台已经成为人们最重要的信息交流工具。如何识别这些网络社交平台上各个用户的兴趣已经成为许多应用领域的重要问题。这个应用问题可以转化为基于弱监督学习的多类标分类问题。本课题以该问题为核心展开研究,首先提出一种适合于社交用户兴趣识别的多类标分类模型——基于聚类树弱监督学习的多类标分类模型。在这个多类标聚类树分类模型的框架下,课题取得了以下几个方面的算法研究成果:基于多类标聚类决策簇集成的分类算法、基于马尔可夫链的多类标关联分类算法、基于半监督聚类树学习的文本流分类算法、判别子空间k均值聚类算法、基于瓶颈距离的半监督聚类算法。同时,为了保证基础算法研究的进行,课题组实现了一个“基于聚类树的多类标分类实验平台”。本课题的研究成果对于网络营销、网络舆情分析、网络社会学研究等应用领域具有一定的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
拥堵路网交通流均衡分配模型
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
Micro-26a协同调节PTEN/AKT与BMP/SMAD信号通路促进大面积骨缺损修复的机制研究
基于网络社交媒体的层次化用户兴趣建模
基于弱监督学习的中文古籍识别方法研究
基于表示学习的跨社交网络用户对齐研究
弱监督视角下的网络表示学习研究