社会媒体中的垃圾用户集团识别方法研究

基本信息
批准号:61572376
项目类别:面上项目
资助金额:63.00
负责人:钱铁云
学科分类:
依托单位:武汉大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:Bing Liu,钟鸣,黄浩,王飞,李琳,杨喆,陈丽,尤珍妮,陈林
关键词:
用户特征垃圾用户集团区分学习算法
结项摘要

The viral marketing and malicious speculation operated by spam user groups on social media will destroy the business rules, the public opinion environment, and the government credibility. Compared to individual spam users, spam groups are more damaging as they can take total control of whole marketing or public opinions. However, due to a huge number of users, various types of features, and hidden and complex ways that the spammers collaborate, it is difficult to apply traditional methods to spam user group detection. This project will identify spam user groups in a collaborative setting. First, we will present several fast searching strategies for finding users with similar user names or abnormal structures to deal with the problem caused by a huge number of users. Second, we will propose an integrated framework for better utilizing various types of features based on a systematic comparison of the performance of features and the analysis of their correlation or redundancy. Finally, we will develop a set of unsupervised or semi-supervised algorithms which use both the users’ personal features and collaborative features among users in the same group. This study will reveal the relationship between individual spam users and spam user groups, and provide the theoretical and technical foundation for the application of identifying spam groups on social media.

社会媒体中的垃圾用户集团从事的病毒营销、恶意炒作等活动,严重破坏商业秩序、舆论环境和政府公信力。与传统垃圾用户相比,垃圾集团的操控能力和危害更强。然而,社会媒体的用户数目巨大、用户特征多模、用户间集体协作方式隐藏而复杂,很多垃圾用户识别技术难以适用。本项目拟针对社会媒体环境下的垃圾用户集团识别方法进行创新性研究,包括:(1)研究相似用户名和异常子结构快速查找方法,以解决海量社会媒体数据中的疑似集团定位困难问题;(2)研究用户多模态特征的有效集成方法,利用特征的相关互补性提升垃圾指标计算的精度;(3)研究融合用户个体特征和用户之间协同特征的无监督、半监督学习算法,在挖掘用户协同工作模式的基础上实现对垃圾用户集团的准确识别。. 本项目有望揭示个体垃圾用户和垃圾用户集团之间的内在联系,并为社会媒体中垃圾用户集团的自动区分这一重要问题提供可行的理论支持和技术基础,具有重要的理论意义和实际应用价值。

项目摘要

本项目研究社会媒体中的垃圾用户集团识别方法。申报书所列的五项研究内容:1) 数据集构造方法;2)支持海量数据的疑似垃圾集团快速定位方法;3)社会媒体中用户多模态特征集成方法;4)基于协同模式挖掘的垃圾集团高效区分算法;5) 具有垃圾用户集团辨识能力的原型系统,均已完全按照计划执行完毕。此外,我们还研究了方面级情感分析、推荐系统等技术,有利于对多种不同类型垃圾用户集团的深入挖掘。. .本项目整体进展顺利,已经形成了一套可行的理论与方法,包括:1)针对垃圾用户集团式运作、爆发式注册特点,创造性提出利用属性增强和领域适应的协同训练、以及真实样本和生成样本的对抗训练等技术,实现冷启动环境下垃圾信息的有效检测。2)创新性地设计了一系列基于深度学习技术的多模态特征融合方法,有效地改善用户特征空间表示,极大地提升了社会媒体中海量用户区分算法的性能。3)探索利用用户的社交网络结构特征扩展该类用户的特征,并提出将用户简介、用户社交关系等多个要素进行集成学习,大幅提高了算法的分类效果;4)提出了基于胶囊网络、深度记忆网络的方面级情感分类新方法,成功解决了评论数据中的方面短语和方面类别的表示问题,以及从文档级别到句子级别的迁移学习问题。5)提出了结合评论的商品推荐方法,设计了时空上下文感知的POI推荐,以及基于用户长短期兴趣的序列推荐新方法,有效提升了稀疏数据条件下的推荐系统性能。. .本项目的研究成果具有很强的科学意义。在ACL、AAAI、TOIS、TKDD、COLING、CIKM、DASFAA等自然语言处理和数据挖掘领域的顶级和权威国际学术会议或期刊上发表了36篇论文(其中28篇为第一标注,且上述重要论文均由项目负责人担任第一或通信作者)。研究成果引起如都柏林城市大学、中科院等研究者的关注和引用,引用来源包括TKDE、ICDM、IJCNN、ACL等自然语言处理和数据挖掘领域的一流刊物和会议。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
3

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019

钱铁云的其他基金

批准号:61272275
批准年份:2012
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

危机事件中的社会媒体用户行为模式挖掘

批准号:71602184
批准年份:2016
负责人:何赛克
学科分类:G0112
资助金额:17.00
项目类别:青年科学基金项目
2

基于网络用户行为分析的垃圾网页识别方法研究

批准号:60903107
批准年份:2009
负责人:刘奕群
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
3

面向社会媒体的多平台用户协同

批准号:61303176
批准年份:2013
负责人:桑基韬
学科分类:F0209
资助金额:28.00
项目类别:青年科学基金项目
4

基于多社会媒体的用户建模技术研究

批准号:61702300
批准年份:2017
负责人:宋雪萌
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目