Represented by Microblogging, social network services have come into focus in both academia and industry. Microblog retrieval is to find microblog messages that satisfy user information need, and it becomes one of the key technologies to utilize microblog data effectively. Compared with traditional retrieval objects, microblog messages are much shorter, with special structures, sensitive to time and spread much faster, therefore traditional retrieval technologies can not be directly used to microblog retrieval. Existing microblog retrieval methods mainly focused on expanding queries and documents, and modified traditional models to meet the demands of microblog retrieval. However, on one hand, existing work omitted the event property of microblogging, which is one of the most important properties of microblog messages, on the other hand, they utilized time information based on very simple assumptions that are not true in reality. Furthermore, most current research work are query independent, thus query dependent properties can not be taken into account. Based on the above analysis, this research mainly focuses on event-based time-aware microblog retrieval. Our research objective is to first build an event-oriented microblog query classification taxonomy, then propose high accuracy automatic query classifiers, and after that put forward a unified microblog retrieval model, and final seek adaptive retrieval and relevance feedback approaches.
以微博为代表的社交网络已经成为工业界和学术界关注的焦点,从大规模微博流中检索出满足用户需求的信息即微博检索是有效利用微博数据的关键技术。然而,和传统检索对象相比,微博具有内容短、传播快、有特定结构、时间关联强等特性,因此传统检索技术难以直接用于微博检索。现有微博检索研究主要集中于对微博查询、微博记录进行扩充、对传统检索模型进行改进,以适应微博检索的需求。但是现有工作一方面忽视了微博的事件传播属性,另一方面现有利用时间信息的微博检索所基于的假设也过于简单与实际不符。此外,大多数研究没有考虑微博查询自身的特点,查询相关的微博检索研究有所不足。本课题主要从微博的事件属性出发,研究面向事件时间感知的微博检索技术。目标是提出一套面向事件的微博查询分类体系,研究高精度的微博查询自动分类方法,研究面向事件时间感知的统一微博检索模型,在模型框架下研究时间感知的检索方法,研究自适应的微博检索和相关反馈方法。
事件是微博等社交网络中的一个关键要素,社交网络中的大部分检索查询都针对事件展开,然而,现有检索系统和研究中要么忽视事件的存在,要么没有对其进行系统性研究。本项目的目标就是想充分基于事件这个要素,进行相关检索模型和技术的研究,从而提高社交网络信息检索的效果。.项目主要的研究内容包括:.(1) 面向事件的微博查询类别体系构建和微博查询自动分类方法;.(2) 面向事件的可解释性的统一微博检索模型;.(3) 时间感知的微博检索方法;.(4) 自适应微博检索和查询伪相关反馈方法。.项目取得的重要成果如下:.(1) 构建了一套微博查询的事件类别体系,该体系由10个大类,基本覆盖了微博中常见的事件类型,该体系可以用于本领域的后续研究;.(2) 提出了一种基于事件词项分布相似度计算的微博查询分类方法EO-PRF,通过比较伪相关文档和已知事件类文档词项分布差异性,来确定查询的事件类别,在多个公开数据集上分类正确率达到90%;.(3) 提出了一种基于PLSA的自适应学习方法ALA,通过引入已知事件类的先验信息,来提高事件类查询的检索效果;.(4) 提出了一种无监督的基于时间切片的检索模型UTRM,将事件本身的时间信息融合到检索模型中,形成了一种可解释性的统一微博检索模型,实验表明该模型提高了检索的效果;.(5) 提出了一种基于二部图模型的统一微博事件检索模型EQM,通过二部图来刻画事件,不需要对查询进行先分类后检索,而直接通过一个模型来实现在线式检索。.(6) 在研究基础上,开发了一套基于微博的事件检索原型系统,关键技术在某实际舆情分析系统中得到应用。.依托本项目,课题组一共发表相关学术论文8篇,申请专利3项,培养博士生4名,硕士生4名。原型系统多次在多个重要场合展示,相关技术在某舆情分析系统中得到应用。.本项目对事件在微博检索中的影响进行较为全面的研究,检索的匹配从“关键词”层面扩展到“事件”的语义层面,是一次相当有意义的探索性研究,可以为后续研究奠定坚实的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
基于PLC-IP3-Ca2+/NO-cGMP-PKG信号通路的半夏泻心汤防治糖尿病胃轻瘫的机理研究
分子伴侣Calnexin/Calreticulin和Erp57在流感病毒HA蛋白成熟过程中的作用研究
面向微博的实时事件深度挖掘研究
面向微博数据流的事件主线挖掘技术研究
微博环境下实时主动感知网络舆情事件的多核方法研究
面向微博公共事件的反向社会情绪识别及演化分析研究