There is a growing research in opinion retrieval as more and more social media (such as Blog, Microblog, etc) are becoming an important platform to share opinions or comments. The goal of social media opinion retrieval is to find relevant and opinionate documents in social media according to a user's query. Furthermore, documents in social media is organized according to user such that there is a lot of user's personal characteristics information and user social relations reflecting user social influence. However, existing research fails to incorporate the user level information, which discount the effectiveness of opinion retrieval. In this project, our proposal presents a novel unified model for social media opinion retrieval which takes advantage of user social influence and user's personal characteristics.Specifically, the proposal constitutes by the following three parts: Firstly, user's explicit and implicit relations are exploited to analyze user social influence based on tensor-based approach; Tensor decomposition is used to discover latent factors to measure user social influence. Secondly, features are extracted for user's personal characteristics such as content self-similarity, user's opinion stylistics, user's activity; factor analysis model is employed to mining common factors reflecting the corrections of user's personal characteristics; Score functions are constructed to measure these user's personalities via these common factors. Finally, an unified opinion retrieval framework is introduced to leverage content, user social influence and user's personal characteristics to rank documents. The presented method would reduce retrieval bias caused by neglecting user information and thus improve the effect of opinion retrieval in social media.
社会媒介倾向性检索旨在诸如博客、微博等Web 2.0 媒介上检索大众对热点话题的观点看法。社会媒介文本相对于传统文本具有文本短、表达不规范等特点,更重要的是,社会媒介以用户为单位组织文档,包含了大量的用户个性化信息和反映社会影响力的用户交互关系。目前倾向性检索研究尚未能结合社会媒介文本的上述诸多特点,使得检索性能大打折扣。因此,本项目拟研究融合用户信息的一体化社会媒介倾向性检索模型。具体内容包括:①抽取、量化用户显式和隐式交互关系,基于张量表示的方法对用户交互关系建模,采用张量分解方法挖掘用户潜在联系,用以度量社会影响力;②统计分析倾向用语风格、内容自相似度、用户活跃度等个性化特征,基于因子分析模型挖掘这些特征之间的内在联系,以整体度量用户个性化特征;③基于文本内容、社会影响力和个性化特征,设计融合用户信息的一体化倾向性检索新算法,减少缺乏考虑用户因素所带来的性能偏差,提高倾向性检索效果。
项目背景:近年来,随着互联网与通信技术的迅猛发展,社交媒介已经成为网民表达观点、意见或情感等主观性信息的重要载体。以分析、挖掘网络主观性信息为目标的倾向性分析已成为当前信息检索和文本挖掘领域的前沿研究之一。与谷歌、百度等提供的通用检索不同,社会媒介倾向性检索旨在社会媒介上检索大众对热点话题的观点看法,要求被检索出的文档除了与给定查询主题相关以外,还必须具有对给定查询的主观性评论。它是了解人们对热点话题、组织等各种实体的真实观点和看法的一种有效手段,可应用于市场调研、投票预测、广告分析、社会治理等,具有重要的研究价值和广阔的应用前景。. 主要研究内容:本项目结合用户和文本内容两方面因素,设计融合用户信息的社交媒介倾向性检索新算法,主要包括:首先,在社交媒介数据的数据清洗与属性方面,分别开展了基于社交媒体特征的垃圾评论者识别和多记录网页页属性抽取社交两方面研究;然后,充分利用用户上下文语境和用户交互关系等用户信息,从基于上下文语境的用户观点分析和基于张量模型的用户社交影响力挖掘两个方面开展研究,设计融合用户信息的社交媒介倾向检索新算法;最后,集成上述研究成果设计面向社交媒介的倾向性检索原型系统,并应用于产学研项目“基于大数据分析和复杂事件处理的金融信息服务平台”,取得了较好的示范应用效果。.重要结果、关键数据及其科学意义:. 在社交媒介数据的数据清洗与属性抽取方面,提出了基于可信任度传播模型的垃圾评论者识别、基于DOM树层次特征的多记录网页抽取、结合主动学习的多记录网页属性抽取方法等,发表了学术论文4篇,获得国家发明专利1项;. 在基于上下文语境的用户观点分析方面,提出了包括基于异质图模型的观点检测方法、基于词对齐模型的评价对象与评价词抽取、基于多层关系图的评价对象与评价词抽取模型等,发表了学术论文3篇,录用待发表2篇,获得国家发明专利1项;. 在基于用户交互关系的用户观点分析方面,主要侧重于研究用户观点影响力度量,采用张量模型表示多源异构交互关系,基于张量分解的方法构建用户社会影响力度量模型,发表学术论文1篇,录用待发表2篇;. 集成上述相关成果应用到证券行业,获得第五届证券期货业科学技术三等奖和首届全国人工智能创新创业大会特等奖。此外,还获得了8项软件著作权,申请了6项国家发明专利。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于异构特征融合的社会媒体用户分类关键技术研究
面向大型社会网络融合的关联用户挖掘模型与方法
基于互动的用户社会行为挖掘
基于用户检索行为和搜索任务情境的个性化信息检索系统研究