Social Media websites in China have been massively growing in popularity over the last few years. Everyday more than 117 million messages are generated on Sina Weibo. Among these massive messages, there are lots of opinions about product, corporation, event, and so on. They play more and more important roles for government, corporation, and person. With the increasing requirements, how to effectively analysis these messages has becoming more and more important. Existing works on opinion mining or sentiment analysis usually lack the capabilities of handling the properties of users, relations among users, topic detecting and tracking, and analyzing context information. Hence, these researches cannot be directly used to process social media content. To handle these problems, this research aims to mine opinions on social media under text intensive processing framework. The main research areas include review quality and user quality analysis, semantic semantic representation of opinion with communication relationship analysis, opinion mining based on structural learning, and opinion mining corpus construction.
近年来,以微博、微信等为代表的社会媒体发展迅速。仅新浪微博每天就产生超过1.17 亿条消息。在这些海量的社会媒体数据中,包含了用户发表的大量关于产品、公司以及事件等方面的评论和观点。如何能够快速有效的分析和处理社会媒体中的包含情感倾向的内容,成为了一个亟待解决的重要问题。传统的基于文本内容的情感倾向分析方法由于缺乏对用户以及用户关系、社会媒体环境下话题发现与话题传播以及上下文信息关联分析等能力,不能很好的分析这些传播于复杂社会网络中的流动着的信息。因此,在本项目中我们拟针对上述问题,面向社会媒体数据,针对海量文本内容和结构信息,利用大规模数据处理框架,开展面向社会媒体的的情感倾向分析研究,包括:融合语义与传播关系的情感倾向语义表示模型;基于结构化学习方法的情感倾向语义自动分析构建算法;评论信息质量判别、用户权威度分析等。并构建包含社会网络与消息内容的情感倾向分析标准语料库。
情感倾向分析是自然语言处理的基础任务之一,随着近年来深度学习方法在自然语言处理领域的应用,情感倾向分析任务也受到越来越多的关注。传统的情感倾向分析通常是以产品评论、电影评论等数据为分析对象,但是以微博、微信等为代表的社会媒体发展迅速。在这些海量的社会媒体数据中,不仅包含了用户发表的大量关于产品、公司以及事件等方面的评论和观点。传统的基于文本内容的情感倾向分析方法由于缺乏对用户以及用户关系、社会媒体环境下话题发现与话题传播以及上下文信息关联分析等能力,不能很好的分析这些传播于复杂社会网络中的流动着的信息。如何能够快速有效的分析和处理社会媒体中的包含情感倾向的内容,成为了一个亟待解决的重要问题。.. 在本项目中我们针对上述问题,面向社会媒体数据,针对海量文本内容和结构信息,利用大规模数据处理框架,开展面向社会媒体的的情感倾向分析研究,包括:融合语义与传播关系的语义表示与分析模型;基于结构化学习方法的情感倾向语义自动分析构建算法;基于有监督注意力机制的倾向性分析模型;基于互学习方法的情感倾向领域迁移学习等算法那。同时我们还构建了包含社会网络与消息内容的情感倾向分析标准语料库。在本项目的支持下,整个项目周期内完成了全部研究计划中内容,并发表论文35篇,其中中国计算机学会推荐A类期刊/会议18篇,中国计算机学会推荐 B类期刊/会议15篇,其中发表于COLING 2018 (中国计算机学会推荐 B类会议)论文还获得最佳论文提名。此外,本项目支持所构建的数据集合,还通过中国中文信息学会向超过200家科研院所发布了。是目前最大微博开发学术数据集合。在本项目的支持下,相关工作还获得2016年中国中文信息学会“钱伟长科技进步”汉王青年创新一等奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
结构化情感倾向表示与分析方法研究
面向社交媒体的多语种文本情感分析方法研究
大规模信息传播和情感倾向的实证与分析
面向Web情感资源的倾向性分析技术研究