微博中定向话题发现与追踪

基本信息
批准号:61502447
项目类别:青年科学基金项目
资助金额:21.00
负责人:晏小辉
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:笱程成,陈振宏,万圣贤,刘伟,李萍,成强
关键词:
话题模型舆情监控定向话题话题追踪微博
结项摘要

How to get information of interest to users from the massive and messy microblog posts is a changing problem. Based on the characteristics of the data, we study how to automatically discover and track targeted topics, i.e., the topics relate to the keywords provided by users. There are three major challenges: 1) The microblog posts are extremely short, which causes severe data sparsity problem for existing topic discovery and short text retrieval methods; 2)The posts contain lots of noisy data; 3) The microblog data change fast, thus the content of the topics are also dynamically changing. In this project, we first study how to exploit the prior knowledge of users to guide the modeling of targeted topics over short texts. Then, we develop online algorithms for targeted topic tracking. Finally, we further study how to retrieve related posts for a topic using the learning-to-rank technique. This project can bring improvement in short text modeling and mining in microblog, and support many applications such as public opinion monitoring, business intelligence. Hence, this project has important value in both research and industry fields.

如何从海量杂乱的微博数据中获取用户感兴趣的信息一直是个难题。本课题从微博数据的特点出发,研究如何从微博中根据用户输入的关键词自动发现和追踪相关话题和消息。该课题面临如下挑战:1)微博消息长度特别短,给现有话题发现和消息检索方法带来严重数据稀疏性问题;2)微博中噪音数据非常多;3)微博数据更新快,话题的内容随时间不断演化。本课题首先研究结合用户先验知识的短文本定向话题建模方法。在此基础上,继续研究其在线学习算法以满足即时话题追踪的需要。最后,我们进一步研究基于排序学习的话题相关消息检索方法。本课题的研究能提升我们对微博流式短文本建模和挖掘的水平,为网络舆情监控、商业情报分析等应用提供关键技术支持。因此,本课题具有重要的研究与应用价值。

项目摘要

社交媒体已经成为当下人们从互联网上获取信息的一条主要渠道。然而,微博等社交媒体数据规模大、信息杂乱,单条信息短,用户从中定位自己感兴趣的信息非常困难。本课题从微博数据的特点出发,研究如何从微博中根据用户输入的关键词自动发现和追踪相关话题和消息。..本课题的重要结果包括:1)研发了一套基于数据流的机器学习任务开发平台,大大简化了机器学习应用开发流程,成果发表在CIKM2016上;2)提出了一种基于TSK-Shell的话题敏感的高影响力传播者发现算法,能快速定位敏感话题微博源头。成果发表在计算机研究与发展上。3)提出了基于注意力机制的微博Hashtag推荐,以及图文打标签算法,方便用户通过tag来快速定位感兴趣的话题,成果发表在AAAI2019上。4)提出了一种基于胶囊网络的短文本意图分类算法,能有效识别短文本作者的意图,方便微博的组织和检索。成果发表在EMNLP 2019上。综上,本研究从工具、算法、以及应用层面对微博定向话题课题进行了细致的研究,提出了一系列方法和模型,能有效的对短文本语义进行分析和结构化,不仅仅能应用到微博定向话题中,也适用于其他短文本场景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

晏小辉的其他基金

相似国自然基金

1

微博突发话题发现与形成演化机理研究

批准号:61572459
批准年份:2015
负责人:隋杰
学科分类:F0607
资助金额:63.00
项目类别:面上项目
2

微博热点隐话题发现及其时序特性研究

批准号:61602389
批准年份:2016
负责人:吴越
学科分类:F0607
资助金额:20.00
项目类别:青年科学基金项目
3

微博炒作话题识别与传播人群分析

批准号:61309007
批准年份:2013
负责人:刘琰
学科分类:F0214
资助金额:23.00
项目类别:青年科学基金项目
4

微博热点话题传播模型与可视化研究

批准号:61272367
批准年份:2012
负责人:叶施仁
学科分类:F0211
资助金额:80.00
项目类别:面上项目