How to get information of interest to users from the massive and messy microblog posts is a changing problem. Based on the characteristics of the data, we study how to automatically discover and track targeted topics, i.e., the topics relate to the keywords provided by users. There are three major challenges: 1) The microblog posts are extremely short, which causes severe data sparsity problem for existing topic discovery and short text retrieval methods; 2)The posts contain lots of noisy data; 3) The microblog data change fast, thus the content of the topics are also dynamically changing. In this project, we first study how to exploit the prior knowledge of users to guide the modeling of targeted topics over short texts. Then, we develop online algorithms for targeted topic tracking. Finally, we further study how to retrieve related posts for a topic using the learning-to-rank technique. This project can bring improvement in short text modeling and mining in microblog, and support many applications such as public opinion monitoring, business intelligence. Hence, this project has important value in both research and industry fields.
如何从海量杂乱的微博数据中获取用户感兴趣的信息一直是个难题。本课题从微博数据的特点出发,研究如何从微博中根据用户输入的关键词自动发现和追踪相关话题和消息。该课题面临如下挑战:1)微博消息长度特别短,给现有话题发现和消息检索方法带来严重数据稀疏性问题;2)微博中噪音数据非常多;3)微博数据更新快,话题的内容随时间不断演化。本课题首先研究结合用户先验知识的短文本定向话题建模方法。在此基础上,继续研究其在线学习算法以满足即时话题追踪的需要。最后,我们进一步研究基于排序学习的话题相关消息检索方法。本课题的研究能提升我们对微博流式短文本建模和挖掘的水平,为网络舆情监控、商业情报分析等应用提供关键技术支持。因此,本课题具有重要的研究与应用价值。
社交媒体已经成为当下人们从互联网上获取信息的一条主要渠道。然而,微博等社交媒体数据规模大、信息杂乱,单条信息短,用户从中定位自己感兴趣的信息非常困难。本课题从微博数据的特点出发,研究如何从微博中根据用户输入的关键词自动发现和追踪相关话题和消息。..本课题的重要结果包括:1)研发了一套基于数据流的机器学习任务开发平台,大大简化了机器学习应用开发流程,成果发表在CIKM2016上;2)提出了一种基于TSK-Shell的话题敏感的高影响力传播者发现算法,能快速定位敏感话题微博源头。成果发表在计算机研究与发展上。3)提出了基于注意力机制的微博Hashtag推荐,以及图文打标签算法,方便用户通过tag来快速定位感兴趣的话题,成果发表在AAAI2019上。4)提出了一种基于胶囊网络的短文本意图分类算法,能有效识别短文本作者的意图,方便微博的组织和检索。成果发表在EMNLP 2019上。综上,本研究从工具、算法、以及应用层面对微博定向话题课题进行了细致的研究,提出了一系列方法和模型,能有效的对短文本语义进行分析和结构化,不仅仅能应用到微博定向话题中,也适用于其他短文本场景。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
微博突发话题发现与形成演化机理研究
微博热点隐话题发现及其时序特性研究
微博炒作话题识别与传播人群分析
微博热点话题传播模型与可视化研究