基于主题建模的微博语义理解与热点话题识别研究

基本信息
批准号:61363058
项目类别:地区科学基金项目
资助金额:45.00
负责人:马慧芳
学科分类:
依托单位:西北师范大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:张志昌,马慧莉,冯德成,黄萍,何尔利,靳洁,姚伟,孙曰昕
关键词:
热点话题微博主题建模语义理解
结项摘要

Aiming at the novel research area, microblog semantic understanding and hot topic extraction, this project starts from topic modeling for microblog, and analyzes ways of feature extraction and representation for microblog to construct semantic mapping model.Hot topic extraction and tracking will be adopted to verify usefulness of these techniques. The main content focuses on the following aspects.Firstly, a dynamic information extension model, which combines text, hashtag and link, is proposed to improve the representation of microblog. Secondly, an online Nonnegative Matrix Tri-Factorization framework is presented to capture the evolution and emergence of themes in microblog under a novel temporal regularization framework.Thirdly, probabilistic topic modeling for microblog and incremental algorithms are designed, effective microblog semantic learning methods based on time and burst are provided. Thereafter, hot topic extraction and tacking can be fully investigated. Fourthly, compared with the existing semantic representation methods and models, a new semantic representation model is proposed, which can effectively support the microblog semtantic understanding. This project can provide new theories, methods and models for pattern recognition and machine learning. When the theory and method of the project are put into practical application, it can be applied to such areas as hot topic extraction and tracking. Therefore, it has very wide application prospect.

本项目瞄准微博语义理解和热点话题发现这一新兴课题,从微博数据的主题建模出发,分析微博特征提取与表示方法,构建语义映射模型,实现微博的语义理解和应用,并以热点话题发现为应用背景进行验证。主要特点和创新点包括:以文本、标签和链接等多模态信息关联为基础,研究基于动态信息扩充技术的微博特征表示方法;以非负矩阵分解算法为基础,研究在线获取进化主题和新出现主题的优化算法;研究微博的概率主题建模方法和增量算法,提出新的基于时序和突发的微博语义学习方法;在发现微博数据语义主题的基础上,深入研究微博热点话题发现和识别的模型和方法;分析、比较现有的语义表征方法和模型,研究新的语义描述模型,使其能够有效地支持微博热点话题提取应用。本项目的成果能够为微博热点话题检测和跟踪提供新的理论、方法与模型,具有重要的理论意义和实用前景。

项目摘要

本项目瞄准微博语义理解和热点话题提取这一新兴课题,以主题建模为基础,分析微博内容、用户标签关系和用户交互关系的特点与表示方法,构建语义映射模型,实现微博的语义理解和应用,并构建用户兴趣表示模型,最终实现对微博丰富网络信息的分析与有效整理。首先,以文本、标签和链接等多模态信息关联为基础,研究基于动态信息扩充技术的微博特征表示方法;接着,对粒子群优化算法离散化以适用于微博话题发现过程,并对粒子、速度以及适应度函数进行新的定义,高效地实现对优化过程中粒子质量的评价和正向优化反馈。然后,设计了融合标签间关联关系与用户间社交关系的微博推荐方法。通过标签检索策略获取相应标签,考虑标签与标签间的关联关系,通过挖掘被同一用户标注的多标签的内联关系与被不同用户标注的多标签外联的关系,构建合理的多标签关联关系矩阵,对用户-标签矩阵进行更新,最后,提出基于核心标签的可重叠微博社区发现策略TagCut。该策略在整体社区中提取包含某一标签的用户作为临时分组并利用评价函数评估划分的优劣,选出最合适的核心标签根据其对应分组与其他分组距离的远近来决定将其划分为新的分组还是并入其他分组。用此策略反复迭代直到满足要求。经真实数据实验表明该方法内聚高社区重叠度可控且拥有实际意义。本项目的成果能够为微博文本分析、用户兴趣建模、热点话题检测和兴趣推荐等知识领域提供新的理论、方法与模型。具有重要的理论意义和实用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022
4

极地微藻对极端环境的适应机制研究进展

极地微藻对极端环境的适应机制研究进展

DOI:10.7685/jnau.201807013
发表时间:2019
5

双粗糙表面磨削过程微凸体曲率半径的影响分析

双粗糙表面磨削过程微凸体曲率半径的影响分析

DOI:10.16490/j.cnki.issn.1001-3660.2017.01.017
发表时间:2017

马慧芳的其他基金

批准号:61762078
批准年份:2017
资助金额:39.00
项目类别:地区科学基金项目

相似国自然基金

1

基于语义理解的面向特定主题的微博舆情监控技术研究

批准号:61303190
批准年份:2013
负责人:李莎莎
学科分类:F0214
资助金额:23.00
项目类别:青年科学基金项目
2

基于主题发现的图像语义理解与识别

批准号:61165009
批准年份:2011
负责人:李志欣
学科分类:F0604
资助金额:50.00
项目类别:地区科学基金项目
3

基于大规模主题建模和用户行为分析的微博检索方法研究

批准号:61572223
批准年份:2015
负责人:涂新辉
学科分类:F0211
资助金额:63.00
项目类别:面上项目
4

微博热点话题传播模型与可视化研究

批准号:61272367
批准年份:2012
负责人:叶施仁
学科分类:F0211
资助金额:80.00
项目类别:面上项目