面向短文本数据流的信息检索与信息过滤协同学习研究

基本信息
批准号:61370170
项目类别:面上项目
资助金额:73.00
负责人:齐浩亮
学科分类:
依托单位:黑龙江工程学院
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:杨沐昀,韩中元,孔蕾蕾,安波,王亚东,韩咏,邹钰,孙叔琦,王晓春
关键词:
在线排序算法信息检索与信息过滤协同学习参考文档模型短文本流
结项摘要

Short messages are prevailing with the development of mobile Internet, demanding proper technology to deal with the short text stream such as in microblog. This proposal first addresses the short text retrieval by the "reference document model", which introduces third-party documents as the source for pseudo feedback to establish an more accurate document model of microblog as well as a better query model. Regarding the continuous arrival of new microblogs, this proposal further attempts microblog processing as an filtering task, outlining an online ranking algorithm under logistic regression framework. Finally, this propose suggests to unify the two approaches by a co-training strategy, and active learning is further used to solve the problem of one-side feedback, hoping to boost the performance by enhancing the samples for each model training.

随着移动互联网的迅速发展,互联网上短信息的发布更加普遍,以微博为代表的短文本流的处理的重要性逐渐彰显。课题首先针对微博的短文本特性,提出了补偿文档模型,通过引入含有更丰富信息的补偿文档作为反馈源,利用反馈技术准确地估计出查询模型和微博模型,是短文本检索建模的一个新的尝试。从另一方面来说,微博不断更新,特别是在用户查询期间不断有新微博到来,需要根据用户的反馈及时更新模型,对此课题进一步尝试从信息过滤的角度对微博建模,提出了在线排序逻辑回归模型解决该问题,探索在线学习和排序学习结合的新机制。最后,课题选择能够在在线学习环境工作的协同学习算法,利用其协调来源不同、异构、具有互补性的在线排序逻辑回归模型和补偿文档模型,并采用主动学习策略,缓解单边反馈问题,达到大幅提高系统性能的目的。

项目摘要

本课题以提升短文本数据流的信息检索与信息过滤的性能为目标展开工作。本项目开展了基于补偿文档模型的短文本检索建模、基于时间的短文本信息流检索建模、基于历史微博的微博实时过滤模型三方面工作。根据短文本特性,提出了补偿文档模型,通过引入含有更丰富信息的补偿文档作为反馈源,利用反馈技术准确地估计出查询模型和文档模型,是短文本检索建模的一个新的尝试。针对短文本信息流的时间特性,研究了基于时间的检索建模,包括探究了如何利用时间来改善查询建模、文档建模、相关度计算。查询建模方面,提出了面向微博检索的基于词语时间分布的查询扩展方法。该方法利用时间信息而不是内容进行扩展查询,从一定程度上解决了基于内容的查询扩展方法因微博内容短无法准确估计扩展词的问题。文档建模方面,提出了基于时间的微博文档模型,该模型利用爆发期特性,对文档模型进行重估,突破传统方法短文本性能不佳的限制。相关度计算方面,提出了融入时间的排序模型。在基于序对的排序学习算法框架下,定义了时间敏感损失函数,提出了基于逻辑回归的排序学习算法。基于历史微博信息的微博实时过滤模型,有效地融合了检索模型和过滤模型。该模型利用历史微博的排序信息以及时间近邻信息先验知识动态调整分类模型的分类面,提升了系统性能。参加了TREC、CLEF、FIRE相关评测,取得了优异成绩,特别是在TREC 2017 微博检索评测中在官方标注的数据上取得了全部两个任务的第一名,展现了课题组研究成果的先进性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

齐浩亮的其他基金

批准号:60873105
批准年份:2008
资助金额:34.00
项目类别:面上项目
批准号:61772177
批准年份:2017
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

面向大规模数据流的弱信息在线学习理论与方法研究

批准号:61906165
批准年份:2019
负责人:翟婷婷
学科分类:F0603
资助金额:23.00
项目类别:青年科学基金项目
2

基于强化学习的信息检索排序模型研究

批准号:61872338
批准年份:2018
负责人:徐君
学科分类:F0211
资助金额:62.00
项目类别:面上项目
3

面向案例的跨媒体信息检索技术的研究

批准号:60773219
批准年份:2007
负责人:于亚新
学科分类:F0202
资助金额:27.00
项目类别:面上项目
4

信息检索中基于损失函数优化的排序学习研究

批准号:60673009
批准年份:2006
负责人:黄亚楼
学科分类:F0210
资助金额:26.00
项目类别:面上项目