面向微博的实时流数据处理平台和查询处理关键技术研究

基本信息
批准号:61272092
项目类别:面上项目
资助金额:80.00
负责人:禹晓辉
学科分类:
依托单位:山东大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘洋,孔兰菊,于自强,杨崇,杨敏,林立伟,张甲燃,崔星灿,周婧
关键词:
社会媒体实时处理搜索数据管理微博
结项摘要

Microblog is an emerging type of social media. With a microblogging platform, users can publish information with very short text, leading to real-time sharing of information and communication between users. Microblogging platforms, most notably Twitter, have undergone a tremendous growth in the past few years, generating a huge volume of data. It is estimated that the data volume at Twitter is increasing at a rate of 8TB/day. It therefore becomes critical to retrieve microblogs or users of interest from this vast amount of data. This project aims to address this problem from two aspects: computation infrastructure and query processing. We expect to make the following contributions with this project: (1) we propose the system architecture of a real-time stream processing platform and a set of key techniques, to achieve high performance, high availability, and high reliability; (2) we develop new ranking strategies for microblog search, and for spatially sensitive queries, develop index structures and query processing methods for real-time processing of queries; and (3) we define the problem of similarity search of users based on the contents of microblogs, and propose index structures and methods for incremental update of search results, for more effective user recommendation.

微博是一种新型的社会化媒体。通过微博平台,用户可以用简短的文字发表信息,实现信息的实时共享和用户间的交流。以Twitter为代表的微博平台在过去几年间得到了迅猛发展,也带来了大量的数据,如Twitter每天新增的数据量达到了8TB。如何从这样海量的数据中查询感兴趣的微博或用户,是一个必须要解决的问题。本项目从实际应用的需求出发,针对微博数据量大、更新频率高、实时性强、用户信息丰富等特点,从底层的计算平台及其上的查询处理两个方面展开研究,预期做出如下贡献:(1)提出面向微博的实时流数据处理平台的体系结构及关键技术,实现数据处理的高性能、高可用性和高可靠性;(2)提出新的微博搜索结果排序策略,并研究针对空间敏感型查询的索引结构和算法,实现查询的高效实时处理;(3)提出基于微博内容的相似用户查询这一问题,给出索引结构和结果的增量计算方法,实现更精准和高效的用户推荐。

项目摘要

本项目针对微博数据量大、更新频率高、实时要求性强、用户信息丰富的实际特点,主要开展了以下三方面的研究:1)提出一系列面向微博的实时流数据处理平台体系结构及关键技术,建立有效的微博实时计算原型系统,为微博数据处理提供底层支撑;2)提出一套针对微博空间查询的索引结构和算法,改进微博搜索的效果,提升用户体验;3)提出新型的基于微博内容的近似用户查询方法及所需的索引结构及查询算法,更好的满足微博平台社交功能的要求。本项目的研究内容是微博数据管理所急需解决的关键技术,也是目前相关领域学术界、工业界共同关注的研究热点,具有重要的科学意义和很高的应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

DOI:10.11842/wst.20190724002
发表时间:2020
2

"多对多"模式下GEO卫星在轨加注任务规划

"多对多"模式下GEO卫星在轨加注任务规划

DOI:10.19328/j.cnki.2096-8655.2022.02.002
发表时间:2022
3

基于地理科研主导网络的关键节点识别研究——以药学领域为例

基于地理科研主导网络的关键节点识别研究——以药学领域为例

DOI:10.3772/j.issn.1000-0135.2021.12.009
发表时间:2021
4

社会网络、环境素养对农户化肥过量施用行为的影响———基于东北三省741个玉米种植农户的调查数据

社会网络、环境素养对农户化肥过量施用行为的影响———基于东北三省741个玉米种植农户的调查数据

DOI:10.11841/j.issn.1007-4333.2022.07.22
发表时间:2022
5

基于FA-BAS-ELM的海洋油气管道外腐蚀速率预测

基于FA-BAS-ELM的海洋油气管道外腐蚀速率预测

DOI:10.16265/j.cnki.issn1003-3033.2022.02.014
发表时间:2022

禹晓辉的其他基金

批准号:61070018
批准年份:2010
资助金额:12.00
项目类别:面上项目

相似国自然基金

1

面向FAST的海量数据处理关键技术研究

批准号:U1531246
批准年份:2015
负责人:朱明
学科分类:A1503
资助金额:200.00
项目类别:联合基金项目
2

面向Web社会网络的查询处理关键技术研究

批准号:61003001
批准年份:2010
负责人:肖仰华
学科分类:F0202
资助金额:19.00
项目类别:青年科学基金项目
3

面向国家治理的云计算环境下联网审计流数据处理关键技术研究

批准号:61572079
批准年份:2015
负责人:李忱
学科分类:F0207
资助金额:66.00
项目类别:面上项目
4

数据流模糊关键字查询处理技术研究

批准号:60903047
批准年份:2009
负责人:王伟平
学科分类:F0202
资助金额:18.00
项目类别:青年科学基金项目