Microblog is an emerging type of social media. With a microblogging platform, users can publish information with very short text, leading to real-time sharing of information and communication between users. Microblogging platforms, most notably Twitter, have undergone a tremendous growth in the past few years, generating a huge volume of data. It is estimated that the data volume at Twitter is increasing at a rate of 8TB/day. It therefore becomes critical to retrieve microblogs or users of interest from this vast amount of data. This project aims to address this problem from two aspects: computation infrastructure and query processing. We expect to make the following contributions with this project: (1) we propose the system architecture of a real-time stream processing platform and a set of key techniques, to achieve high performance, high availability, and high reliability; (2) we develop new ranking strategies for microblog search, and for spatially sensitive queries, develop index structures and query processing methods for real-time processing of queries; and (3) we define the problem of similarity search of users based on the contents of microblogs, and propose index structures and methods for incremental update of search results, for more effective user recommendation.
微博是一种新型的社会化媒体。通过微博平台,用户可以用简短的文字发表信息,实现信息的实时共享和用户间的交流。以Twitter为代表的微博平台在过去几年间得到了迅猛发展,也带来了大量的数据,如Twitter每天新增的数据量达到了8TB。如何从这样海量的数据中查询感兴趣的微博或用户,是一个必须要解决的问题。本项目从实际应用的需求出发,针对微博数据量大、更新频率高、实时性强、用户信息丰富等特点,从底层的计算平台及其上的查询处理两个方面展开研究,预期做出如下贡献:(1)提出面向微博的实时流数据处理平台的体系结构及关键技术,实现数据处理的高性能、高可用性和高可靠性;(2)提出新的微博搜索结果排序策略,并研究针对空间敏感型查询的索引结构和算法,实现查询的高效实时处理;(3)提出基于微博内容的相似用户查询这一问题,给出索引结构和结果的增量计算方法,实现更精准和高效的用户推荐。
本项目针对微博数据量大、更新频率高、实时要求性强、用户信息丰富的实际特点,主要开展了以下三方面的研究:1)提出一系列面向微博的实时流数据处理平台体系结构及关键技术,建立有效的微博实时计算原型系统,为微博数据处理提供底层支撑;2)提出一套针对微博空间查询的索引结构和算法,改进微博搜索的效果,提升用户体验;3)提出新型的基于微博内容的近似用户查询方法及所需的索引结构及查询算法,更好的满足微博平台社交功能的要求。本项目的研究内容是微博数据管理所急需解决的关键技术,也是目前相关领域学术界、工业界共同关注的研究热点,具有重要的科学意义和很高的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于文献计量学和社会网络分析的国内高血压病中医学术团队研究
"多对多"模式下GEO卫星在轨加注任务规划
基于地理科研主导网络的关键节点识别研究——以药学领域为例
社会网络、环境素养对农户化肥过量施用行为的影响———基于东北三省741个玉米种植农户的调查数据
基于FA-BAS-ELM的海洋油气管道外腐蚀速率预测
面向FAST的海量数据处理关键技术研究
面向Web社会网络的查询处理关键技术研究
面向国家治理的云计算环境下联网审计流数据处理关键技术研究
数据流模糊关键字查询处理技术研究