面向3D XPoint的搜索引擎索引和缓存技术研究

基本信息
批准号:61872201
项目类别:面上项目
资助金额:63.00
负责人:刘晓光
学科分类:
依托单位:南开大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:李雨森,张曌华,张蕊,段剀越,郜姝妮,王艺霖,任强,贾子傲,焦嘉慧
关键词:
索引分布式信息系统搜索引擎SSD缓存
结项摘要

In the Internet age, search engine is the most important Internet portal. After new storage devices, such as 3D XPoint etc., are used in search engine servers, the logs of datacenter showed a significant rise to the server CPU load, even may affect the operation of the server. The reason of this problem is that the high I/O performance of the new storage devices make the bottleneck of system migrate from storage I/O to CPU computing. The goal of the research is to redesign the search engine cache mechanism and index structure according to the features of new storage devices such as 3D XPoint, to decrease CPU load. Specifically, the research content includes: (1) the idea of cache mechanism in search engine changed from " I/O first" to "computing first", and redesigned compact triple-level cache to reduce computing in list intersection and the snippet generation; (2) the idea of index structure changed from "memory space first" to " computing first", and redesign Bitfunnel + grammar index structure, using bit operation instead of list intersection, to reduce computing in list intersection. The motivation of this project comes from the enterprise practice, and the research results not only have academic value, but also can improve the level of Internet enterprises in China.

在互联网时代,搜索引擎是最重要的网络入口。在搜索引擎服务器部署3D XPoint SSD等新型存储设备之后,数据中心监控显示服务器的CPU负载显著升高,甚至可能影响服务器的安全运行。导致这一问题的原因是新型存储设备的高I/O性能使得搜索引擎服务器的系统瓶颈从存储I/O迁移到CPU计算。课题研究的目标是针对3D XPoint等新型存储设备的特点,重新设计搜索引擎缓存机制和索引结构,减少CPU计算任务。具体来说,课题研究内容包括:(1)将搜索引擎缓存设计思路从“计算换I/O”转变为“I/O换计算”,重新设计精简三级缓存结构,减少求交和摘要生成计算量;(2)将索引结构设计思路从“计算换存储空间”转变为“存储空间换计算”,重新设计Bitfunnel+文法的索引结构,用位与运算代替列表求交,减少求交计算量。课题研究动机来自企业实践,课题研究成果不但具有学术价值,也能够提升我国互联网企业的水平。

项目摘要

在以3D XPoint SSD为代表的NVM存储设备广泛应用与于数据中心后,NVM的高I/O性能使得搜索引擎服务器的系统瓶颈从存储I/O迁移到CPU计算。课题研究的目标是针对NVM的特点,重新设计搜索引擎缓存机制和索引结构,降低CPU负载。具体来说,课题研究内容包括:(1)设计实现基于NVM+DRAM的多级缓存搜索引擎架构,减少求交和摘要生成计算量;(2)设计Bitfunnel+文法的索引结构,用位与运算代替列表求交,减少求交计算量;设计基于有损压缩的位置索引构建,减少查询计算量。发表学术论文22篇,其中CCF推荐A类期刊、会议论文6篇,B类期刊、会议论文5篇。毕业博士生2人、硕士生5人。课题研究动机来自企业实践,课题研究成果不但具有学术价值,也能够提升我国互联网企业的水平。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

水文水力学模型及其在洪水风险分析中的应用

水文水力学模型及其在洪水风险分析中的应用

DOI:
发表时间:2019
2

基于时序分区的时态索引与查询

基于时序分区的时态索引与查询

DOI:10.13328/j.cnki.jos.005826
发表时间:2020
3

Ordinal space projection learning via neighbor classes representation

Ordinal space projection learning via neighbor classes representation

DOI:https://doi.org/10.1016/j.cviu.2018.06.003
发表时间:2018
4

A modified SSD Method for Electronic Components Fast Recognition

A modified SSD Method for Electronic Components Fast Recognition

DOI:https://doi.org/10.1016/j.ijleo.2019.163767
发表时间:2019
5

基于纳米铝颗粒改性合成稳定的JP-10基纳米流体燃料

基于纳米铝颗粒改性合成稳定的JP-10基纳米流体燃料

DOI:
发表时间:2021

刘晓光的其他基金

批准号:31070125
批准年份:2010
资助金额:30.00
项目类别:面上项目
批准号:61373018
批准年份:2013
资助金额:75.00
项目类别:面上项目
批准号:30840081
批准年份:2008
资助金额:10.00
项目类别:专项基金项目
批准号:30100143
批准年份:2001
资助金额:18.50
项目类别:青年科学基金项目
批准号:81472041
批准年份:2014
资助金额:72.00
项目类别:面上项目
批准号:42002207
批准年份:2020
资助金额:16.00
项目类别:青年科学基金项目
批准号:30670030
批准年份:2006
资助金额:25.00
项目类别:面上项目
批准号:30370954
批准年份:2003
资助金额:23.00
项目类别:面上项目
批准号:61070014
批准年份:2010
资助金额:31.00
项目类别:面上项目
批准号:31240046
批准年份:2012
资助金额:15.00
项目类别:专项基金项目
批准号:81901555
批准年份:2019
资助金额:20.00
项目类别:青年科学基金项目
批准号:31601904
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:71303117
批准年份:2013
资助金额:19.00
项目类别:青年科学基金项目
批准号:51602018
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

蒙古文搜索引擎技术研究

批准号:61063018
批准年份:2010
负责人:王俊义
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
2

Web搜索引擎的多层次缓存数据布局方法及实时检索缓存失效内容更新策略研究

批准号:61402123
批准年份:2014
负责人:马宏远
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
3

基于GPU的搜索引擎数据组织和分布技术研究

批准号:61373018
批准年份:2013
负责人:刘晓光
学科分类:F0202
资助金额:75.00
项目类别:面上项目
4

面向搜索引擎的用户个性化查询意图分析

批准号:61202277
批准年份:2012
负责人:陈毅恒
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目