There are several factors that affect the local pattern mining and search in data-intensive computing environments, which are execution performance, direct search rather than mining, and constrained query of local pattern. To make current local pattern processing technologies or systems much more efficient, effective and reliable, this project thus proposes methods from three key aspects, such as the computing framework of parallel mining, indexing structure and model, and query method. Firstly, this project gives a computing framework to reduce the data amount of transfer, and designs mining method for multi-type local patterns. Secondly, to directly search local pattern from the raw intensive data, it proposes a query method based on a double-layer index, which can improve the analysis performance of intensive data. Thirdly, it introduces constrained query methods based on domain knowledge, and utilizes the reptile technology to extract domain knowledge, which can alleviate the situation that lacks of domain knowledge. In summary, this project provides a practical solution for the efficient analysis of intensive data in data intensive computing environments.
本项目针对密集型计算环境下局部模式的挖掘与搜索问题,围绕局部模式并行挖掘的执行性能问题、避开批量挖掘而直接从源数据中搜索出符合特定要求的局部模式的问题、以及基于领域知识的局部模式约束查询问题,从设计高效的数据挖掘、索引结构与查询方法三方面入手,开展以基因表达数据为代表的密集型数据中局部模式挖掘、索引与搜索方法的研究。首先提出密集型计算环境下减少数据交互量的计算框架,在此基础上设计挖掘多种类型的局部模式的并行算法。其次,为了从源数据中直接搜索符合特定要求的多类型的局部模式,提出基于双层索引的查询方法,提升了密集型数据的分析效率。第三,提出利用领域知识的约束查询方法,以提升查询的相关性,在此基础上,提出了基于爬虫技术的领域知识提取方法,缓解了领域知识匮乏的现状。本项目将为密集型数据的有效分析提供切实可行的解决方案,具有重要的理论意义和应用价值。
局部模式的挖掘与搜索已经成为生物信息学与数据库领域的研究热点。本项目针对针对密集型计算环境下局部模式的挖掘与搜索问题,研究了高效的数据挖掘、索引结构与查询方法等方案。取得了一些研究成果,发表学术论文10篇,出版个人专著1本,申请专利1项。项目代表性成果包括:(1)提出密集型计算环境下减少数据交互量的计算框架,在此基础上设计挖掘多种类型的局部模式的并行算法;(2)提出基于前缀树的索引方法pfTree,给出利用行和列表头来搜索正、负和时延OPSM的优化技术pIndex,通过在线共享查询技术来加速频繁的搜索。(3)综述了包含局部模式的约束查询在内的基因表达数据中局部模式的挖掘方法研究综述。这些研究成果为密集型数据的有效分析提供切实可行的解决方案,具有重要的理论意义和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
面向数据密集型计算的概率图模型构建与推理
数据密集型计算环境下的空间场景相似性搜索研究
生物基因表达数据中局部模式的挖掘与研究
数据密集型计算环境下的数据管理方法与技术