Data cube lattices and concept lattices, are two kinds of important models in data warehousing, data mining and knowledge discovery etc. fields. Their instances are lattice structured. It's still a big challenge on how to storage and query massive lattice structured data. To address this issue, lattice structured data are seen as graph data and its intrinsic statistics and laws are firstly studied. Then the model and mechanism are discussed. Based on these hypotheses, partitioning, storaging and querying across mutiple nodes are designed. Test statistics, complex network etc. classic models and concept hierarchies are employed to build the mechanism of lattice structured data. Graph partitioning, distributed memory computing are also leveraged to develop large scale lattice structured data management. Corresponding analysis platform and open data platform are constructed and some sample application data sets are selected to demostrate the theory. Massive lattice structured data of one to ten millon nodes are expected to be queried and analyzed efficiently. Better theoretic results may be achived in characteristics, models and partioning methods of lattice structured data.
数据立方体格和概念格是数据仓库、数据挖掘、知识发现等领域两类重要的数据模型,其实例都属于格结构数据,然而对大规模格结构数据的存储和查询目前仍然是挑战。本课题视格结构数据为图结构数据,拟以格结构数据的统计特性和规律为切入点,研究格结构数据的产生和解析模型;在此基础上,研究大规模格结构数据的划分方法、分布式存储技术、分布式构造技术和分布式查询技术。利用实验统计方法、复杂网络等经典解析模型、格的概念层次结构建立较完整的格结构数据机理体系,结合当前图划分方法、分布式内存计算技术发展大规模格结构数据管理方法和技术,构建分析平台和数据平台,进行实例验证和分析。研究结果有望对达百万至千万个结点的大规模格结构数据进行高效查询和分析,在格结构数据的特性、模型、划分方法等方面取得较好的理论成果。
在数据仓库以及知识发现这两个紧密交叉、融合的研究领域存在两类重要的数据模型:数据立方体(格)和概念格,其实例都属于格结构数据。大规模格结构数据的特性、存储和查询的研究对大数据分析具有较好的理论和实际意义。.首先对格结构数据研究现状进行调研和分析,视格结构数据为图结构数据,以格结构数据的统计特性和模型为切入点展开研究,以便下一步研究大规模格结构数据的存储和查询方法。通过实验,发现数据立方体格和概念格具有类似的图统计特性,与随机网络和复杂网络的模型相比,其在度分布、聚集系数、平均最短路径等方面具有不同的统计特性。进一步,基于格结构数据的统计特性和内部规律,分析了格结构数据的生成模型。.然后,在格结构数据统计特性和解析模型的基础上,充分考虑通讯代价、负载均衡以及数据冗余,提出了格结构数据划分方法:随机划分、按层划分、图划分等三种方法。通过格结构划分实验,分析了不同划分方法的性能。.最后利用开源分布式计算框架Hadoop和Spark,提出和实现大规模格结构数据的分布式存储以及查询方法,完成了大规模格结构数据的分析原型系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
格雷类药物治疗冠心病疗效的网状Meta分析
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于生态系统服务流视角的生态补偿区域划分与标准核算--以石羊河流域为例
CT影像组学对肾上腺乏脂腺瘤与结节样增生的诊断价值
大规模模糊RDF数据管理关键技术研究
大规模标注RDF数据管理的关键技术研究
大规模关联数据管理的关键技术研究
面向大规模分布式内存的非结构化数据管理系统关键技术研究