As a primitive operation, the similarity join is widely used in data management, and it has attracted considerable concerns from both academia and industry. In the context of big data, the data is characterized as complicate and diverse data types, high speed of data production and large scale volumes. The similarity join is facing new challenges. In this project, we study the key technologies of the similarity join when processing big data. We will explore the solutions according to the characteristics of big data and the diversity and individual requirements of data analysis. In this project, we will conduct our research following the five problems. The similarity joins between the heterogeneous data sets by resolving the mapping problem of different data models. The similarity joins of large scale data sets. The similarity joins of data sets that produced with high velocity. The similarity joins with different similarity semantics to satisfy the diverse and individual requirements of data analysis. Then, we will develop a prototype system to verify the effectiveness of our algorithms. Through the research of basic theory, key techniques and system development, we will master the key technologies of similarity joins for big data. We will provide a primitive and practical similarity join operation for big data management and analysis systems.
相似连接作为一个基本的操作在数据管理领域得到了广泛的应用,近年来成为学术界和工业界的研究热点。在大数据环境下,数据类型复杂多样、产生的速度快、规模大,相似连接操作面临新的挑战。本课题以大数据为研究对象对相似连接操作的关键技术进行研究,针对大数据的特征和数据分析的多样化和个性化的需求探索相应的解决方法。本课题的主要研究内容包括:研究异构数据之间的相似连接方法,解决异构数据模型之间的映射问题;研究海量数据的相似连接方法;研究应对快速增长的数据的相似连接方法;针对数据查询和分析的多样化和个性化需求,研究不同相似语义下的相似连接方法;原型系统的开发。通过基础理论、核心技术和系统研制的研究,掌握大数据的相似连接操作的关键技术,为大数据管理和分析系统提供一个非常有用的基础性的相似连接操作。
相似连接作为一个基本的操作在数据管理领域得到了广泛的应用,近年来成为学术界和工业界的研究热点。本课题以大数据为研究对象对相似连接操作的关键技术进行研究,针对大数据的特征和数据分析的多样化和个性化的需求探索相应的解决方法。通过基础理论、核心技术的研究,掌握大数据的相似连接操作的关键技术,为大数据管理和分析系统提供一个高效的基础性的相似连接操作。本课题在以下几个方面进行了深入的研究。.(1)针对已有的相似连接工作在执行的过程中只能使用一种相似度阈值、构建的索引不能重复的使用、不能满足查询需求的多样性等缺陷,我们提出了一种不同相似语义下的相似连接操作方法。为了更好的支持不同相似语义下的相似连接,提高相似连接的执行效率,我们提出了两种不同的索引机制、相应的索引扫描算法、以及过滤方法。.(2)针对海量数据的相似连接操作,我们在云计算平台上基于MapReduce提出了一种全新的分布式并行相似连接方法FS-Join。通过利用数据的垂直划分技术,解决了已有工作在计算的过程中产生大量的重复数据和重复计算的问题以及负载均衡的问题。为了进一步提高计算资源的利用率和相似连接的执行效率,采用了数据垂直划分和水平划分相结合的策略,并且提出了三种全新的过滤方法。.(3)根据相似连接的执行特点以及现代处理器体系结构的特征,我们提出了一种基于多核多处理器的细粒度并行的相似连接方法。为了更加有效地挖掘相似连接的并行性、提高资源的利用率,我们提出了新的数据划分方法和任务划分解策略,并基于此实现了细粒度并行的相似连接算法。.(4)针对快速增长数据的流式数据相似连接。我们利用Spark平台对流式数据的相似连接进行了研究。..通过3年的深入研究,切实的掌握了相似连接的关键技术,并且产出了高水平的研究成果,在ICDE(CCF A 类会议)、计算机学报、软件学报、FCS等国内外知名期刊和学术会议上发表高水平论文12篇,申请中国专利1项,培养硕士研究生7名。..本课题在不同的实验环境下对相似连接操作进行了深入研究,研究成果可以应用在不同的平台上包括Hadoop、Spark以及多核多处理器平台。对不同语义下的相似连接的研究成果可以实现查询的多样化和个性化要求,提出的相似度感知的索引机制可以有效的支持不同相似语义的相似连接,提高资源的利用率;异构数据间的相似连接可以实现多源异构数据的集成,使得相似连接操作更加的实用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
面向云工作流安全的任务调度方法
基于非线性接触刚度的铰接/锁紧结构动力学建模方法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
高维大数据相似性连接查询关键技术研究
约束驱动集合相似大数据高效能连接关键技术研究
面向相似性数据的自适应世系管理关键技术研究
基于相似紧邻的缺失数据填补关键技术研究