Recently, with the rapid development of location-acquisition and mobile communication technologies, we can obtian the the information of people’s interests, actions and the relationship with others from locations. Furthermore, people in an existing social network can expand their social structure with the new interdependency derived from their locations, and the issues of recommendation, social network analysis and location prediction will involve the technology of data mining, machine learning and graph computing. Therefore, the solutions of LBSN big data management and analysis are becoming a urgent problem to be solved in various application. Spark is a new generation of big data processing platform, and it has a hgher efficiency and better fault tolerance than Hadoop in terms of iterative computing, data flow, interactive data mining and graph computing. Therefore, in this project, we will conduct depth studies on the problems of real-time, interactivity, group and dynamic over LBSN big data in Spark environment. Related research results will solve the the probelms of the data management and analysis in emerging applications and have an important theoretical significance and practical application value.
近年来,随着定位采集技术和移动通信技术快速发展,人们的兴趣爱好、行为以及与他人之间的关系等信息都能够从位置信息中获得。进而可以通过位置信息得到新的相互依赖关系,进而扩大自己的社交结构。而由此产生的推荐、社交网络分析、位置预测等问题将涉及数据挖掘、机器学习、图计算等方面的技术。因此,基于位置服务的移动社交网络大数据的分布式数据管理和数据分析的解决方案,则成为了目前诸多应用中亟待解决的问题。Spark作为新一代处理大数据的平台,在迭代计算、数据流、交互式数据挖掘以及图计算等方面具有比Hadoop更高的运算效率和更好的容错性。因此,本课题以研究移动社交网络大数据为对象,以Spark为计算大数据的平台,重点解决基于位置服务的社交网络大数据所带来的实时性、交互性、群体性以及动态性等关键问题。相关研究成果将为新兴应用的数据管理与数据分析提供新的解决方案,具有重要的理论意义与实践价值。
本项目的施行时间是2016.1-2019.12,这期间项目主要研究了Spark环境下LBSN大数据管理与分析的各个方面,现总结如下:.随着定位采集技术和移动通信技术快速发展,人们的兴趣爱好、行为以及与他人之间的关系等信息都能够从位置信息中获得,由此产生的推荐、社交网络分析、位置预测等问题将涉及数据挖掘、机器学习、图计算等方面的技术。因此,LBSN大数据的分布式数据管理和数据分析问题成为了一个挑战。.1.在LBSN的大数据存储方面,提出了基于社交关系的划分与复制以及基于时间维度的划分与复制的分布式存储方法,并考虑社交关系和用户之间的交互行为是动态变化的,研究了相对稳定的节点工作机制。.2.在LBSN的大数据索引和查询方面,为了能够使得spark具有高效的批处理性能,针对轨迹数据、空间数据以及社交网络数据采用了三种不同的索引方法。提出了社交空间关键词Top-k组查询处理技术,分布式大图的关键词查询方法,分布式不确定图上的可达查询方法,分布式大图的关键词查询方法,分布式twig查询方法。.3.在LBSN的大数据分析方面,提出了基于极限学习机的兴趣点分类模型,自适应超限学习机模型,基于超限学习机的大图数据集分类框架,基于LBSN的多位置影响最大化方法,分布式ELM中基于位置社交网络的推荐方法,基于极限学习机的兴趣点组推荐方法,多语义轨迹下热点区域挖掘算法, LBSNs中面向群组的地点推荐方法等。.4.本项目实施过程中,项目组已在TPDS、TKDE、KDD、KAIS、Neurocomputing、Complexity、Neural computing and applications、Access、软件学报等国际和国内权威杂志上发表论文23篇,其中SCI期刊发表论文20篇,培养毕业研究生12名,协助培养毕业博士研究生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
大图数据管理与分析的基础理论与关键技术研究
分布式内存环境下的大图数据管理技术研究
面向新型硬件环境的数据管理与分析关键技术
集群环境下基于内存的高性能数据管理与分析