Faced with the feature of data-intensive and compute-intensive in processing of Remote Sensing (RS) Big Data, MapReduce-based batch mode can not meet the requirements of high-throughput real-time RS applications, because of its limited I/O memory access bottleneck. In recent years, the development of Non-Volatile Memory (NVM), represented by Phase-Change Memory (PCM), not only ease the memory wall and wall-power issues, but also provides hardware for the In-Memory Computing (IMC) mode of RS Big Data. However earlier strategies of data access, organization, management, parallel processing, task scheduling under homogeneous memory need to be redesigned, according to the characteristics of heterogeneous memory, such as power, capacity, life, cost, nonvolatile, etc.. In our proposal, real-time stream processing of RS Big Data should take into account the characteristics of heterogeneous memory and RS data accessing (correlation of time, space and spectrum). In order to improve the efficiency and throughput of real-time processing of RS Big Data significantly, some issues, such as efficient parallel, task scheduling and multi-objective (time and power consumption, cost, QoS, throughput, fairness, etc.) optimization under IMC mode, should be reconsidered from the aspects of data access, organization, management, and task/data division, dependent, messaging, load balancing in heterogeneous resources and environment. These research provide technical support of RS applications in Xinjiang for homeland security, disaster warning and rescue, and so on.
遥感大数据应用兼具数据密集与计算密集的特点,基于MapReduce的批处理方式局限于I/O访存瓶颈无法满足高吞吐量遥感应用的实时性要求。近年来,以PCM为代表的NVM的发展不但缓解了内存墙及功耗墙问题,还为遥感大数据的内存计算处理模式研究提供了硬件条件,但先前针对同构内存和磁盘特性设计的数据访问、组织、管理以及并行处理、任务调度等策略均需重新设计。本项目以遥感大数据的实时流处理为例,针对异构内存特性(功耗、容量、寿命、成本、非易失性等)和遥感数据访问特点(时间、空间和波谱相关性),从异构资源环境下的数据访存、组织、管理以及任务/数据的分解、依赖、消息传递、负载均衡等角度全面考虑IMC处理模式下的高效并行、任务调度和多目标(时间、功耗、费用、QoS、吞吐量、公平性等)优化问题,以显著提升遥感大数据的实时处理效率和吞吐量,为遥感大数据在新疆国土安全、灾害预警及救援等方面的应用提供技术保障。
本项目面向海量遥感数据在内存计算/流式计算/分布式计算环境下(Hadoop、Spark、Redis、Storm、RAMCloud等框架下)的异构数据分割、组织、管理、和任务调度、并行等内容进行了深入研究,所取得的成果主要有:.1).依据遥感数据访问特点,从数据访存、组织、管理等角度全面考虑IMC处理模式下的高效并行、任务调度和多目标(时间、功耗、费用、QoS、吞吐量、公平性等)优化问题:针对时空数据组织形式,从矢量时空数据的分层索引优化、基于树形结构的复合索引优化等方面优化数据访问查询效率;针对异构内存特性设计基于新型存算一体设备的混合存储模型和数据对象管理策略;基于内存云框架探索数据存储优化、数据恢复、大块数据对象并行存取等策略;面向遥感数据访问特点和节能要求,设计基于Hadoop的节能存储模型、数据分类节能策略、基于数据库负载的能耗感知模型、内存节能策略和阈值调控节能策略,优化了检查点策略和数据映射方法。.2).设计内存计算环境下大数据的挖掘、处理和任务调度等方面的改进算法和优化模型:实现spark环境下深度信念网络的并行加速、遥感大数据特征提取加速、聚类算法并行优化,以及其他内存计算框架(如Strom、Heron等)下任务调度和迁移、电压调控等研究;针对图像计算效率低下问题,优化了单源最短路径算法、边缘检测算法,探索了内存计算框架下的并行计算和任务调度、负载均衡和多目标优化等模型,减小遥感数据流式计算下的资源开销。.3).针对大数据智能分析处理需求,开展图像处理、深度学习、推荐系统等方面的研究:在推荐系统层面,基于可信度、标签、情感倾向等特征开展协同推荐研究;在图像处理层面,开展面向遥感图像的分类、目标检测、重建研究,提升图像质量和处理效果;在深度学习层面,基于卷积神经网络开展了微表情识别、乳腺病检测等研究,提升传统遥感大数据特征提取算法精度、效率。.本项目执行期间形成成果有:发表论文59篇,其中SCI/EI论文9篇,中文核心论文50篇,授权专利2个,软件著作权7个,转化软件著作权2个,培养研究生34名。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
内点最大化与冗余点控制的小型无人机遥感图像配准
针灸治疗胃食管反流病的研究进展
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
地理大数据并行计算空间划分与任务调度方法研究
基于超图分割的空间数据并行处理任务调度机制研究
大规模计算网络并行任务调度模型及其参数方法研究
适配异构内存架构的自适应任务调度的研究