倾斜任务调度模型及其在医疗大数据处理中的应用研究

基本信息

批准号：61572176

项目类别：面上项目

资助金额：65.00

负责人：唐卓

学科分类：

依托单位：湖南大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：李丽娟,朱宁波,彭友松,肖晟,陈建国,段明星,肖锦波,马稳,祁玲

关键词：

数据倾斜任务调度数据抽样MapReduce大数据

结项摘要

Skew tasks are defined as the tasks with uncertain executing time due to the inner skew keys and unreliability of distributed environment. Massive skew tasks will be generated from the processing for the unstructured data such as medical history and medical advice et al. in medical information processing system. Through analyzing the actual characteristics of data-intensive and computing-intensive tasks, this project proposes a sampling based prediction algorithm for the distribution of the inner-keys comprehensive considering system performance and sample accuracy. On this basis, we firstly propose a reduce task placement algorithm to improve the task locality, a splitting/combining model of inner data fragment for tasks load balancing, and a read-write optimizing strategy for shuffle processing based on write-less technical. And then, this project proposes an evaluation model for tasks remaining time comprehensive considering the extent of data skew and current system loading, implements a heuristic speculate execution mechanism for skew tasks, which is more accurate than current researches. Based on these works, we can establish a real-time scheduling and resources allocation model for skew-aware tasks through the DAG automatic generation method, it is can solve the problem of the low system performance when executing the skew tasks. Finally, the proposed theories and prototype will be tested for performance evaluation on the supercomputer in National Supercomputing Center in Changsha, and the established prototype system will be integrated into a real medical big data processing system. The research outputs can be used to solve the application problems in tasks locality, load balancing and faulty tolerant for skew tasks. It has important theoretical and practical value.

倾斜任务是指MapRedcue框架中由于数据内部倾斜和系统不可靠性所引起的执行时间不确定的任务，医疗信息系统中对病历、医嘱等文本型非结构化数据的处理会产生大量倾斜任务。本项目拟首先通过分析医疗数据的实际特征，提出一种考虑系统性能与样本准确率的内部数据键值对分布抽样算法；同时提出一种旨在提高任务本地性，实现负载均衡的Reduce任务放置及中间数据切割与组合模型，并针对Shuffle过程提出基于写减少技术的数据读写优化策略。其次提出综合考虑数据倾斜程度与系统负载率的任务剩余时间评估模型，实现比现有研究更为准确的启发式倾斜任务推测执行机制，并由此提出DAG自动生成、实时调度与资源分配模型，解决因倾斜任务导致医疗信息系统性能低下的难题。最后对项目原型与现有医疗大数据分析系统进行集成与验证。研究成果还将有助于解决数据中心在倾斜任务的本地化、负载均衡以及容错方面的应用难题，具有较重要的理论与实际价值。

项目摘要

并行分布式计算框架MapReduce非常适合面向医疗大数据的离线分析和知识挖掘，并且在医疗行业已经得到了广泛的应用。本项目针对医疗大数据处理过程中源输入数据分布不均匀的情况，提出基于倾斜任务调度模型。主要研究内容按照课题计划书严格推进，现已经完成计划的内容，包括以下5个方面：.（1）本课题完成在医疗文本数据偏斜情况下使用抽样的方法对中间数据key值分布的预估模型，包括提出使用蓄水池算法和基于步长的拒绝算法，并发表论文一篇。.（2）优化了倾斜数据shuffle过程中任务负载不均衡和多对多任务通信时的跨节点/机架的网络流量过载问题，并发表了论文三篇。.（3）完成了基于树核和词向量结合的医疗文本相似度计算模型，为使用机器学习方法挖掘医疗大数据有价值信息提供技术基础，并发表论文三篇。.（4）提出基于负载感知和针对异构计算环境下的推测执行策略，解决了数据偏斜情况下容易产生缓慢任务从而导致拖延整体作业执行的情况，并发表论文四篇。.（5）提出面向医疗大数据信息挖掘的并行算法优化，基于Hadoop/Spark平台对数据挖掘领域一些常见的机器学习算法进行并行优化，并发表论文三篇。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：

发表时间：2020

DOI：10.3969/j.issn.1000-0844.2017.05.0820

发表时间：2017

DOI：10.11698/PED.2021.03.06

发表时间：2021

唐卓的其他基金

批准号：21572222

批准年份：2015

资助金额：65.00

项目类别：面上项目

批准号：61103047

批准年份：2011

资助金额：23.00

项目类别：青年科学基金项目

批准号：21172215

批准年份：2011

资助金额：60.00

项目类别：面上项目

批准号：21877108

批准年份：2018

资助金额：67.50

项目类别：面上项目

批准号：61873090

批准年份：2018

资助金额：66.00

项目类别：面上项目

相似国自然基金

基于数据密集指数模型的大尺度遥感数据处理任务调度与执行优化

批准号：41401512

批准年份：2014

负责人：马艳

学科分类：D0113

资助金额：25.00

项目类别：青年科学基金项目

并行任务调度在多核系统中的在线模型及其算法研究

批准号：11071215

批准年份：2010

负责人：叶德仕

学科分类：A0406

资助金额：23.00

项目类别：面上项目

海量数据处理中面向任务加速的数据调度策略研究

批准号：61300033

批准年份：2013

负责人：任祖杰

学科分类：F0204

资助金额：27.00

项目类别：青年科学基金项目

面向动态众核的遥感数据处理任务双向调度方法研究

批准号：41701468

批准年份：2017

负责人：张万峰

学科分类：D0114

资助金额：21.00

项目类别：青年科学基金项目

倾斜任务调度模型及其在医疗大数据处理中的应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

"多对多"模式下GEO卫星在轨加注任务规划

智能煤矿建设路线与工程实践

强震过程滑带超间隙水压力效应研究:大光包滑坡启动机制

铁路大跨度简支钢桁梁桥车-桥耦合振动研究

重大生物事件与化石能源形成演化--兼论地球系统框架下能源学发展

唐卓的其他基金

基于连续培养的体内核酶筛选体系

云计算服务中基于访问控制时态的安全策略研究与探索

PCR比色核酸探针在病原诊断中的应用

基于核黄素结构的靶向碱基错配抗癌药物和基因操作分子工具的开发

高性能异构计算环境中的深度学习迭代优化及工业应用研究

相似国自然基金