Recently the techniques and systems for big data machine learning and data analytics become one of the hottest research topics. However, existing techniques and systems suffer from the problems of usability and low computing performance, and lack of support of easy-to-use and unified big data machine learning systems. To solve these problems, this proposal will study on fundamental models and key techniques toward big data machine learning and data analytics, aiming to solve above problems from the perspectives of fundamental models, programming languages and methods, programming and computing framework and system platform as well. First of all, we will propose a matrix-based unified programming and computing model for big data machine learning and data analytics and also propose a general abstract model for big data machine learning systems. Then we will study parallel matrix-based computing framework and also the unified programming language and framework for big data machine learning and data analytics. At last, we will research and develop a cross-platform and unified big data machine learning prototype system. The final goal of the proposal is to study and provide easy-to-use and efficient analytical techniques and system for big data, allowing traditional programmers be able to easily and efficiently perform complex data analytics for big data with traditional programming languages and methods.
大数据机器学习与数据分析技术及其系统是当今大数据领域最为热门的重要研究课题之一。然而,面对大数据机器学习和数据分析算法设计,现有技术和系统存在很大的易用性和计算性能问题,且缺少易于使用的一体化大数据机器学习系统支撑。为此,课题将研究解决面向大数据机器学习和数据分析的基础模型和关键技术方法,拟从基本编程计算模型、编程语言和方法、编程计算框架及大数据机器学习系统平台四个层面,着力研究解决上述问题。课题将研究构建基于矩阵模型的大数据机器学习和数据分析统一编程计算模型及通用的大数据机器学习抽象系统模型,然后研究基于矩阵的大数据机器学习和数据分析并行计算框架、分布并行化矩阵优化计算方法以及统一化编程语言和编程框架,最终研究构建跨平台统一大数据机器学习原型系统。课题最终研究目标是,研究提供高效和易于使用的大数据分析方法和系统,让程序员能够以常规编程语言和编程方法方便高效地完成对大数据的复杂分析处理。
本课题已经顺利完成,并取得了一系列研究成果。主要工作进展和成果包括以下几个部分:.(1)研究完成了一种基于大规模矩阵模型的机器学习与数据分析编程计算模型,为跨平台统一大数据机器学习与数据分析编程软件框架和系统的实现,提供一个承上启下的高层抽象计算模型和框架。.(2)研究实现了基于矩阵模型的跨平台机器学习与数据分析并行计算,并在底层集成了Hadoop、Spark、Flink、MPI等主流大数据分布并行计算平台,实现了底层大数据平台对上层程序员的透明性以及“Write Once,Run Anywhere”的跨平台特性。.(3)研究实现了基于底层平台的一系列高效分布式矩阵运算方法,实现了各种大规模分布式矩阵运算操作和矩阵运算库,并研究实现了大规模矩阵优化计算方法与并行化算法,通过实现优化的矩阵运算算法、矩阵流图优化计算、底层平台自动化选择方法,有效解决了大数据分析的计算性能问题。.(4)研究并提供了一种基于矩阵计算模型的统一编程语言和编程框架,已经实现了与R语言环境的无缝集成,允许程序员基于R语言环境,基于统一矩阵编程模型,方便有效地设计实现不同的大数据机器学习与数据分析算法,有效解决了大数据分析处理系统的易用性和可编程性问题。.(5)在上述基本模型和关键技术方法研究基础上,已设计实现了跨平台统一大数据机器学习与数据分析编程软件框架与系统平台,平台已经在华为公司、华泰证券等企业得到推广应用,验证了所实现基本模型、方法、算法和软件平台的有效性。. 课题在上述基本理论方法和关键技术研究基础上,已取得了一系列研究成果,发表研究论文21篇,其中,CCF A类期刊和会议6篇,CCF B类期刊和会议4篇,CCF C类会议和期刊6篇,《计算机学报》中文一级学报论文1篇,并完成博士论文2篇,硕士论文22篇;此外,完成的系统已申请授权软件著作权7项,申请或授权发明专利10项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
面向Scratch在线编程教育的大数据分析模型与关键技术研究
面向地铁客流大数据的统计机器学习关键技术研究
面向大数据的机器学习理论与方法
面向专利大数据的机器学习与推理研究