面向流式机器学习的并行计算模型与系统框架研究

基本信息
批准号:61802377
项目类别:青年科学基金项目
资助金额:26.00
负责人:许利杰
学科分类:
依托单位:中国科学院软件研究所
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:郭甜,王伟,孙晓晨,康锴,沈雯婷,胡家煊,叶星彤
关键词:
流式机器学习系统框架并行计算模型
结项摘要

Streaming machine learning (SML) algorithms have been widely adopted in real-time data analysis. Currently, there are three methods to train SML algorithms, including mini-batch, one-pass, and one-pass+sketch. However, current machine learning frameworks cannot support these training methods, because of the lack of a SML dataflow model and corresponding parallel approaches..This project aims to build a low-latency parallel computing model for training SML algorithms, in awareness of the features of streaming data (continuous, multi-dimension, dynamic changing) and the features of SML algorithms (time-series, parameter dependency, parameter feedback). This project proposes (1) a SML computing model, including a dataflow model and operators to support the three training methods. (2) Parallel approaches for the computing model, including streaming data partition, parameter computation parallelism, and parameter update parallelism. (3) Adaptive approaches for balancing the trade-off between latency and precision, including asynchronous parameter feedback and out-of-order parameter update. Finally, the computing model will be implemented atop continuous processing framework (Apache Flink). The classical SML algorithms will be also implemented to evaluate the computation latency, precision, and scalability.

流式机器学习算法已被广泛应用于实时数据分析和预测。目前流式机器学习算法包含微批增量更新、在线增量更新、在线概要更新三种模型训练更新方式,但传统的机器学习框架没有支持这三种训练方式的数据流模型和并行化方法。..本项目充分考虑流式训练数据连续、多维、动态变化的特性,以及三种训练方式不同的时序性、参数依赖、参数反馈等特征,构建一个具有低延时、时序特征的流式机器学习并行计算模型。项目主要研究:(1)流式机器学习计算模型,包括支持三种典型模型训练方式的数据流模型和执行算子。(2)计算模型的并行化方法,包括流式数据划分方法、参数计算并行化方法、参数更新并行化方法。(3)计算模型的时延和精度平衡方法,包括参数异步反馈、参数乱序更新方法等来平衡模型训练的时延和精度。最后基于连续式流处理框架Apache Flink设计实现系统框架以及典型的流式机器学习算法,对比评测系统的计算时延、精度、扩展性。

项目摘要

流式机器学习已被广泛应用于实时数据分析和预测。当前的数据流如IoT设备事件流和Web点击流等,具有高速、动态变化的特性。现有的流式机器学习算法通常遵循一次处理一条数据(one-record-at-a-time)的更新模型。在该模型中,每条到达的数据必须等待前面的数据处理完成后才能被处理,效率较低。如何提高流式机器学习算法的训练效率,满足当前高速数据流的实时分析需求是重要的研究问题。..在项目执行期间,项目组在面向流式机器学习算法的并行计算框架、机器学习参数更新协议,以及大数据框架内存性能分析与优化方面取得了以下成果:(1)本项目研究了面向流式机器学习的计算模型及并行化方法,设计实现了面向流式聚类算法的并行计算框架(DistStream),并基于该框架设计实现了多种流式分类和流式回归算法。(2)在平衡计算效率和精度方面,项目组提出了一种新的参数同步更新协议Sync-Switch,可以同时利用同步更新和异步更新的优点,提升训练效率并达到较好的训练精度。(3)由于机器学习等大数据应用在处理大规模数据时存在严重的内存性能问题,项目还研究了面向大数据处理框架的内存管理优化方法,提出了新的缓存替换方法等。..本项目的研究成果可以进一步应用于物联网数据分析、网络实时检测、商品实时推荐、交通流量分析等领域。项目组也正在与达梦数据库、南方电网等开展合作,将项目研究成果应用于企业数据实时分析。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

许利杰的其他基金

相似国自然基金

1

机器学习的逻辑与机器学习系统的研究

批准号:69073335
批准年份:1990
负责人:赵沁平
学科分类:F0204
资助金额:3.50
项目类别:面上项目
2

基于机器学习与并行计算的颈动脉斑块稳定性研究

批准号:61873156
批准年份:2018
负责人:谢江
学科分类:F0305
资助金额:60.00
项目类别:面上项目
3

基于几何与概率的机器学习算法验证框架

批准号:61872371
批准年份:2018
负责人:刘万伟
学科分类:F0201
资助金额:63.00
项目类别:面上项目
4

面向"知识"与"数据"共同驱动的机器学习模型参数可辨识性研究

批准号:61273196
批准年份:2012
负责人:胡包钢
学科分类:F03
资助金额:82.00
项目类别:面上项目