Streaming machine learning (SML) algorithms have been widely adopted in real-time data analysis. Currently, there are three methods to train SML algorithms, including mini-batch, one-pass, and one-pass+sketch. However, current machine learning frameworks cannot support these training methods, because of the lack of a SML dataflow model and corresponding parallel approaches..This project aims to build a low-latency parallel computing model for training SML algorithms, in awareness of the features of streaming data (continuous, multi-dimension, dynamic changing) and the features of SML algorithms (time-series, parameter dependency, parameter feedback). This project proposes (1) a SML computing model, including a dataflow model and operators to support the three training methods. (2) Parallel approaches for the computing model, including streaming data partition, parameter computation parallelism, and parameter update parallelism. (3) Adaptive approaches for balancing the trade-off between latency and precision, including asynchronous parameter feedback and out-of-order parameter update. Finally, the computing model will be implemented atop continuous processing framework (Apache Flink). The classical SML algorithms will be also implemented to evaluate the computation latency, precision, and scalability.
流式机器学习算法已被广泛应用于实时数据分析和预测。目前流式机器学习算法包含微批增量更新、在线增量更新、在线概要更新三种模型训练更新方式,但传统的机器学习框架没有支持这三种训练方式的数据流模型和并行化方法。..本项目充分考虑流式训练数据连续、多维、动态变化的特性,以及三种训练方式不同的时序性、参数依赖、参数反馈等特征,构建一个具有低延时、时序特征的流式机器学习并行计算模型。项目主要研究:(1)流式机器学习计算模型,包括支持三种典型模型训练方式的数据流模型和执行算子。(2)计算模型的并行化方法,包括流式数据划分方法、参数计算并行化方法、参数更新并行化方法。(3)计算模型的时延和精度平衡方法,包括参数异步反馈、参数乱序更新方法等来平衡模型训练的时延和精度。最后基于连续式流处理框架Apache Flink设计实现系统框架以及典型的流式机器学习算法,对比评测系统的计算时延、精度、扩展性。
流式机器学习已被广泛应用于实时数据分析和预测。当前的数据流如IoT设备事件流和Web点击流等,具有高速、动态变化的特性。现有的流式机器学习算法通常遵循一次处理一条数据(one-record-at-a-time)的更新模型。在该模型中,每条到达的数据必须等待前面的数据处理完成后才能被处理,效率较低。如何提高流式机器学习算法的训练效率,满足当前高速数据流的实时分析需求是重要的研究问题。..在项目执行期间,项目组在面向流式机器学习算法的并行计算框架、机器学习参数更新协议,以及大数据框架内存性能分析与优化方面取得了以下成果:(1)本项目研究了面向流式机器学习的计算模型及并行化方法,设计实现了面向流式聚类算法的并行计算框架(DistStream),并基于该框架设计实现了多种流式分类和流式回归算法。(2)在平衡计算效率和精度方面,项目组提出了一种新的参数同步更新协议Sync-Switch,可以同时利用同步更新和异步更新的优点,提升训练效率并达到较好的训练精度。(3)由于机器学习等大数据应用在处理大规模数据时存在严重的内存性能问题,项目还研究了面向大数据处理框架的内存管理优化方法,提出了新的缓存替换方法等。..本项目的研究成果可以进一步应用于物联网数据分析、网络实时检测、商品实时推荐、交通流量分析等领域。项目组也正在与达梦数据库、南方电网等开展合作,将项目研究成果应用于企业数据实时分析。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
中国参与全球价值链的环境效应分析
机器学习的逻辑与机器学习系统的研究
基于机器学习与并行计算的颈动脉斑块稳定性研究
基于几何与概率的机器学习算法验证框架
面向"知识"与"数据"共同驱动的机器学习模型参数可辨识性研究