The research project aims at developing new process mining techniques that are able to deal with huge event logs recorded for processes executed in possibly highly variable and heterogeneous contexts. The goal of process mining is to extract process-related information from event logs, e.g., to automatically discover a process model. Despite recent advances in process mining there are important challenges that need to be addressed. In fact, the discovery of process models from event logs is notoriously difficult and major breakthroughs are needed for the large-scale application of process mining. This project is composed of three research tracks aiming at such breakthroughs: (a) In Track T1 we will develop techniques to decompose process mining problems (e.g., process discovery and conformance checking) into smaller problems that can be solved more efficiently and that can be distributed over a network of computers. (b) Track T2 goes one step further. To support applications where it is impossible to store events over an extended period, on-the-fly process mining techniques will be developed that can learn (or check) process models without storing excessive amounts of events. (c) Existing techniques require the analyst to restrict the scope to a single process model describing the behavior of a homogeneous group of cases in steady-state. In Track T3 we will develop comparative process mining techniques that systematically highlight commonalities and differences. This way we can deal with heterogeneous processes that are changing over time and that have many variants.
该项目旨在开发能处理记录了在高度变化和异构上下文中被执行过程的海量事件日志的新型过程挖掘技术。过程挖掘的目标是从事件日志中抽取过程相关信息,即自动发现一个过程模型。尽管过程挖掘有很多最新进展,但仍然存在很多亟待解决的重要挑战。事实上,从事件日志中发现过程模型的难度众所周知,而且过程挖掘的大规模应用需要重大的突破。该项目旨在进行这些突破,它由三个研究主题组成:一、将开发把过程挖掘问题(如过程发现和复合型检查)分解为能被更高效解决并且能分布到计算机集群的较小问题的技术;二、为了支持无法在极长一段时间内存储全部事件的应用,将开发不需要存储过量事件就能够学习(或检查)过程模型的即时过程挖掘技术;三、当前的过程挖掘技术要求分析师将范围限制在描述了稳态下一组同质案例的行为的单一过程模型上,将开发能够系统地突出共性和差异的可比较过程挖掘技术,以便能够处理随着时间发生改变而且有很多变种的异质过程。
随着包含流程信息的事件日志大小急剧增长,现有的面向单一事件日志的单机过程挖掘算法日益面临着挑战,分布式过程挖掘、可比较过程挖掘、流式过程挖掘等技术亟待开发。.本项目重点开展了如下研究工作并取得技术突破:(1)在分布式过程挖掘方面,提出了Spark分布式过程挖掘框架,比已有的MapReduce分布式过程挖掘框架在效率上提高10-50倍;(2)在可比较过程挖掘方面,提出了基于可扩展活动间关系的基于频率等级变化思想的突发漂移与渐变漂移检测方法,在检测精度和检测效率方面远超现有方法;(3)在流式过程挖掘方面,提出了基于完备窗口、检测窗口与遗忘机制的线上/线下过程漂移检测方法,在检测精度、检测效率和检测及时性方面均处于国际领先地位;(4)在传统过程挖掘方面,创造性的提出了非自由选择结构与不可见任务的融合发现方法,以及含多实例标记的分层BPMN模型的挖掘方法;(5)在过程模型相似性度量方面,提出了基于任务发生关系、基于变迁标签图编辑距离、基于触发序列集合、基于变迁紧邻关系重要性、基于扩展精炼不确定活动关系等系列过程模型相似性度量算法;(6)在日志完备性分析方面,将日志全局完备性评估问题建模为种群估计问题,并综述了十几种经典的方法。.在项目执行期间,共发表论文24篇,其中SCI检索5篇、EI检索24篇,申请国家发明专利2项,获得软件著作权2项,获BPM 2015最佳学生论文奖(大陆首次),举办中国业务过程管理大会四次(参加总人数约320人),参加BPM、CAiSE、CIKM、ICSOC、CoopIS等国际会议8次(共12人次),培养硕士毕业生10人、博士毕业生1人,其中汪抒浩同学获2016年度清华大学校级优秀硕士毕业生荣誉称号、肖永博同学获2017年度清华大学优秀硕士毕业论文,项目负责人作为大陆唯一成员入选IEEE过程挖掘工作组XES标准化小组,全面参与制定IEEE XES标准制定(标准号:IEEE 1849-2016)。.项目成果有望在Web访问日志分析与页面重构、软件使用行为分析与优化、业务流程日志分析与模型改进、分布式事件日志挖掘等领域进行推广应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
物联网中区块链技术的应用与挑战
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
空气电晕放电发展过程的特征发射光谱分析与放电识别
中国数字化可视人体数据获取关键技术研究
基于热点导航的大图数据迭代计算过程可视化关键技术研究
人体健康监测系统中感知数据获取关键技术的研究
机会网络中基于内容路由的信息获取关键技术研究