More and more document streams are generated in various forms on the Internet. How to discover implicit information from their contents, in order to detect social events and analyze the behavior of Internet users, is a practically significant and challenging problem. Existing approaches on event detection from the Internet focused on the statistical analysis of keywords or topics for individual documents, but neglected the correlation among these documents, especially temporal relations, so not suitable for detecting complete complex events. This project will introduce the technique of complex event processing (CEP) into Internet event detection, and study on the description and detection of uncertain complex events based on temporal relations among documents. Regarding the topic distribution of Internet documents as primitive events, we will define complex event patterns, including formal ones expressed by temporal logic, and informal ones obtained by experience and knowledge. We will design the corresponding algorithms for pattern matching and uncertain reasoning (probability computation), and explore the methods of user-related event frequency and rarity analysis. Furthermore, we will integrate them into the framework of complex event detection on Internet document streams, to make a good tradeoff between the expressive power and the detection complexity of the complex event patterns. In this process, the theoretically difficult and innovative point is how to compute the occurrence probability of interdependent uncertain interval complex events. In summary, our basic target is to propose some specific sets of uncertain complex event patterns, respectively design effective and efficient detection and reasoning methods, and validate them in the real application scenarios on the Internet.
如何从日益增长和多样化的互联网文档流中挖掘隐含的信息,检测和跟踪社会事件,分析互联网用户行为,是具有重大现实意义和挑战性的课题。已有的互联网事件检测方法主要是对单个文档的关键词或主题进行统计分析,以检测社会趋势事件,而忽视了文档主题之间的时序关系等关联信息。本项目将复杂事件处理技术引入进来,研究互联网文档流中基于时序关系的不确定复杂事件表示与检测问题。我们将以文档主题分布作为不确定基本事件,定义形式化的复杂事件模式集,设计相应的模式匹配和不确定推理算法。我们还将探究用户相关的事件频繁度和稀有度的分析方法,并把它整合于复杂事件检测体系中,以期在模式表达能力和检测复杂度之间做出很好的权衡。在此过程中,如何计算存在丰富依赖关系的不确定区间事件的发生概率,是具有创新性的理论难点问题。本项目的基本目标是针对具体应用场景,提出几类不确定复杂事件模式集,分别设计高效的检测和推理方法,并验证其有效性。
在项目执行的三年过程中,本项目按计划顺利进行,很好地完成了研究任务和预期目标。项目以不确定复杂事件检测为核心思想,对互联网文档流中的言语信息进行时序关联和逻辑关联,研究用户异常行为的表示、检测和挖掘方法,不仅开启了互联网挖掘领域一些新的研究方向,其成果还实际应用于经济案件的侦破过程中,为有效打击日益隐蔽和升级的互联网经济犯罪活动提供有效的技术方法和手段。具体地说,本项目首先提出了基于不确定复杂事件的互联网言语信息表示模型,从数据层、语义层、意图层分别对互联网言语信息建模,包括言语碎片的数据模型、言语基本事件表示模型和言语复杂事件表示模型,分别对应于原始的互联网文档流、单篇文档中的主题分布等关键信息以及互联网用户发文背后的潜在意图和异常行为,并由此构建了互联网言语基本事件库和复杂事件模式库。在此基础上,本项目研究了不确定复杂事件的检测、挖掘和推演方法:针对已知的用户行为模式,提出了人机协同的潜在意图检测方法,并将此方法应用于经侦领域,提出了渐进交互式的线索研判方法;针对未知的个体和群体行为模式,提出了用户异常行为模式的挖掘方法,对相关类罪模型提供了重要的扩展和补充;针对时空演化模式,提出了复杂事件探测与跟踪方法,以及交互式事件推演可视分析方法,并对e租宝等热点事件进行了全方位的分析和研判。以上方法形成了完整的不确定复杂事件检测体系,很好地处理了在复杂事件实例高度重叠的情况下,复杂事件概率计算的难点问题,在复杂事件模式表达能力和检测复杂度之间实现了很好的权衡。基于以上方法,本项目研发了异常资金活动查控分析平台,作为子模块嵌入公安部经济侦查局违法犯罪资金查控平台中,在多起重大经济案件的侦破过程中起到了重要的作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
针灸治疗胃食管反流病的研究进展
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
面向云工作流安全的任务调度方法
多文档事件信息融合方法的研究
融合互联网文本的文档识别方法研究
基于语义概念深度挖掘的视频复杂事件检测方法研究
面向移动阅读的复杂文档图像理解方法研究