基于表示学习的事件抽取与演化分析研究

基本信息
批准号:61802194
项目类别:青年科学基金项目
资助金额:21.00
负责人:黄佳佳
学科分类:
依托单位:南京审计大学
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:李保珍,李鹏伟,徐臻元,孙周宝,张雅,姜国标
关键词:
事件演化分析主题模型事件抽取表示学习语义分析
结项摘要

Event extraction and evolution analysis of social network texts is of great significance in theoretical research and application. However, the major challenge is the automation level and accuracy of event extraction and analysis of massive and low-quality texts cannot satisfy practical application. Therefore, in this project, we first propose to design an event extraction and evolution analysis framework of social network texts. In this framework, event structure information is extracted from granularities of meta-event element, element relation and topic, and then event evolution patterns are built from granularities of element relation, topic and event type. Furthermore, we try to introduce representation learning to achieve more accurate extraction and analysis results. In detail, we propose a text embedding model based on Bi-LSTM with attention strategy to lay the foundation for applying representation learning into event extraction and analysis. Then, this model is combined with probabilistic topic model, and two novel models (i.e., TupleGPULDA and TupleGPUDMM) are desinged for element relation extraction and topic extraction respectively. At last, we define event evolution patterns and design pattern analysis methods from different granularities based on text representation. The innovation results will be a new breakthrough to traditional event extraction and analysis in large-scale social networks from framework building and analysis methods. It will help to mine the potential values in social networks more efficiently and accurately.

面向社交网络文本的事件抽取与演化分析具有重要研究意义与应用价值,其主要难点是面向开放低质海量的社交网络数据进行事件抽取与分析的自动化程度及准确性无法满足实际应用。为此,本项目首先拟构建面向社交网络文本的事件抽取与演化分析框架,该框架从元事件要素、要素关系和主题三个粒度抽取事件结构信息,并从要素关系、主题和事件类型三个粒度构建事件演化模式。为获得更加精确的事件结构与演化信息,本项目尝试引入表示学习理论,提出基于AT-Bi-LSTM的文本表示模型,为表示学习在事件分析中运用提供基础;其次将文本表示模型与传统概率主题模型结合,提出TupleGPULDA和TupleGPUDMM模型分别用于事件要素关系抽取与主题抽取;最后基于不同粒度的事件向量表示刻画事件演化模式。研究成果将是对传统社交网络事件抽取与演化分析框架构建与分析方法的新突破,有利于更高效准确地挖掘社交网络数据的潜在价值。

项目摘要

面向社交网络文本的事件抽取与演化分析具有重要研究意义与应用价值,其主要难点在于如何从海量低质的数据中有效抽取与分析出结构化的事件信息。本项目旨在实现具有自动抽取功能的事件分析框架和具有深度学习能力的事件分析技术。为此,本课题首先调研当前基于主题建模的事件抽取研究进展;在此基础上,提出一种基于词共现信息的主题抽取模型Noise Biterm Topic Model with Word Embeddings(NBTMWE)和一种隐含主题信息的生成式文本摘要模型VAESum分别用于事件主题建模和观点挖掘。NBTMWE模型的主要创新之处在于一方面使用词嵌入(word embeddings)来计算词汇之间的语义相似度,另一方面将该相似度融入到一种噪声双词主题模型(Noise Biterm Topic Model)中。实验表明NBTMWE能够有效抽取短文本中的主题信息。VAESum模型中使用变分自编码器(variational autoencoder,VAE)刻画摘要潜在主题特征并用于指导摘要文本生成方法VAESum。实验结果表明该方法能有效刻画摘要主题信息、缓解未登录词及重复生成问题,使得生成的摘要准确性高于基准模型。最后,在应用层面上,针对审计领域事件,构建领域知识库以提高事件分析准确性,该知识库包括审计领域专业词表、领域词汇的词向量表示以及领域知识图谱;此外,设计一套事件演化分析框架并应用于审计领域事件抽取与演化分析,包含事件元素及表示、事件主题抽取和事件演化模式及量化分析。本课题既包含理论研究成果,如基于词共现及语义表示的主题模型、融入主题信息的自动摘要模型等,也包含应用成果,即可将设计的事件抽取与演化分析框架应用到政策文件分析和舆情监测等任务中。.在项目执行期间,共发表高水平论文6篇,其中SCI收录2篇,EI收录2篇。获批软件著作权2项,培养硕士研究生3名。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

黄佳佳的其他基金

相似国自然基金

1

基于深度学习特征提取的稀疏表示异常事件检测

批准号:61572067
批准年份:2015
负责人:岑翼刚
学科分类:F0210
资助金额:64.00
项目类别:面上项目
2

基于维语网络文本的事件抽取方法研究

批准号:61662074
批准年份:2016
负责人:田生伟
学科分类:F0607
资助金额:39.00
项目类别:地区科学基金项目
3

面向话题的事件关系抽取与网络构建研究

批准号:61772354
批准年份:2017
负责人:李培峰
学科分类:F0211
资助金额:62.00
项目类别:面上项目
4

面向开放网络数据的多元关系抽取、表示与推理研究

批准号:61772501
批准年份:2017
负责人:靳小龙
学科分类:F0607
资助金额:58.00
项目类别:面上项目