Entity extraction and automatic summarization are two fundamental topics in the field of information extraction. The existing entity extraction methods cannot solve problems like entity boundaries and nested entities. As for automatic summarization, the summary automatically generated by the existing methods lacks cohesion and applicable accuracy. This project intends to conduct in-depth research on entity extraction and automatic summarization of large-scale news corpus from the following three aspects in order to improve the performance of information extraction on large-scale Chinese news corpus: firstly, based on the characteristics of large-scale news corpus, word representation with syntactic structure information is applied to neural network computation to reduce the model complexity; secondly, character-based and word-based entity extracting models and multi-document entity extraction method are explored to significantly improve the performance of entity extraction of Chinese news corpus; Thirdly, a deep learning based multi-model automatic summarization method is proposed, in which the dependency relationship between words and entity words are used in the selection of abstract sentences extracted by extractive automatic summarization method, and the characteristics of generative automatic summarization model are integrated. In a word, this project aims to achieve high-quality entity extraction and automatic summarization for large-scale Chinese news corpus.
实体抽取和自动摘要生成是信息抽取领域的重要基础任务,现有的实体抽取方法仍无法很好地解决实体边界、实体嵌套等问题,而在自动摘要生成方面,现有的自动摘要方法生成的摘要缺乏连贯性,其准确性偏低。本项目拟面向大规模新闻语料的实体抽取和自动摘要展开深入研究,从如下三个方面提高大规模汉语新闻文本语料信息抽取的性能:一是针对大规模新闻语料的特点,将融合了句法结构信息的词表示运用到神经网络计算中,降低模型复杂度;二是研究基于字和基于词的实体抽取方法,探索基于多文档集的实体抽取方法,显著提高汉语新闻语料的实体抽取性能;三是以抽取式自动摘要方法为基础,利用词间依赖关系和实体词辅助筛选摘要句,并结合生成式自动摘要模型的特点,研究基于深度学习的多模型融合的自动摘要方法,面向大规模汉语新闻语料的实现高质量的实体抽取和摘要生成。
本项目深入研究了面向大规模汉语新闻语料的实体抽取与自动摘要的关键技术,并将其应用到信息抽取、机器翻译、机器阅读等领域。研究工作主要从三个方面展开:.(1)针对大规模真实篇章文本中分词性能骤降和分词不一致的问题,研究建立了基于深度学习的词法分析模型,提出了上下文感知方法并在文档级粒度上提高篇章文本的分词性能,为进一步提高汉语分词方法在真实语料场景下的性能,提出了一种基于伪标签的半监督汉语分词方法,有效提高了大规模汉语新闻语料的分词正确率;.(2)针对现有的方法难以解决的实体边界、未登录词、实体嵌套等问题,提出了融合字向量和词向量表示的命名实体识别方法,以基于大规模语料的中文分词数据为源域,中文命名实体识别为目标域,在深度网络的基础上融合多头注意力和对抗迁移学习,提高了中文命名实体识别性能和领域适应性;.(3)针对抽取式自动摘要生成的文档摘要缺乏连贯性、及生成式自动摘要效果没有达到实际应用水平的问题,提出了一种融合信息抽取的生成式文本摘要模型,将基于深度网络的命名实体识别方法和语义表示方法应用到文本摘要模型中,构建“先抽取-再生成”的管道结构,融合语义对齐网络提升生成质量,提高结果的忠实度,缓解自动文本摘要任务在实际应用时由于内容事实错误导致的局限性。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
中外学术论文与期刊的宏观差距分析及改进建议
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于大规模语料库的汉语词语自动聚类研究
面向大规模知识图谱的弱监督中文实体关系抽取研究
基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建
面向互联网新闻事件的演化式摘要研究