基于深度学习的数据-文本生成技术研究

基本信息
批准号:61876004
项目类别:面上项目
资助金额:62.00
负责人:常宝宝
学科分类:
依托单位:北京大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:詹卫东,沙磊,刘天宇,夏乔林,王佳骏,王文辉,崔巍,罗福莉,黄海斌
关键词:
结构规划内容选择句子生成数据文本生成表层实现
结项摘要

The study of Data-to-Text Generation focuses on the models and technologies for generating natural language description from structured data. As one of the language generation tasks, research on data-to-text generation is both fundamental to Natural Language Processing and applicable to presentation of data with language and automation of the document authoring. Recently, data-driven approach and deep learning approach are introduced and proposed to model the data-to-text generation task. However, the lack of reliable models on content selection, structure planning still severely limits the quality of the generated text. At the same time, metric-based evaluation is widely used in the literature of data-to-text generation and the highly adopted metrics like BLEU are sometimes misleading. In this project, we propose to advance the research of data-to-text generation using deep learning and to build new metric for evaluating of the quality of the data-to-text generation. Especially, we will focus on new deep learning based content selection and structure planning models, and how to enforce fidelity, coverage and structural restriction on the process of language generation to improve the quality of the generated texts. We will also propose to construct Chinese data-to-text dataset and explore on Chinese data-to-text generation task to change the situation of scant attention in Chinese data-to-text generation. We will take generating Chinese and English biographies from infobox-like data as a case study.

数据-文本生成研究从结构化数据生成描述型自然语言文本的模型、技术和方法。作为一种语言生成研究,既有基础学术价值,也在结构化数据的自然语言阐释、创作自动化方面具有重要应用价值。近年来,国际上数据-文本生成研究已逐步转变为采用数据驱动及深度学习研究路线,但在内容选择及内容规划方面缺乏深入研究,致使生成系统无法有效约束表层实现过程,影响了所生成文本的质量。同时,数据-文本生成质量评价指标也存在局限和误导作用。本项目拟采用深度学习方法系统研究中英文数据-文本生成技术及评价准则。项目将重点研究深度内容选择模型和深度结构规划模型,以及如何通过深度内容选择和规划对语言生成实施忠实度、覆盖度及结构约束,从而改善文本生成质量的问题。项目也将通过构造中文数据集并深入研究中文数据-文本生成模型改变中文数据-文本生成研究薄弱的局面。项目将采用案例研究方法,以人物小传生成为例深入推进中英文数据-文本生成技术的发展。

项目摘要

数据-文本生成主要研究从结构化数据生成自然语言文本的模型、技术和方法。作为一种语言生成研究,既有基础学术价值,也在结构化数据的自然语言阐释、创作自动化及计算机辅助教育等方面有重要应用价值。近年来,随着深度学习的持续应用,数据-文本生成研究取得了许多进展,但依然存在许多重大挑战阻碍着自然语言生成技术走向真实应用,这些挑战包括所生成的文本普遍有缺失关键信息、出现臆造事实、主题漂移、违背常识的问题。同时,长期以来,以BLEU值为代表数据-文本生成评价指标存在局限和误导作用,也不能引领数据-文本生成研究的良性发展。.针对这些挑战,自立项以来,项目以实现可控文本生成技术为目标,以表格-文本生成和公式-文本生成作为研究案例,系统研究了防止和减少关键信息遗漏、臆造事实、主题漂移及违背常识等现象的可控文本生成模型、技术和方法,提出了基于coarse-to-fine注意力机制的层次化表格编码模型、基于多任务学习的表格编码增强模型、基于关注补偿和强化学习的富信息文本生成模型、基于增广规划思想的数据-文本生成模型、基于话题记忆的话题漂移控制技术和基于知识图谱的常识约束机制等系列可控文本生成方法,在WikiBio、WikiPerson、Dolphin 18k等数据集上,取得了文本生成质量的显著改善。针对数据-文本评价指标方面存在的缺陷,项目提出了文本信息丰富度、基于实体的信息覆盖度、基于实体的臆造实体率、数学文本的可解性指标,这些指标不但可以和BLEU值等组合形成更加客观的评价指标,也可以作为具体的优化目标用于文本生成模型研究。在思想层面,项目提出数据-文本生成过程中存在“场景例化”这一基础问题,文本生成研究需要显式建模场景例化并提出具体建模方法,项目结合公式-文本生成研究,提出一种基于例子的场景例化技术,取得了数学-文本生成质量的改善。.本项目研究推进了数据-文本生成研究的发展,成果也在内容生成自动化及计算机辅助数学命题领域有潜在应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

常宝宝的其他基金

批准号:61273318
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:60303003
批准年份:2003
资助金额:24.00
项目类别:青年科学基金项目
批准号:60975054
批准年份:2009
资助金额:30.00
项目类别:面上项目

相似国自然基金

1

融合文本网数据的深度学习技术研究

批准号:61572339
批准年份:2015
负责人:严建峰
学科分类:F0605
资助金额:64.00
项目类别:面上项目
2

基于结构化数据表示学习的文本生成技术研究

批准号:61906053
批准年份:2019
负责人:冯骁骋
学科分类:F0606
资助金额:25.00
项目类别:青年科学基金项目
3

基于深度学习的图像文本描述自动生成方法研究

批准号:61806218
批准年份:2018
负责人:郭延明
学科分类:F0604
资助金额:19.00
项目类别:青年科学基金项目
4

基于深度学习的文本和语音多模态数据挖掘研究

批准号:61672301
批准年份:2016
负责人:裴志利
学科分类:F0605
资助金额:62.00
项目类别:面上项目