基于典籍引得的句法级汉英平行语料库构建及人文计算研究

基本信息
批准号:71673143
项目类别:面上项目
资助金额:48.00
负责人:王东波
学科分类:
依托单位:南京农业大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:黄水清,魏向清,何琳,杨波,庄倩,刘浏,姜霖,刘润泽,叶文豪
关键词:
知识挖掘典籍引得人文计算汉英平行语料库句法分析
结项摘要

This research project aims to build a Chinese-English parallel corpus of ancient classics annotated at the syntactic level, and to further explore humanities computing. In order to fulfil the above aims, lexical knowledge of indexing ancient classics will be applied, and techniques of text mining and machine learning will be deployed. Besides, a Chinese-English syntactic parser will also be developed with reference to the English translations of ancient Chinese classics. Specifically speaking, the research project will proceed along the following steps: First, by using the lexicon in ancient classics index, the Great Chinese Dictionary and New Age English-Chinese Dictionary, a Chinese-English Dictionary of Ancient Classics will be made with the similarity algorithm. Second, a Chinese-English parallel corpus will be built with the alignment algorithm at the sentential level, and it will be annotated at the lexical level under the model of maximum entropy. Third, an automatic syntactic parser of function-collocation will be developed by making use of Penn Chinese Treebank, Penn English Treebank and a knowledge base of lexical collocation. Finally, based on the Chinese-English parallel corpus of ancient classics annotated at the syntactic level, a further exploration of humanities computing will be conducted from the perspectives of lexicon, text and edition.

基于典籍引得中有关词汇的标引知识,通过文本挖掘和机器学习的方法与技术,结合典籍对应的英语译文,在开发的汉英句法分析器的基础上,本课题拟构建句法级汉英典籍平行语料库,并在该库的基础上对人文计算进行相应的探究。本课题涉及到的主要研究内容如下:首先,基于典籍引得中的词汇,结合《汉语大词典》和《新时代英汉大词典》,通过相似度算法,构建典籍汉英双语词典。其次,在句子级对齐算法的基础上,构建句子级汉英平行语料库,并在最大熵模型的基础上,完成对汉英语料库的词汇级标注。其次,基于宾州汉语和英语树库,融合词汇搭配知识库,开发功能-搭配自动句法分析器,进而构建句法级汉英平行语料库。最后,基于典籍句法级汉英平行语料库,从词汇、篇章和版本三个角度完成对人文计算的探究。

项目摘要

在实施文化产业数字化战略的大背景下,基于深度学习、自然语言处理和文本挖掘等技术、方法和理念,如何基于典籍及翻译文本探究平行语料库的构建不仅有利于促进文化产业数字化的发展,而且对提升中国文化的软实力也具有重要的意义。将典籍汉英句子自动对齐问题视为候选句对分类问题,根据实验语料特点结合已有研究选取对齐句对特征,基于“整体分类”与“序列标注”两种不同的理念来识别候选句对中的对齐句对;采用涵盖经史子集四部的25部先秦典籍作为训练语料,在未加入任何人工特征的前提下,基于BERT构建了先秦典籍分词词性一体化标注模型。最终将模型应用于《史记》,并对史记中构成事件的四种基本词类(人名、地名、时间词、动词)进行了整体统计与个例分析;利用Bi-RNN、Bi-RNN-CRF、Bi-LSTM、Bi-LSTM-CRF、Bi-LSTM-Attention、Bi-LSTM-CRF-Attention、BERT等七种深度学习模型,以《楚辞》《公羊传》《谷梁传》等25本先秦典籍为实验语料,对人名、地名、时间词三种可以构成历史事件的实体进行识别;基于典籍英译文的句子多层级标注结果,对典籍英译文的词汇、词性、介宾短语结构等角度对典籍英译文语料的特征进行统计和分析;结合已构建的典籍平行语料库和所构建的相应分词、词性、实体和短语标注模型,融合知识图谱的相应方法和技术,本章构建了典籍自动问答系统。所构建的典籍问答系统涵盖了实体知识抽取、知识图谱构建和相应具体语义知识点的呈现及相应问题检索等几个部分的内容。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
2

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020
3

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

瞬态波位移场计算方法在相控阵声场模拟中的实验验证

DOI:
发表时间:2020
4

平行图像:图像生成的一个新型理论框架

平行图像:图像生成的一个新型理论框架

DOI:10.16451/j.cnki.issn1003-6059.201707001
发表时间:2017
5

计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型

计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型

DOI:10.19595/j.cnki.1000-6753.tces.151503
发表时间:2017

王东波的其他基金

相似国自然基金

1

基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究

批准号:71303120
批准年份:2013
负责人:王东波
学科分类:G0414
资助金额:20.00
项目类别:青年科学基金项目
2

赣方言篇章平行语料库构建及计算模型研究

批准号:61772246
批准年份:2017
负责人:徐凡
学科分类:F0211
资助金额:59.00
项目类别:面上项目
3

汉英平行语料库翻译知识提取系统研究-自动提取术语、术语搭配及词组块

批准号:60372106
批准年份:2003
负责人:袁琦
学科分类:F0113
资助金额:26.00
项目类别:面上项目
4

基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建

批准号:61662041
批准年份:2016
负责人:毛存礼
学科分类:F0211
资助金额:40.00
项目类别:地区科学基金项目