基于多种双语平行语料相互关联分析的中轴语言统计翻译知识获取研究

基本信息
批准号:61100093
项目类别:青年科学基金项目
资助金额:21.00
负责人:朱聪慧
学科分类:
依托单位:哈尔滨工业大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:赵铁军,徐冰,陈晨,侯铭,何小春,孙振龙,吴建伟,王蟒,刘春艳
关键词:
中轴语言组合知识融合统计机器翻译最优路径翻译知识获取
结项摘要

针对传统统计机器翻译模型大都是在一个的平行语料库上独立进行翻译知识获取的不足,本项目尝试利用不同双语平行语料库之间的关联,挖掘多个语料库整体组合中所蕴含的翻译知识。我们将经由中轴语言的翻译知识传递累积过程形式化为相应稀疏矩阵操作,提出了基于线性结构的多级中轴语言短语翻译知识获取模型,利用一系列双语平行语料之间所蕴含翻译知识的线性传递,使得原本不存在充足训练数据的两种语言可以通过多种中轴语言的线性组合构建翻译系统。并且,利用扩展矩阵中非0元素比例的方法,对源语言-目标语言之间存在的多条翻译路径和多种翻译资源所能提取的翻译知识进行了融合,促使统计机器翻译在解码过程中利用尽可能多的翻译资源。我们希望通过相关问题的研究和解决,即能借鉴数学和人工智能等学科的成熟知识累积来进一步夯实统计机器翻译的理论基础,又能降低其所需的翻译资源壁垒,提升统计机器翻译的翻译性能为社会大众提供更加有效的服务

项目摘要

近年来,统计方法已成为机器翻译研究领域的主流方法。由于统计机器翻译能够以较小的代价有效地缓解传统翻译方法中所面临的知识获取瓶颈问题,实现任意语言对之间的互译,它不仅在学术界受到越来越多的关注,同时开始逐步走向实用化。尽管如此,统计机器翻译仍远未发展成熟。这主要因为统计机器翻译是数据驱动的,翻译结果的好坏很大程度上取决于所使用平行语料的规模和质量。对于常见的语言对(例如中文-英文),我们可以通过互联网获取大规模的中英双语平行语料用以训练中英翻译模型。但是对于大多数语言对(例如中文-泰文),仅存在少量双语平行语料,并不足以构建高质量翻译模型。为解决此问题,我们引入了枢轴语言翻译方法,构建了多条连接同一源语言和目标语言对的翻译路径,并将这些翻译知识尽可能多地整合起来,最大程度提高翻译质量。.我们首先自己标注的5万句以奥运会为相关主题的中-英-日三语平行语料,并对翻译知识抽取和融合过程中的关键问题开展了研究:.通过将源语言-枢轴语和枢轴语-目标语言两个概率空间融合的方法,估计了更加准确的短语翻译概率估计.通过引入随机游走方法,对翻译知识的生成路径加以扩展,获得了覆盖范围更加全面的翻译知识。.通过引入非参数贝叶斯过程对短语翻译概率的计算过程进行建模;然后使用层次Pitman-Yor 过程对翻译知识进行融合,为解码器尽可能提供更加丰富的翻译知识。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
2

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

朱聪慧的其他基金

相似国自然基金

1

利用双语语料库获取翻译知识的研究

批准号:69672027
批准年份:1996
负责人:周明
学科分类:F0113
资助金额:10.00
项目类别:面上项目
2

基于Web的大规模双语语料库挖掘及翻译知识自动获取

批准号:60603095
批准年份:2006
负责人:吕雅娟
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
3

基于语言知识库的统计翻译模型研究

批准号:60203007
批准年份:2002
负责人:孙乐
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

老挝语词法分析及老-汉双语平行语料抽取方法研究

批准号:61662040
批准年份:2016
负责人:周兰江
学科分类:F0211
资助金额:39.00
项目类别:地区科学基金项目