基于三元组可比语料库的语言自动剖析技术应用研究

基本信息

批准号：61172102

项目类别：面上项目

资助金额：63.00

负责人：肖健

学科分类：

依托单位：中国电子信息产业发展研究院

批准年份：2011

结题年份：2015

起止时间：2012-01-01 - 2015-12-31

项目状态：已结题

项目参与者：PaulRayson,宋金平,袁琦,万缨,朱姝,张雯雯,覃和平

关键词：

语义多词表达三元组可比语料库语言自动剖析

结项摘要

由于受到翻译腔的影响，中英平行语料库存在固有的扭斜的语言模型。显然，用这样的语料库训练的机器翻译、跨语言检索等自然语言处理系统也承袭了扭斜的语言模型，严重影响到系统的性能。本项目的目标是，采用可比语料库和语言自动剖析技术，使用统计、规则和语义相结合的方法，对由本族英语、中式英语和标准中文三元素所组成的三元组可比语料库进行统计分析研究；在此基础上，利用n-元词串、关键词簇和语义多词表达等自动抽取技术挖掘本族语言模型，实现改进和发展机器翻译等自然语言处理应用。利用带有本族英语专家修订标记的大规模翻译文本库，通过比较分析工具构建满足可比语料库取样框架要求的三元组可比语料库是本项目的特色。利用本项目算法提取的本族语言模型，将通过我院现有机器翻译系统的运行，测试和评估项目成果的有效性和实用性。项目前期，我院与英国Lancaster大学关于三元组可比语料库自动剖析的示范研究成果为本项目实施奠定了基础。

项目摘要

本项目试图通过构建包括本族英语在内的三元组可比语料库，挖掘本族语言模型，克服中英平行语料库固有的扭斜的语言模型，实现改进机器翻译等自然语言处理应用系统的目的。本项目的研究内容包括三元组可比语料库建设、关键词簇自动剖析、翻译模板和语义多词表达（SMWEs）自动提取4个部分。本项目取得的重要结果是通过实验研究和理论分析，证实了建造三元组可比语料库，挖掘本族语言模型，改进和发展机器翻译等自然语言处理应用的研究方法的可行性。特别是，本项目采用的关键词簇方法，从三元组可比语料库中挖掘的基于本族语言模型的多词表达和翻译模版显著改进了机器翻译译文质量。本项目取得的另一个重要结果是证实了由于语义和统计方法的互补性，通过组合这两种方法可以显著提高提取的多词表达的覆盖面。与单独的统计和语义方法相比，覆盖率分别提高了113.77%和57.18%。在机器翻译系统中加入从三元组可比语料库中挖掘的基于本族语言模型的双语资源后，汉英、英汉翻译系统的BLEU值分别提高了9% 和13%。本项目的科学意义在于率先在国内提出建造三元组可比语料库，挖掘本族语言模型，改进和发展机器翻译等自然语言处理应用的研究方法，以及采用语义和统计相结合的方法发展多词表达提取技术。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

肖健的其他基金

批准号：81260463

批准年份：2012

资助金额：48.00

项目类别：地区科学基金项目

批准号：81372112

批准年份：2013

资助金额：70.00

项目类别：面上项目

批准号：81860780

批准年份：2018

资助金额：37.00

项目类别：地区科学基金项目

批准号：11801571

批准年份：2018

资助金额：22.00

项目类别：青年科学基金项目

批准号：81200181

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

批准号：81572237

批准年份：2015

资助金额：51.00

项目类别：面上项目

批准号：U1731125

批准年份：2017

资助金额：46.00

项目类别：联合基金项目

批准号：30901819

批准年份：2009

资助金额：18.00

项目类别：青年科学基金项目

批准号：31600268

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

相似国自然基金

中英可比语料库与体育术语自动抽取的探索性研究

批准号：60572132

批准年份：2005

负责人：孙广范

学科分类：F0113

资助金额：22.00

项目类别：面上项目

可比语料库质量量化与提升方法研究

批准号：61300144

批准年份：2013

负责人：李波

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

基于可比语料的多语言文本聚类研究

批准号：70903032

批准年份：2009

负责人：章成志

学科分类：G0414

资助金额：19.00

项目类别：青年科学基金项目

基于跨语言主题向量的双语篇章可比度量化研究

批准号：61806187

批准年份：2018

负责人：朱泽德

学科分类：F0606

资助金额：23.00

项目类别：青年科学基金项目

基于三元组可比语料库的语言自动剖析技术应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

结直肠癌免疫治疗的多模态影像及分子影像评估

肖健的其他基金

HIV-1感染者CD8+T细胞PD-1表达对TCR-CD3信号通路磷酸化水平的影响

新型生物材料团聚体释放NGF和FGF-2对糖尿病神经病变的神经血管作用的研究

复方扶芳藤合剂对小鼠单个核细胞亚群活化与分化的影响研究

微生物组大数据研究中辅助信息协助的高维模型变量选择

mTOR-自噬参与特定miRNA介导的硫化氢心肌保护作用的研究

新型包裹嗅鞘细胞的bFGF-HP温控型水凝胶提高脊髓损伤治疗作用研究

FAST高性能Pipeline关键技术研究

激活内质网应激逆转非小细胞肺癌化疗耐药及其靶点药物B19机理研究

基于表观遗传修饰策略调控烟色拟盘多毛孢菌中石竹烯型倍半萜结构多样性及抗植物病原真菌活性

相似国自然基金