双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,本项目对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。项目主要研究汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术。主要成果是藏文编码的自动识别与转换技术,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立面向汉藏机器翻译的大规模汉藏双语对齐语料库。
双语语料库建设及其自动对齐研究对计算语言学的发展具有重要的意义。目前国内外已建立了各类汉英双语语料库以及服务于汉英机器翻译的双语对齐语料库和短语库。为了少数民族语言的机器翻译的研究从一开始就从较高起点起步,本项目对汉藏双语文本的篇章级、段落级、句子级自动对齐技术进行研究,为开发和研究汉藏机器翻译奠定基础。项目主要研究内容包括:汉藏双语语料库对齐、汉藏双语词典抽取、双语语料的收集、整理、存储以及检索等关键技术的研究。主要成果有:藏文语料库排版符号、藏文语料库不需要的符号和一些乱码的自动过滤软件的设计与实现、藏文编码的自动识别与转换,藏语语料库构建技术、汉藏双语词典抽取技术、汉藏平行语料库句子和词语对齐技术,并建立了30万句对的面向汉藏机器翻译的大规模汉藏双语语料库和40万词级的汉藏对照词典和13亿字级的藏语单语语料库。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移
混凝土SHPB试验技术研究进展
基于直觉模糊二元语义交互式群决策的技术创新项目选择
区块链技术:从数据智能到知识自动化
面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究
基于融合策略的汉藏(藏汉)机器翻译关键技术研究
汉越双语事件语料库构建及舆情观点挖掘方法研究
柬埔寨语命名实体识别及汉柬双语可比语料库构建方法研究