基于可比语料的多语言文本聚类研究

基本信息
批准号:70903032
项目类别:青年科学基金项目
资助金额:19.00
负责人:章成志
学科分类:
依托单位:南京理工大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:颜端武,薛春香,刘明岩,许应楠,王雪芬
关键词:
主题提取多语言信息资源多语言文本聚类可比语料跨语言文本相似度
结项摘要

随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,拟以申请者已开发的主题聚类原型系统为基础,进行如下三方面研究:1.结合短语分析和机器学习,提取多语言文本主题;2.生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;3.在上述基础上,以平行语料为约束实现多语言文本聚类。本项目难点是紧扣多语言文本聚类需求,有效解决以上问题,核心问题是基于可比语料的跨语言语言文本主题间相似度计算。本项目旨在探寻提高多语言文本聚类性能的方法,有效解决多语言文本聚类问题。

项目摘要

随着全球一体化进程加快、多语言信息资源激增,针对多语言文本聚类的研究尤为迫切。当前多语言文本聚类方法主要依赖于双语词典、多语主题词表或平行语料,由于这些资源获取成本高、常与聚类文本所属领域不兼容,限制了多语言文本聚类的发展,需要探索有效的多语言文本聚类方法。鉴于可比语料易获取、易与领域兼容,且多语言相似词在可比语料上有相似语境分布,本项目将可比语料用于多语言文本聚类,以申请者已开发的主题聚类原型系统为基础,进行如下几个方面的研究。.1. 结合短语分析和机器学习,提取多语言文本主题; .2. 生成可比语料,用可比语料计算跨语言文本主题间相似度,进而计算跨语言文本间相似度;.3. 在上述基础上,以平行语料为约束实现多语言文本聚类。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

EBPR工艺运行效果的主要影响因素及研究现状

EBPR工艺运行效果的主要影响因素及研究现状

DOI:10.16796/j.cnki.1000-3770.2022.03.003
发表时间:2022
2

基于铁路客流分配的旅客列车开行方案调整方法

基于铁路客流分配的旅客列车开行方案调整方法

DOI:
发表时间:2021
3

信息熵-保真度联合度量函数的单幅图像去雾方法

信息熵-保真度联合度量函数的单幅图像去雾方法

DOI:10.3724/SP.J.1089.2019.17435
发表时间:2019
4

基于暂态波形相关性的配电网故障定位方法

基于暂态波形相关性的配电网故障定位方法

DOI:10.7500/aeps20191122006
发表时间:2020
5

骨外器官来源外泌体对骨骼调控作用的研究进展

骨外器官来源外泌体对骨骼调控作用的研究进展

DOI:10.13376/j.cbls/2021092
发表时间:2021

章成志的其他基金

相似国自然基金

1

基于谱聚类的文本聚类集成方法研究

批准号:60975042
批准年份:2009
负责人:卢志茂
学科分类:F0603
资助金额:32.00
项目类别:面上项目
2

基于图论模型的文本重叠聚类研究

批准号:61202312
批准年份:2012
负责人:吴秦
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
3

高性能基于主题的文本聚类研究

批准号:60703058
批准年份:2007
负责人:赵颖
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目
4

基于语义的中文文本聚类研究

批准号:60772081
批准年份:2007
负责人:施水才
学科分类:F0113
资助金额:30.00
项目类别:面上项目