文本分类是文本挖掘的关键性和基础性问题之一。日益加快的全球一体化进程对跨语言的文本分类技术提出了迫切的需求。虽然目前研究者们已经进行了大量的文本分类相关研究工作,但是针对的跨语言文本分类问题的研究比较匮乏,限制了跨文本挖掘的发展和应用。本项目将针对多语言环境下跨语言文本分类的关键问题进行深入研究。具体研究内容包括:(1)基于特征概念的文本表示方法和特征概念的提取方法;(2)跨语言的文本相似度计算方法和类别判定方法;(3)中英跨语言分类测试语料集合的建立,实现原型系统,对算法进行评价和改进。通过本项目的研究,不仅能突破跨语言文本分类的难题,还可为跨语言的信息检索和文本挖掘提供有效的基础算法,使更大范围和更深层次的跨语言应用成为可能。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
多源数据驱动CNN-GRU模型的公交客流量分类预测
环境信息披露会影响分析师盈余预测吗?
基于关系对齐的汉语虚词抽象语义表示与分析
中文文本自动分类关键技术研究
面向英汉双向跨语言图像检索的文本分析关键技术研究
跨语言文本复制检测研究
跨语言敏感事件抽取关键技术研究