语料库统计方法是支持下一代网络自然语言处理功能的关键技术,但这一方法有许多基础性问题尚无深入研究,以致相关应用系统的性能提高受到很大局限,其中尤以数据稀疏问题为甚。缓解数据稀疏问题的平滑方法中,常用的插值方法不适合估计低频词预测问题,阶次回退法存在本质的矛盾,词类平滑方法过于粗糙。本课题深入分析了语料库统计方法的需求和汉语的实际,创性地利用词语相似关系进行平滑,并采用线性邻接属性计算相似度,需要研究相似度计算、同形异质词认定与排歧以及利用相似度的平滑算法。这些方法将集成到本项目组已经取得的关于线性文法的成果中去,改善语料库统计方法的性能,支持下一代网络的文本信息处理功能。
{{i.achievement_title}}
数据更新时间:2023-05-31
智能煤矿建设路线与工程实践
基于暂态波形相关性的配电网故障定位方法
WMTL-代数中的蕴涵滤子及其应用
相关系数SVD增强随机共振的单向阀故障诊断
基于PROSAIL模型和多角度遥感数据的森林叶面积指数反演
中文词语信息结构关系的自动辨识
汉语词语接续关系的柔性系统及其应用研究
基于非完全相似和相关关系的框架节点性能研究
基于国际编码标准的藏文词语排序算法研究