中文文献自动分类系统是一个智能软件系统。我们采用语料库和人工智能相结合的方法。首先抓住中文文本自动分词中的岐义切分和专有名词识别的研究。建立了岐义字段库,近8万条。填补了国内空白。在国内,首次使用了中国姓氏和中国地名用字使用度,采用基于统计信息和基于词汇/词性规则的算法,使自动分词的正确率达到96%左右,达到了实用化要求。其次,我们提出了一种基于词的三维加权自动分类方法。该方法基于《中国档案分类法》的分类体系,在对文本的归类判定中,考虑了类别词的频度、出现位置和专指度等因素,并辅以规则进行控制和调整。开发了“金融档案自动分类系统”和“财政公文自动分类系统”,分类正确率达到85%,正在向实用化过渡。
{{i.achievement_title}}
数据更新时间:2023-05-31
四川盆地东部垫江盐盆三叠系海相钾盐成钾有利区圈定:地球物理和地球化学方法综合应用
黄曲霉毒素B1检测与脱毒方法最新研究进展
油源断裂输导和遮挡配置油气成藏有利部位预测方法及其应用
油源断裂活动期输导油气有利部位预测方法的改进
基于水安全目标的城市绿地水体设计方法研究——以第二届河北省园林博览会(秦皇岛)园区为例
中文文本自动分类关键技术研究
基于多样化特征表达的生物文献自动分类研究
中文自动口语摘要技术研究
中文新闻广播故事自动分割技术研究