信息熵(ENTROPY)用于度量某事件的不确定性,自1865年引入信息论以来,为信息的计量、传递 、变换、存储提供了理论依据。美国的信息产业能有称雄世界的实力,跟坚实信息熵的基础建设分不开。早在70年代冯志伟先生等人经过10余年的辛勤工作完成了汉文信息熵的研究,在中文信息处理领域做出了巨大的贡献。虽然藏文信息处理起步较晚,但在国家各部委的大力支持下取得了很多成果,语料库规模日趋增大,为藏文信息熵研究奠定了坚实的基础,也使藏文信息熵的研究变为可能。为全面准确地研究藏文字符信息熵,本项目拟解决以下四个方面的问题:一是收集、整理和统一藏语语料,并制订藏语语料库建设规范;二是研究藏文字构件分解问题;三是在项目组现有的基于规则和词典的藏文分词系统基础上,研究基于统计的藏文分词技术,开发基于词典和统计相结合的藏文分词系统;四是藏文字、构件和词的频度统计,分别建立频度表,并计算藏文字符的信息熵和多余度。
信息熵用于度量某事件的不确定性,为信息的计量、传递 、变换、存储提供了理论依据。本项目属于计算机应用技术中的少数民族语言文字信息处理技术领域,特别地属于藏语言文字信息处理技术,主要研究四方面的内容:一是研究藏语语料库建设技术;二是研究藏文字构件分解问题;三是研究基于统计的藏文分词技术,开发基于规则和统计相结合的藏文分词系统;四是研究藏文字、构件和词的频度统计技术,建立藏文字、构件和词的分布统计表,并计算藏文字符的信息熵。 在课题组全体成员的共同努力,取得了一系列的研究成果:. (1) 开发了《多种藏文编码自动识别与转换系统》、《现代藏文字拼读查检系统》、《可视化藏汉词对齐编辑系统》和《藏语分句系统》等语料库构建工具,制订了藏语语料库建设规范,建立了大型规范藏语语料库。. (2) 按现代藏文文法规则研究了藏文字构件分解问题,通过建立现代藏文字构件分解库,设计了构件分解算法,开发了《现代藏文字构件分解系统》。. (3) 课题组基于原有的规则分词技术的基础上研究了基于统计的藏文分词技术,开发了基于规则和统计相结合的《藏文文本自动分词系统》,对开放语料的切分准确率提高了2%。. (4) 通过研究藏文字、构件和词频度统计技术,设计了现代藏文字属性分析模型和算法,开发了《藏文字属性分析系统》和《藏文词频度统计系统》,在大规模藏语语料库上总结藏文字、构件和词的分布规律,建立了藏文字、构件和词分布统计表,并计算了藏文字、构件和词的信息熵。. (5) 登记软件著作权3项;发表学术论文27篇,撰写博士学位论文2篇、硕士学位论文7篇;申请国家发明专利1项;获批并完成青海省科技应用计划项目4项,参加学术会议59人次。
{{i.achievement_title}}
数据更新时间:2023-05-31
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
环境信息披露会影响分析师盈余预测吗?
国际比较视野下我国开放政府数据的现状、问题与对策
水文水力学模型及其在洪水风险分析中的应用
基于体素化图卷积网络的三维点云目标检测方法
藏文字符排序研究
脱机手写藏文字符识别研究
藏文Web信息的社会网络动态演化机理研究
基于物理熵和信息熵的通信研究