维、哈、柯多文种信息检索技术研究

基本信息
批准号:61142004
项目类别:专项基金项目
资助金额:15.00
负责人:维尼拉·木沙江
学科分类:
依托单位:新疆大学
批准年份:2011
结题年份:2012
起止时间:2012-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:吐尔地·托合提,艾尔肯·依米尔,买日旦·吾守尔,热依玛依·买买提,买买提依明·哈斯木,不海力且木·艾沙,赵丽红,薛中奇
关键词:
多文种柯文检索引擎语言模型
结项摘要

新疆少数民族语言多文种信息资源十分丰富、源远流长,随着多文种信息电子化和网络化迅速发展,少数民族文网站层出不穷,网上信息急剧增长。随之而来的问题是由于缺乏好的搜索引擎,快速、准确、全面、方便地搜索并获取有用的多文种网络信息是信息时代的要求,是面临的一个急待解决的重要问题。目前国内外的众多研究者已对信息检索技术展开了深入研究,提出了很多算法,但还没针对新疆多民族语言信息搜索技术展开任何系统地研究工作。本项目拟以语言模型为框架,以实现维、哈、柯文搜索引擎主要部件为目标,应用概率统计、数据挖掘、网络爬行、计算语言学等理论与技术,针对少数民族语言特点系统地研究维、哈、柯文词干析取、信息检索模型、检索结果排名模型和构建维、哈、柯文关联词典的构建等进行研究,解决实现高效、高性能维、哈、柯文搜索引擎的关键技术,实现维、哈、柯文搜索引擎原型。

项目摘要

以通用爬虫技术建立了维、哈、柯文Web信息获取平台,统计现有国内维、哈、柯文网站,建立了爬虫地址库,收集了大量Web实验数据。较深入的研究基于标签树的网页主题信息抽取方法,并利用基于Microsoft .Net 框架的标签树构造工具TidyNet开源工具来建立网页集的标签树,实现标签树元集的统计筛选算法,有效提取维、哈、柯文网页正文内容信息。针对网络文本的三种维吾尔文非Unicode或非标准Unicode编码情况,建立了字符编码转换规则表,并实现了基于规则的维吾尔文字符编码方法。针对维吾尔文传统分词方法的缺陷和不足,研究并实现了基于频繁模式挖掘的维吾尔文智能组词方法,与维吾尔文传统分词(以空格作为自然分隔符进行分词)完全不同的方法从文本中提取出语义完整而独立的语言单元(多词关联模式),并以这种关联模式来结构化表示文本。为了避免硬盘读写而加速搜索,我们将内存Hash作为数据结构,在内存建立倒排索引;为了避免内存臃肿问题的出现,我们提出一种基于语言模型的分词方法来大大缩小词汇表规模,从而不仅达到了压缩索引的目的,而在一定程度上解决了歧义问题,明显提高了查准率。查询排序方面,我们在传统TFIDF的基础上,用检索词的位置加权系数对权值进行调整,综合考虑检索词权重、检索词在文档中的位置、相互距离、顺序以及维吾尔文单词相似度等因素的贡献,进行了用户查询与Web文档相似度度量,明显提高了搜索引擎对查询结果的排序能力。对于双数组Trie树(Double-Array Trie)算法在构造方面提出了一种优化策略,即在用Trie树构造数组的时候,优先处理分支结点数更多的结点。基于该优化算法实现了一个维吾尔文词典管理程序,与利用其他索引机制的词典对比,利用优化的双数组Trie 树(Double-Array Trie)算法的词典不仅在查询速度上优于用其他索引机制的词典,而且存储数据的空间占用也比较小。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

维尼拉·木沙江的其他基金

批准号:61262063
批准年份:2012
资助金额:46.00
项目类别:地区科学基金项目

相似国自然基金

1

维、哈、柯跨语言内容过滤关键技术研究

批准号:61262062
批准年份:2012
负责人:吐尔地·托合提
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
2

基于LINUX的新疆维哈柯汉英多语种信息处理平台

批准号:60163001
批准年份:2001
负责人:吾守尔·斯拉木
学科分类:F0211
资助金额:17.00
项目类别:地区科学基金项目
3

新疆维、哈、柯文印刷字符识别研究

批准号:60473137
批准年份:2004
负责人:哈力木拉提
学科分类:F0211
资助金额:23.00
项目类别:面上项目
4

问答式信息检索中信息抽取技术研究

批准号:60803086
批准年份:2008
负责人:杜永萍
学科分类:F0211
资助金额:18.00
项目类别:青年科学基金项目