The function of query correction is to find the query with errors and correct it automatically. It ensures the quality of search engine and satisfies the information needs of users. The core task of query correction is the error correcting optimization for the query string. The multi-view feature learning method, including features mining, infusion and evolution, is performed to solve this optimization problem. Our project mainly researches the query correction by the multi-resource feature learning method and its application.⑴We propose to acquire the error-correcting features by the multi-angles, such as the user behavior, linguistics and mathematics model, etc. According to the information structure of those features, the correspondent algorithms are developed. ⑵The multi-kernel learning is proposed to fuse those isomerism features. Distributions and weights of the features are concerned for effectively integrating those multi-resource features. The kernel method is developed for solving the feature fusion problem. ⑶The evolution of multi-resource feature includes the training resource evolution and feature types evolution. ⑷Finally the core technologies and algorithms are built for the multi-resource feature learning method, and their training and test resources are also constructed. A set of software system with evolution function is developed for Chinese query error correction.
查询纠错旨在帮助搜索引擎自动发现用户输入的错误查询串并转换或提示合理的查询串,保证搜索引擎的检索质量,更好地满足用户信息需求。查询纠错的核心任务是纠错串优化,本项目以多源纠错特征学习为切入点,通过多源特征的挖掘、融合与演化方法来解决纠错串优化问题,并构建以多源特征学习为核心的中文查询纠错模型。具体包括:⑴在多源特征挖掘中提出从用户行为、语言学、数学模型等多角度来深度挖掘纠错特征,并依据每种特征的信息结构探索多源特征挖掘算法;⑵在多源特征融合中提出多核学习方法,考察每种特征的分布情况、特征之间权值分配,探索一种适于多源特征融合的核函数方法,实现高效整合异构的纠错特征;⑶在多源特征演化中提出从训练资源演化与特征类型演化两方面实现特征演化。⑷在此基础上,开展查询纠错算法体系与模型研究,并组织适合这些算法训练和测试的资源,最终构建具有动态演化机制的中文查询纠错模型。
据统计大约有10%-15%的查询文本中都存在着不同程度的错误,提高搜索引擎查询准确率,使用户能够更快的找到自己想要的信息是一项重要的工作。本项目研究自动纠错相关技术,主要贡献有两方面:纠错模型创新、纠错语料库自动生成方法,并将研究成果推广至搜索引擎与文本校对等相关领域。.首先提出了基于深度学习的纠错模型。主要使用基于attention机制的Seq2Seq模型,并融合了无标注语料上训练的神经网络语言模型。基于字符可以有效的处理英文、中文等不同的语言,端到端的模型可以对不同的错误类型进行统一建模有效改善了传统方法的缺陷。在模型这块也引入了Transformer 注意力机制,添加高斯分布的偏置矩阵,用于提高模型对局部文本的关注程度以及加强对错误文本中错误字词和周边文字的信息提取。另外使用ON_LSTM 模型对错误文本表现出的特殊语法结构特征进行语法信息提取。针对分词引入错误问题,提出一种基于深度学习的序列标注模型BLSTM-CRF,无需进行人工干预,节省了人力成本,并采用字粒度的特征免去了分词引入的噪音。.第二,提出纠错语料库的自动生成方法。针对中文查询纠错领域,标注数据的严重不足,提出了一种基于规则和自动语音识别相结合的训练语料自动生成方法。根据用户输入习惯与发音特点,模拟出用户的输入错误,同时也通过统计和深度学习方法,生成了更广泛的错误类别。同时研究了基于输入法自动生成中文拼写校对语料库,基于sequence to sequence(seq2seq)模型和基于规则的方法自动生成语法校对语料库。语言模型可以有效提升纠错模型的效果,生成更广泛的错误类别,提高了训练数据的质量,对模型的泛化性能也有提升。.围绕查询纠错系列问题,发表学术论文20余篇,包括ACM Transactions on Asian and Low-Resource Language Information Processing、IEICE Transactions on Information and Systems等SCI期刊论文、《北京大学学报》、《小型微型计算机系统》等中文核心期刊以及NLPCC,IALP等自然语言会议;开发纠错系统取得国家计算机软件著作权登记证书2项;申请发明专利2项;2名教师晋升高一级职称;培养硕士研究生20余名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
基于空间特征学习的多源高程数据融合方法
多源、异构的XML流查询处理方法
基于学习排序模型的中文智能提问方法研究
基于多样化查询的多标记主动学习研究