面向搜索排序的主动学习理论

基本信息

批准号：61003107

项目类别：青年科学基金项目

资助金额：22.00

负责人：张娅

学科分类：

依托单位：上海交通大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：张瑞,陆福相,陈晓琳,龚敏彦,文野,沈珂轶,赵婧

关键词：

信息检索主动学习搜索排序机器学习

结项摘要

搜索排序将搜索结果以相关性排序。它是信息检索的核心组成部分，直接关系到搜索结果的质量和信息利用的效率。近年来基于机器学习的排序有效提高针对大量复杂数据类型的检索质量。排序学习需要大量高质量训练数据，但获得这些训练数据非常昂贵和费时。本项目通过主动学习理论的研究，探索如何选择性标注最具信息量的训练数据，从而提高排序模型精准度和稳健性，同时有效减少学习成本。本项目在贝叶斯理论框架下，重点研究基于预期损失优化的主动学习理论。同时针对排序学习问题的特性，系统研究面向搜索排序的主动学习算法，具体包括主动学习采样算法、批处理采样策略、以及主动学习终止条件。最后结合文本检索、互联网搜索等应用，验证算法的先进性和实用性。本项目的研究成果有望提高我国主动学习理论的基础研究水平，为有效提高信息检索质量提供新的理论依据和关键技术。其研究成果也可在商务智能、国防安全、生物信息学等领域获得广泛应用。

项目摘要

搜索引擎是互联网用户获取信息的主要手段。随着近年来网络信息量的爆炸式增长，网络媒体的形式更加多元化，以用户为主导的内容生成模式逐渐占据主体，图像和视频等多媒体逐渐占据主流。与此同时，以微博为代表的即时信息平台的出现使得信息的传播日趋实时化和社会化。以上网路媒体的新特点对搜索系统的普适性、灵活性等提出更高的要求——要求能够快速构建针对新的信息形态和特征的搜索系统、能够搜索包括图像、视频在内的多媒体信息。针对当前搜索引擎发展的新需求，本课题综合运用机器学习、数据挖掘等技术，重点研究了搜索引擎研发中，如何在资源受限的情况下高效构建高精确度的排序模型的问题。.排序是信息检索的核心问题。排序学习通常需要大量训练样本，由人工标注获得，其成本很高。很多应用域受资源限制，训练数据集的规模难以达到排序学习的要求。结合网络搜索的实际需求，本课题研究主动排序学习算法来解决资源受限条件下的排序模型构建问题。通过主动排序学习理论研究，探索高信息量训练数据的选择性标注，从而有效减少排序学习成本。.1）提出基于不确定选样的主动排序学习理论及算法，首次将噪声注入理论与主动学习理论相结合，基于传统的正则化理论，证明该方法可有效提高模型的概化能力（generalizability）。.2）提出结合样本分布的主动排序学习理论及算法，用基于核的方法估计样本密度，并在泛化误差（generalization error）框架下，选择当前预测错误最大的样本。该方法可以有效提高模型的泛化能力。.3）提出了基于模型改变的主动回归学习方法。该方法在经典的经验风险最小化（empirical risk minimization）的框架下，利用随机梯度下降理论，选择对当前模型改变最大的样本。该方法可以更快的保证收敛到最优模型。.4）提出了批量采样主动回归学习理论和方法。基于经典的梯度下降优化理论，该方法充分考虑了样本之间的内在联系，在不重新训练模型的条件下模拟传统的单样本主动学习，可以有效的提高主动学习的性能和效率。.本项目的研究成果有望提高我国主动学习理论的基础研究水平。其研究成果也可在商务智能、国防安全、生物信息学等领域获得广泛应用。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：

发表时间：

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

张娅的其他基金

批准号：30800626

批准年份：2008

资助金额：20.00

项目类别：青年科学基金项目

批准号：11301507

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

批准号：21307104

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：81202845

批准年份：2012

资助金额：23.00

项目类别：青年科学基金项目

相似国自然基金

面向物联网物品搜索的排序理论和关键技术研究

批准号：61802343

批准年份：2018

负责人：陈垣毅

学科分类：F0208

资助金额：25.00

项目类别：青年科学基金项目

子采样排序与相关熵排序的学习理论研究

批准号：11671161

批准年份：2016

负责人：陈洪

学科分类：A0602

资助金额：48.00

项目类别：面上项目

半监督排序学习理论与算法研究

批准号：61003045

批准年份：2010

负责人：潘炎

学科分类：F0202

资助金额：20.00

项目类别：青年科学基金项目

基于流形学习理论的图像搜索技术研究

批准号：60875044

批准年份：2008

负责人：何晓飞

学科分类：F0601

资助金额：35.00

项目类别：面上项目

面向搜索排序的主动学习理论

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

信息熵-保真度联合度量函数的单幅图像去雾方法

张娅的其他基金

表观遗传修饰调控拟南芥开花途径的分子机制研究

电磁场特征值问题的间断 Galerkin 算法研究

三维铁磁性石墨烯基纳米吸附材料的制备及应用研究

解郁安神法调节失眠模型大鼠睡眠时相及中缝核5-HT信号通路的机制研究

相似国自然基金