搜索排序将搜索结果以相关性排序。它是信息检索的核心组成部分,直接关系到搜索结果的质量和信息利用的效率。近年来基于机器学习的排序有效提高针对大量复杂数据类型的检索质量。排序学习需要大量高质量训练数据,但获得这些训练数据非常昂贵和费时。本项目通过主动学习理论的研究,探索如何选择性标注最具信息量的训练数据,从而提高排序模型精准度和稳健性,同时有效减少学习成本。本项目在贝叶斯理论框架下,重点研究基于预期损失优化的主动学习理论。同时针对排序学习问题的特性,系统研究面向搜索排序的主动学习算法,具体包括主动学习采样算法、批处理采样策略、以及主动学习终止条件。最后结合文本检索、互联网搜索等应用,验证算法的先进性和实用性。本项目的研究成果有望提高我国主动学习理论的基础研究水平,为有效提高信息检索质量提供新的理论依据和关键技术。其研究成果也可在商务智能、国防安全、生物信息学等领域获得广泛应用。
搜索引擎是互联网用户获取信息的主要手段。随着近年来网络信息量的爆炸式增长,网络媒体的形式更加多元化,以用户为主导的内容生成模式逐渐占据主体,图像和视频等多媒体逐渐占据主流。与此同时,以微博为代表的即时信息平台的出现使得信息的传播日趋实时化和社会化。以上网路媒体的新特点对搜索系统的普适性、灵活性等提出更高的要求——要求能够快速构建针对新的信息形态和特征的搜索系统、能够搜索包括图像、视频在内的多媒体信息。针对当前搜索引擎发展的新需求,本课题综合运用机器学习、数据挖掘等技术,重点研究了搜索引擎研发中,如何在资源受限的情况下高效构建高精确度的排序模型的问题。.排序是信息检索的核心问题。排序学习通常需要大量训练样本,由人工标注获得,其成本很高。很多应用域受资源限制,训练数据集的规模难以达到排序学习的要求。结合网络搜索的实际需求,本课题研究主动排序学习算法来解决资源受限条件下的排序模型构建问题。通过主动排序学习理论研究,探索高信息量训练数据的选择性标注,从而有效减少排序学习成本。.1)提出基于不确定选样的主动排序学习理论及算法,首次将噪声注入理论与主动学习理论相结合,基于传统的正则化理论,证明该方法可有效提高模型的概化能力(generalizability)。.2)提出结合样本分布的主动排序学习理论及算法,用基于核的方法估计样本密度,并在泛化误差(generalization error)框架下,选择当前预测错误最大的样本。该方法可以有效提高模型的泛化能力。.3)提出了基于模型改变的主动回归学习方法。该方法在经典的经验风险最小化(empirical risk minimization)的框架下,利用随机梯度下降理论,选择对当前模型改变最大的样本。该方法可以更快的保证收敛到最优模型。.4)提出了批量采样主动回归学习理论和方法。基于经典的梯度下降优化理论,该方法充分考虑了样本之间的内在联系,在不重新训练模型的条件下模拟传统的单样本主动学习,可以有效的提高主动学习的性能和效率。.本项目的研究成果有望提高我国主动学习理论的基础研究水平。其研究成果也可在商务智能、国防安全、生物信息学等领域获得广泛应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
面向物联网物品搜索的排序理论和关键技术研究
子采样排序与相关熵排序的学习理论研究
半监督排序学习理论与算法研究
基于流形学习理论的图像搜索技术研究