With the fast growth of the World Wide Web, the search engine has become an essential tool for people to get information efficiently and effectively, the central of which is ranking. Recently, learning to rank techniques have been extensively applied to search engine, and gain great success in bussiness. At the same time, it promotes the progress of research on learning to rank, which has gain great attention from research communities. The essence of learning to rank is to represent a user's evaluation to the ordering of documents satisfying user's information need for a given query. However, the learning to rank algorithm, labeling method and goal is not consistency with evaluation measure from user's information need perspective, which make learning to rank a challenging problem in real application. In face of the above challenges, we will study the statistical consistency of ranking algorithms in terms of IR evaluation measures to design new learning to rank algorithms taking position information into consideration, the labeling strategy based on pairwise relative preference to biuld relative labeling method, and the learning to rank framework with graphical model to biuld a new learning to rank frmework which merges the goal of relevance and diversity together. We adopt web search as the application in this project and the research will help build algorithms more accordance to user evaluation measure and promote more effective and comprehensive useful of learning to rank technologies in web search applications.
随着互联网信息的快速增长,搜索引擎成为辅助用户获取信息的重要手段,其核心是排序。近年,排序学习技术被大规模应用到搜索引擎,取得了巨大的商业成功,同时推动了排序学习学科的发展,使其成为学术界广泛关注的热点研究问题。排序学习的根本是反映用户对于给定查询下文档满足其信息需求的顺序关系的评价。然而,无论是排序学习的算法,训练数据所依赖的标注方式,还是排序学习的目标,均与用户评价准则不一致,这成为排序学习面临的最大挑战。针对上述挑战,本课题拟以互联网搜索为应用场景,研究基于评价准则的排序学习算法的统计一致性以指导建立融合位置信息的排序学习算法,研究基于点对间偏好关系的标注策略以指导建立基于相对相关度的标注方式,研究基于概率图模型的排序学习框架以指导建立融合相关性和多样性目标的排序学习框架。本课题的研究,能够帮助建立更符合用户评价准则的排序学习模型,推动排序学习技术在互联网中更为广泛有效的使用。
本课题以互联网搜索和挖掘为应用场景,以用户评价准则为基本出发点,展开了建立符合用户相关度评价准则的排序学习算法,标注策略和融合相关度与多样性的符合用户评价准则的排序学习框架三方面的研究内容。经过三年的研究,本课题共发表论文31篇,其中包括CCF A类论文14篇。取得了如下重要结果:1)证明了在序可分的概率空间假设下,加权的点对型和列表型排序学习算法关于NDCG等用户评价准则是统计一致的,同时在实验上也显著的提升了算法性能。相关论文发表于NIPS2012(CCF A类)和UAI2014(CCF B类),该结果对于排序学习算法的统计一致性难题给了一个圆满的回答。2)提出了随机化评价准则的直接优化排序学习算法,解决了位置的不可靠性问题,在众包场景下的排序融合问题上取得了良好的实验效果。相关论文发表于UAI2013(CCF B类)和WSDM(CCF B类),该结果完善了直接优化评价准则的排序学习算法框架,提升了其稳健性。3)提出了Top-k的标注策略,并从实验和理论两方面证明了其必要性及充分性,即使用Top-k标注策略能够有效降低用户的标注代价,标注结果更可靠,相应算法也能得到更接近评价指标下最优的近似解。相关论文发表于CIKM2013(CCF B类),SIGIR2014(CCF A类)和Information Retrieval Journal(CCF B类),该结果创新性的解决了传统标注不可靠,代价高的难题,提供了排序学习的新框架。4)提出了关系排序学习的框架,有效利用相关性与多样性的特征,在多样性搜索和多文档摘要等实际应用中取得了良好的实验效果。相关论文发表于ICDM2013(CCF B类),SIGIR2014(CCF A类)和SIGIR2015(CCF A类)。该结果突破了文档独立同分布假设,克服了传统排序学习框架无法刻画多样性等文档间关系的问题。如上进展解决了排序学习算法的统计一致性问题,如何降低点对间偏好关系的标注方法复杂度的问题,和融合相关度和多样性目标的排序学习建模这三个关键科学问题。完善了排序学习学科的发展,并推动了排序学习技术在互联网中更为有效的使用。在人才培养方面,课题负责人兰艳艳在资助项目期间获得了中国科学院计算技术研究所副研究员,“钱伟长中文信息处理科学技术奖”一等奖。本课题还培养了4名博士生和3名硕士生,其中牛树梓和晏小辉曾获得国家奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于铁路客流分配的旅客列车开行方案调整方法
具有随机多跳时变时延的多航天器协同编队姿态一致性
现代优化理论与应用
基于SSR 的西南地区野生菰资源 遗传多样性及遗传结构分析
基于小波高阶统计量的数字图像来源取证方法
子采样排序与相关熵排序的学习理论研究
半监督排序学习理论与算法研究
面向移动终端的基于用户点击与深度神经网络的图像排序算法研究
不平衡数据学习中学习目标与评价准则的研究