子采样排序与相关熵排序的学习理论研究

基本信息
批准号:11671161
项目类别:面上项目
资助金额:48.00
负责人:陈洪
学科分类:
依托单位:华中农业大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:邓小炎,潘志斌,熊慧娟,杨文宇,宋必芹,刘绍轩,袁佩佩,沈世健,来会会
关键词:
学习理论信息理论学习子采样学习算法泛化能力
结项摘要

In this project, we will study the mathematical theory of learning to rank. Considering the computation difficulty of ranking with a large number of data, we introduce Nyström approximation and Markov sampling approaches for the ranking model and provide the fast optimization algorithms. We focus on the study of learning theory foundations of the subsampling ranking, and provide the theory analysis including consistency and convergence rate in terms of error analysis associated with the operator approximation and the capacity estimation of assumption space. This study will demonstrate the role of sampling method on generalization ability and computation complexity. Meanwhile, considering the non-Gaussian noises and outliers of the ranking data, we introduce the information theoretic learning to the ranking problem and construct the ranking model under maximum correntropy criterion, and provide the theory analysis on its generalization ability and robustness. Finally, the proposed algorthms are applied to bioinformatic data, and their effectiveness is verified on the drug discovery and the protein homology detection. This project is expected to break through the limitation of traditional ranking for a large number of data, and establish the mathematical foundations of learning to rank.

本项目研究排序机器学习的数学理论基础。针对大规模数据下排序算法的计算难题,将Nyström逼近和Markov采样引入排序学习模型,构建快速排序算法,重点探讨其学习理论基础,分别利用基于容量估计和基于算子逼近的误差分析方法建立其一致性和收敛速度的分析,阐明采样方法对排序学习泛化能力和计算复杂性的影响机制。同时,针对数据中非高斯噪声和噪点问题,将信息理论学习引入排序模型,构建基于最大相关熵准则的排序学习算法,探讨其泛化能力和鲁棒性能。最后,将设计算法应用于生物信息数据,探索其在药物发现和蛋白质同源检测等排序任务中的有效性。本项目期望在面向大规模数据的排序算法设计和数学理论分析方面取得突破,建立排序机器学习的数学理论基础。

项目摘要

本项目对正则排序相关算法的学习理论与应用进行了深入的研究。项目组按照研究计划,有序推进研究工作,圆满完成了研究目标。主要研究成果包括三个部分:一是建立了几类正则排序算法学习率的刻画,分析了分布式、去偏置及交互策略对泛化能力的影响,通过数据实验验证了相关策略提升计算效率和预测性能的有效性; 二是证明了基于Nyström采样和Markov采样正则学习算法的误差界,阐明了采样机制与计算复杂性、泛化性的关系;三是设计了几类稀疏可加模型,给出了其泛化误差界和变量选择一致性分析,并在高维数据挖掘中验证了其良好的性能。本项目相关研究不仅发展和丰富了排序学习的数学基础,也为大规模数据情形的算法设计和应用提供了理论指导。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于国产化替代环境下高校计算机教学的研究

基于国产化替代环境下高校计算机教学的研究

DOI:
发表时间:
2

基于铁路客流分配的旅客列车开行方案调整方法

基于铁路客流分配的旅客列车开行方案调整方法

DOI:
发表时间:2021
3

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
4

基于综合治理和水文模型的广西县域石漠化小流域区划研究

基于综合治理和水文模型的广西县域石漠化小流域区划研究

DOI:10.14050/j.cnki.1672-9250.2017.02.014
发表时间:2017
5

新型树启发式搜索算法的机器人路径规划

新型树启发式搜索算法的机器人路径规划

DOI:10.3778/j.issn.1002-8331.1903-0411
发表时间:2020

陈洪的其他基金

批准号:11875226
批准年份:2018
资助金额:50.00
项目类别:面上项目
批准号:10147208
批准年份:2001
资助金额:8.00
项目类别:专项基金项目
批准号:11175146
批准年份:2011
资助金额:50.00
项目类别:面上项目
批准号:31171661
批准年份:2011
资助金额:61.00
项目类别:面上项目
批准号:21777045
批准年份:2017
资助金额:65.00
项目类别:面上项目
批准号:11001092
批准年份:2010
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

基于用户评价准则的排序学习算法及理论研究

批准号:61203298
批准年份:2012
负责人:兰艳艳
学科分类:F0603
资助金额:26.00
项目类别:青年科学基金项目
2

两阶段物流排序和工件可拒绝排序理论研究

批准号:10901142
批准年份:2009
负责人:录岭法
学科分类:A0406
资助金额:16.00
项目类别:青年科学基金项目
3

排序与半监督学习的误差分析

批准号:11501380
批准年份:2015
负责人:陈珩
学科分类:A0205
资助金额:18.00
项目类别:青年科学基金项目
4

组排序学习方法的研究与应用

批准号:61402075
批准年份:2014
负责人:林原
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目