多臂Bandit process中的Bayes非参数方法

基本信息
批准号:71771089
项目类别:面上项目
资助金额:48.00
负责人:吴贤毅
学科分类:
依托单位:华东师范大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:曾林蕊,周学勤,张建军,张海彬,王伟伟,王志高,尚华婷,严悦承
关键词:
UCB策略非参数Bayes方法多臂Bandit过程Gittins指数动态规划
结项摘要

Multi-armed bandit process models lie in the domain of stochastic dynamic optimization or stochastic dynamic programming and have been extensively applied in personalized medicine, clinical trails, internet techniques, artificial intellegence and so on. An MAB consist of a collection of controllable stochastic processes, of which each allows for two options: selected and frozen and, once selected, gives rise to a flow of rewards. The objective of an MAB model is to decide the allocation of time to every member process so as to optimize certain objective functions of the overall reward flow... Bayesian nonparametrics aim at how to efficiently construct prior distributions for nonparametric statistical models so that one can make effecient statistical inference by means of Bayesian methodologies...This project intends to systematically introduce the ideas and methdologies of Bayesian nonparametrics into the research of MAB models so as to derive the policies that are optimal or asymptotically optimal in certain sense. It can enrich theoretically the content of MAB investigation, provide Bayesian analysis for the various nonparametric MAB models in the perspective of real-world applications and may give rise to new methods and insights from the point of view of methodologies.

多臂Bandit过程(MAB)模型属于动态随机最优化/随机动态规划的范畴,广泛应用于精准医疗、临床试验、互联网技术,人工智能等。MAB由一组平行的可控随机过程组成,每个随机过程可以有两个选项:选择和不选择,一旦被选择,该过程就给出一个报酬流,MAB的目的是确定各个随机过程被选择和不选择的策略(时间分配),从而使得基于报酬流的一定的目标函数达到最优化。..Bayes非参数方法研究的是如何有效地对非参数统计学模型构造先验分布并进而使用使用Bayes方法进行统计学的推断。..本项目拟将非参数Bayes方法系统地引入MAB问题的研究,得到相应的最优或者一定意义上渐进最优的策略。这从理论上可以丰富MAB的研究内容次,从应用上可以为各种非参数MAB模型提供其相应的Bayes方法,从方法论的角度有可能会带来MAB决策问题的新方法和思考。

项目摘要

多臂Bandit过程(MultiArmed Bandit processes)模型属于动态随机最优化/随机动态规划的范畴,广泛应用于精准 医疗、临床试验、互联网技术,人工智能等。MAB由一组平行的可控随机过程组成,每个随机过程可以有两个选项:选择和不选择,一旦被选择,该过程就给出一个报酬流,MAB的目的是确定各个随机过程被选择和不选择的策略(时间分配),从而使得基于报酬流的一定的目标函数达到最优。 Bayes非参数方法研究的是如何有效地对非参数统计学模型构造先验分布并进而使用B ayes方法进行统计推断。 本项目拟研究(1)Bayes非参数方法及其各种应用,(2)MAB问题的的相关研究,以及(3)Bayes非参数方法与MAB问题的结合。这从理论上可以丰富Bayes非参数方法及MAB的研究内容,从应用上可以为各种非参数MAB模型提供其相应的Bayes方法,从方法论的角度可以带来MAB决策问题的新方法和思考。..本项目的目标是从理论上研究Bayes非参数方法与MAB问题的结合。经过四年的努力,项目研究目标基本完成,得到了一些重要的关于MAB问题的结果,并对相关的问题如变量选择问题,对Bayes非参数方法的应用问题也进行了一定程度的研究,还尝试性地研究了经验Gittins indices以及强化学习(reinforcement learning,是对MAB进行扩展的一个领域)中Off-policy优化问题进行了研究。作为一项副产品,本项目的研究将项目组引入更具有吸引力和颇具时代特色的强化学习领域。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020

吴贤毅的其他基金

批准号:71371074
批准年份:2013
资助金额:57.00
项目类别:面上项目
批准号:70671043
批准年份:2006
资助金额:19.00
项目类别:面上项目
批准号:71071056
批准年份:2010
资助金额:28.00
项目类别:面上项目

相似国自然基金

1

受限制策略下多臂Bandit过程的理论与应用研究

批准号:71371074
批准年份:2013
负责人:吴贤毅
学科分类:G0102
资助金额:57.00
项目类别:面上项目
2

基于三臂非劣效性临床试验不依从问题的Bayes因果模型及评价方法研究

批准号:81703322
批准年份:2017
负责人:吴莹
学科分类:H3011
资助金额:20.00
项目类别:青年科学基金项目
3

方差分量模型中的Bayes分析及非参数回归极值点的研究

批准号:19971085
批准年份:1999
负责人:韦来生
学科分类:A0403
资助金额:8.00
项目类别:面上项目
4

无穷维参数空间的Bayes统计理论研究

批准号:19701036
批准年份:1997
负责人:石坚
学科分类:A0403
资助金额:4.50
项目类别:青年科学基金项目