受限制策略下多臂Bandit过程的理论与应用研究

基本信息

批准号：71371074

项目类别：面上项目

资助金额：57.00

负责人：吴贤毅

学科分类：

依托单位：华东师范大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：许忠好,姚强,包文清,杨磊,黄金龙,周学勤,宋昕,高阎龙,马宇飞

关键词：

受限制策略多臂Bandit过程Gittins指数随机排序和调度最优停时

结项摘要

Multi-armed bandit processes (abbreviated as MAB), which are dated back to 1950s, belong to the framework of dynamic stochastic optimizaitons. They are a type of particular dynamic stochastic control models that are concerned with the problems of optimally allocating scareced resources to certain competitive projects. In mathematical language, an MAB constitutes of a set of parallel controllable stochastic processes, each of which has two options: evolution and freezen. Whenever a process evolves, it gives out a flow of rewards. MAB models aim at finding out the rules of evolution and freezen on each controllabel member stochastic processes (time allocation schemes) such that at any calander time t the sum of the time allocated to each projects is not more than t itself, so as to maximize the expected total rewards. The objective of this pproposal is to introduce the concept of restricted policies into the MAB community so as to characterize the restrictions on policies in the real life practice, e.g., freezing is prohibted if the process enters certain particular states, and accordingly develop the optimality theory of MAB under restricted policies, as well as explore the applications of that new theory in related areas including particularly the area of stochastic scheduling.

多臂Bandit过程模型（Multi-armed Bandit Processes,简称为MAB）起源于1950年代，属于动态随机最优化的范畴，是一种特殊类型的动态随机控制模型，用于处理如何最优地进行稀缺资源的分配。从数学上来说，MAB由一组平行的可控随机过程组成，每个随机过程有两个选项：演进和停止，一旦向前演进，该过程的信息会随时更新，同时给出一个报酬流；一旦被停止，则其信息流和报酬都不会发生更新。MAB模型的目标是确定各个随机过程演进和停止的规则（时间分配规则），满足条件：在时间t，各个随机过程进程时间之和不大于总时间t，并且使得期望折扣总报酬达到最大。本项目旨在MAB模型中引入受限策略的概念，以便刻画现实中对策略的技术限制（比如在某个随机过程达到一定的状态时，不允许被停止），相应发展一套受限策略下MAB最优策略的新理论、新方法，并探索其在相关领域比如随机调度领域的应用。

项目摘要

经典 bandit process 研究主要分为三类:连续时间、离散时间以及半马氏类过程(或者跳过程)上的 bandit process 最优决策问题,该框架对加工机器在各个臂(arms)之间的切换不加任何约束。但是在实际问题中,往往会碰到加工机器不能在各个臂之间自由切换的情形。..本项目研究带约束 bandit process 的最优调度的理论及相关问题, 重要的结果包括三个部分:一是作为研究基础的带约束最优停时问题, 其中,可行的停时集合并不包括所有的停时,而是带有一定约束的停时;二是以带约束的最优停时理论作为基本工具, 获得了带约束 bandit process 的Gittins index的定义，并证明了基于Gittins index的策略在期望折扣报酬调度下的最有性; 三是带约束bandit process调度理论应用于机器加工调度问题以及医疗调度的问题，得到了相应问题的最优解。..本研究本研究提出的模型涵盖了几乎所有的经典bandit process的模型，其结果从理论上拓广了经典bandit process最优策略的研究和应用场景。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

吴贤毅的其他基金

批准号：70671043

批准年份：2006

资助金额：19.00

项目类别：面上项目

批准号：71071056

批准年份：2010

资助金额：28.00

项目类别：面上项目

批准号：71771089

批准年份：2017

资助金额：48.00

项目类别：面上项目

相似国自然基金

多臂Bandit process中的Bayes非参数方法

批准号：71771089

批准年份：2017

负责人：吴贤毅

学科分类：G0102

资助金额：48.00

项目类别：面上项目

多机械臂系统网络化协调模式的理论与控制策略研究

批准号：51875331

批准年份：2018

负责人：苗中华

学科分类：E0501

资助金额：60.00

项目类别：面上项目

多臂螺旋波及大尺寸缺陷下螺旋波的研究

批准号：10975117

批准年份：2009

负责人：张宏

学科分类：A2503

资助金额：32.00

项目类别：面上项目

基于人臂运动机理的机械臂运动控制理论与实验研究

批准号：51475016

批准年份：2014

负责人：赵京

学科分类：E0501

资助金额：82.00

项目类别：面上项目

受限制策略下多臂Bandit过程的理论与应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

一种基于多层设计空间缩减策略的近似高维优化方法

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

吴贤毅的其他基金

机器具有中断条件下的随机调度问题

非标准随机调度模型的最优动态策略

多臂Bandit process中的Bayes非参数方法

相似国自然基金