In the uncertain environment of wireless communication, the state of the resources in dynamic system shows uncertainty as the evolution of the system, and thus requires multivariate analysis to characterize this kind of uncertainty pricisely. Meanwhile, the uncertain detection of resources leads to unconsistency between the detected state and the practical state of the system, and further generates the nonlinear propagation of belief information about the dynamic system. Both nonlinearity and multivariate state increase the dynamics and uncertainty of multi-armed bandit sequential decision system which has the exponential complexity originally, and consequently make it dramatically complicated in analyzing decision algorithms and their performance. Therefore, in this project we focus on analyzing the impact of both nonlinearity and multivariate state on multi-armed bandit problem, and propose, based on the structural characteristics of the considered problem, to study greedy policy and its optimal condition, the availability of Whittle method and the calculation of Whittle index, constant factor suboptimal algorithms, and the impact of both uncertain learning and mechanism of exchanging information on decision performance under distributed environment. Finally, we evaluate and verify the performance of those proposed decision algorithms by runing software simulation on PC and testing them on a constructed hardware platform. Through this project we hope to reveal performance limit and some intrinsic tradeoffs in the considered multi-armed bandit problem, and provide some theoretical insights on resource allocation for complicated dynamic systems.
在不确定的无线通信环境中,系统资源状态呈现不确定性变化,且不确定性检测所获得状态与系统实际状态不一致,造成系统状态置信信息非线性传播。不确定性引起的资源多态和非线性增加了指数复杂度的多臂机序列决策系统的动态性,导致研究无线通信系统资源分配的序列决策算法及其性能异常复杂。因此,本项目重点研究多态性和非线性对无线通信系统资源分配的影响,并基于多臂机问题的结构特征,由易到难研究贪婪策略的优化性、渐进优化的怀特策略和常因子性能的次优化策略,探索不确定学习和信息交互机制对分布式策略性能的影响,揭示利用信息和探索信息、计算复杂性和准确性、学习代价和决策性能之间的折中平衡关系,设计强鲁棒性资源分配策略克服不确定性的影响,最后通过软件仿真和硬件平台对提出的决策方案进行评估和验证。通过该研究可望从序列决策的角度揭示不确定性对动态系统资源分配策略及其性能的影响,为复杂环境下无线通信系统资源分配提供理论指导。
多臂机决策理论作为一种随机优化技术,能很好地描述动态系统,故在涉及资源分配调度的工程领域得到广泛运用。一般来讲,动态系统的资源分配涉及到至少一类可分配资源,其中资源属性状态随着动态系统演化而不断变化。动态系统的资源分配过程是不断检测系统资源的属性状态,并根据状态来分配和调度系统资源以优化系统的整体目标。为了高效地分配和管理这些资源,资源调度器必须预先尽可能准确地获得资源状态,但动态系统中的资源状态随系统演化而变化,呈现出非常复杂的动态性和不确定性。因此,首先必须尽可能准确描述资源属性状态,例如将资源属性离散成多个状态并采用多态变量来描述,而不是简单地采用二进制变量来表示资源好坏或分配等。其次, 当动态系统存在多个独立的资源调度器时,它们之间的信息交互及竞争合作,导致系统资源分配管理更加复杂。. 为了高效地分配管理无线通信系统的资源,通信系统中的资源调度器在分配资源之前需先对资源属性状态进行检测,在分配资源之后还需对相应的反馈信息进行回收评估,故从时间上来看,资源调度器对资源的分配管理是一个涉及检测、分配及评估等过程的序列决策问题。通信系统中的资源调度器如何根据检测获得的资源状态信息、历史资源分配信息以及反馈信息等,通过智能学习和优化技术,合理高效分配系统资源,提升系统资源利用率,是序列决策机制在无线通信系统中应用的关键问题。但无线通信系统中存在的不确定性,以及无线通信时隙机制(例如在一个时隙内,资源分配器要依次做出检测、分配及评估等多次决策),均给序列决策的研究带来极大挑战,例如不确定性所带来的多态和非线性、时隙机制带来的多层序列决策等。然而,针对动态系统资源分配过程中存在的不确定性及多层决策的相关研究在国内外尚不多见。. 因此,本研究以解决资源分配过程中的不确定性和多层决策为目标,研究多臂机序列决策在无线通信系统资源分配中的策略及其性能,以期提出经得起实际环境验证的实用化的资源分配管理方案,并在构建的动态频谱系统中验证提出的资源分配决策算法及其性能, 不仅可以更深入地理解多臂机序列决策理论,而且为工程领域中涉及资源分配管理的动态系统决策提供理论上的指导。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
内点最大化与冗余点控制的小型无人机遥感图像配准
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
滴状流条件下非饱和交叉裂隙分流机制研究
时间序列分析与机器学习方法在预测肺结核发病趋势中的应用
基于协作的自适应无线通信资源分配
能量采集WSN中基于大偏差理论的资源分配与调度优化理论
下一代无线通信网络资源优化分配理论与关键技术
海上认知无线通信系统非授权频谱感知与资源分配算法研究