Resource allocation as a core of post-disaster humanitarian logistics is crucial to the safety and health of the survivors. This is a difficult and complex decision-making process in the case of time constraints and supply shortages. Three performance indicators need to be considered: efficiency, effectiveness, and equity, corresponding to economic cost, service quality, and fairness. In particular, this study regards human suffering as a measure of the effectiveness of resource allocation, and directly uses the deprivation costs to depict human suffering. However, the previous studies did not investigate the deprivation cost function with heterogeneity and hysteresis effects. Due to the introduction of deprivation costs, the objective function of this problem is exponential, i.e., nonlinear. Coupled with the multi-period and uncertainty of resource allocation problem, this research intends to adopt reinforcement learning to solve the problem. Specifically, this research studies the multi-period resource allocation problems under uncertain demand with two deprivation cost functions, including heterogeneity and hysteresis effects. Respectively, the corresponding mathematical optimization models are established and the reinforcement learning method is developed to obtain the efficient solutions. This research can make up for the deficiencies of static and deterministic problems, making research closer to reality and thus more widely used.
灾后救灾物资的分配作为人道主义物流运作的核心,对灾民的安全和健康至关重要。在时间紧迫和物资匮乏的情况下,救灾物资分配是一个困难而且复杂的决策过程,往往需要考虑三个绩效指标:效率、有效性和公平性,分别对应于物资分配的经济成本、服务质量和公平性。特别地,本研究将灾民痛苦视为物资分配有效性的度量,并直接采用剥夺成本显性地刻画灾民痛苦。然而,具有异质性和滞后性的剥夺成本函数是之前的研究未涉及的。针对由于引入剥夺成本导致的非线性性,以及救灾物资分配问题具有的多周期和不确定性,本课题拟采用强化学习算法进行求解。具体来讲,本课题在前期的研究基础上,考虑物资分配问题的多周期性和需求不确定性,在异质性、滞后性两种剥夺成本函数类型下,分别建立对应的数学优化模型,拟采用强化学习算法进行有效求解。该研究能弥补静态、确定性问题研究的不足,使灾民痛苦的刻画更贴近实际,从而得到更加广泛的应用。
本项目主要是在考虑灾民痛苦的确定性灾后救灾物资分配问题基础上,基于强化学习理论,进一步研究考虑了异质性、滞后性剥夺成本函数的多周期、不确定、非线性的物资分配问题。具体地,本课题从问题和求解算法开展以下四项研究工作,分别是:1)基于动态变化需求的救灾物资分配问题,2)基于异质性需求的救灾物资分配问题,3)基于滞后性剥夺成本函数的救灾物资分配问题,4)基于强化学习的救灾物资分配问题。第一部分基于动态变化需求的救灾物资分配问题的研究,建立了非线性混合整数规划模型进行求解,并引入了强化学习中的Q-learning算法进行求解。本课题论证了该方法对救灾物资分配问题的适用性。第二部分基于异质性的救灾物资分配问题的研究,通过对剥夺成本函数的持续关注与调研,刻画了不同受灾区的需求异质性,建立了非线性混合整数规划模型,引入深度强化学习算法进行求解,目前正在做数值实验。第四部分基于强化学习的救灾物资分配问题的研究,融入在前两部份的研究中,重点在对强化学习算法的改进、对深度强化学习的引入方面。最后,第三部分基于滞后性剥夺成本函数的救灾物资分配问题的研究,调研了最新剥夺成本函数的研究进展,但并未发现对滞后性的量化研究。这部分研究除了选取滞后性曲线参数困难之外,还存在刻画方式是否合理的弊端,后续研究将继续改进。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
监管的非对称性、盈余管理模式选择与证监会执法效率?
农超对接模式中利益分配问题研究
黄河流域水资源利用时空演变特征及驱动要素
拥堵路网交通流均衡分配模型
蓄意致灾非常规突发事件动态应急决策研究
基于群智感知的矿井灾后无线应急通信网络关键问题研究
动态不确定环境下应急救灾物资调配模型研究
基于动态决策和数据挖掘的集装箱翻倒问题研究