正在加载数据...
欢迎来到兰州大学应急管理研究中心!

[硕]基于情景强化学习的自注意力融合算法研究---朱露露(2024届 应用统计专业)

文章来源: 作者: 发布时间:2024年09月08日 点击数: 字号:【

基于情景强化学习的自注意力融合算法研究

朱露露

2024 应用统计专业

中文摘要:近些年,结合情景控制的强化学习决策模型广受关注。情景强化学习通过存储和利用先前成功的经验,在相同的训练数据内学习到了性能更好的策略,显著提高了算法的效率和性能。但是,现有的情景控制方法大多只能存储和度量单个状态,无法有效解析并利用状态之间的关系和转移过程如何对多步状态转移有效分析是当下情景强化学习急需突破的点。

针对这个问题,本文构建了基于自注意力的情景控制架构从结构、状态抽象方式、状态度量方式三个方面对现有的情景控制方法进行了改进和优化。首先,该架构应用了参数化的多头自注意力编码结构,从不同的表示子空间对多步状态进行了编码、特征提取、注意力计算,有效解析了多步状态转移间的依赖关系;在状态抽象方式上,选取了评价网络的隐藏层输出结果,作为状态的抽象表征来进行分析,而不是原始的状态数据;此外,该架构使用了一种新的状态度量方法,用给定状态下采取某个动作的相对价值来度量多步状态转移对回合回报的影响。

结构上述自注意力情景控制架构奖励塑形等强化学习技术,本文给出了基于情景强化学习的自注意力融合算法Attention-EC。代码基于 PyTorch 实现,选取的评估环境是OpenAI gym 的六个 MuJoCo 模拟仿真引擎任务:Hopper-v3、Ant-v3、HalfCheetah-v3、Swimmer-v3 、Walker2d-v3 和 Humanoid-v3。评估结果表明 Attention-EC 提升了强化学习算法在连续控制任务中的学习速度和性能突破了现有情景强化学习状态转移分析的长度分析10步的状态转移抽象表征,确实能够帮助智能体更准确地评估价值函数,促进智能体的学习效率和性能。此外,本文对基于优势函数的状态度量值进行了消融研究;实验还通过比较分析得出:自注意力融合算法的最佳状态转移分析长度是10、奖励塑性的最佳粒度是0.05。

  关键词:强化学习,样本效率,情景控制,注意力机制