专栏名称: 学姐带你玩AI
这里有人工智能前沿信息、算法技术交流、机器学习/深度学习经验分享、AI大赛解析、大厂大咖算法面试分享、人工智能论文技巧、AI环境工具库教程等……学姐带你玩转AI!
目录
51好读  ›  专栏  ›  学姐带你玩AI

爽!强化学习+注意力机制,吞吐量提升了10多倍!

学姐带你玩AI  · 公众号  ·  · 2024-07-13 18:08

正文

通过引入注意力机制,强化学习模型不仅能够更加高效地处理复杂的环境和任务,还能在学习和决策过程中实现更高的精度和适应性。

因此这种结合迅速成为了各大领域的研究热点,而且已经在实际应用中有了显著的性能提升。比如分散式强化学习框架SACD-A,算法训练样本吞吐量直接提高了10倍!

目前,强化学习+注意力机制主要有三大研究方向:状态表示、动作选择、奖励预测。今天我就从这三大方向入手,分享 10篇 强化学习+注意力机制的代表性成果 ,文档里还附上了每个方向的 代码示例 ,帮助同学们理解。

扫码 添加小享,回复“ 强化注意

免费获取 全部 文+ 开源代码

状态表示中的注意力机制

在强化学习中,状态表示指的是描述当前环境的关键信息。通过在这一阶段引入注意力机制,算法可以更有效地关注状态表示中的关键信息,从而提高学习效率和性能。

具体步骤

  • 通过注意力机制确定状态向量中各元素的权重。
  • 依据权重,对状态向量加权求和,形成新的状态表示。
  • 将优化后的状态表示用于动作选择。

算法原理

其中S表示状态,K和V分别表示键和值, 是键的维度。

论文示例

Improving Autonomous Separation Assurance through Distributed Reinforcement Learning with Attention Networks

方法: 论文将分布式强化学习与注意力网络结合,开发了一种异步训练架构,将代理-环境交互与算法训练解耦,从而在训练过程中提高了约10倍的转换数量。

创新点:

  • 提出了一种基于SACD和注意力网络的可扩展、分布式和样本高效的飞机分离保障框架,能够同时提高安全性和运行适应性。
  • 引入了垂直机动的扩展动作集,相比以前的方法,提供了更多的选择。
  • 开发了一个具有代表性的AAM环境(AAM-Gym),为评估所提出框架的有效性提供了一个全面的环境。

Framu: Attention-based machine unlearning using federated reinforcement learning

方法: 论文介绍了一个名为FRAMU的框架,它结合了强化学习和注意力机制,通过自适应学习机制、隐私保护技术和优化策略,有效解决了在处理过时、隐私和无关数据时所面临的隐私和模型效率的挑战。

创新点:

  • FRAMU引入了一种自适应的"反学习"算法,该算法结合了注意力机制,以适应单模态和多模态设置中的学习与"反学习"过程。
  • 该框架利用FedAvg机制个性化"反学习"过程,确保模型可以从隐私角度丢弃已经变得无关紧要、过时或可能侵犯隐私的数据。

扫码 添加小享,回复“ 强化注意

免费获取 全部 文+ 开源代码

动作选择中的注意力机制

在动作选择阶段,注意力机制可以用来加权不同动作的优先级,让算法可以更有效地关注动作选择中的关键信息,从而选择更合适的动作。

具体步骤

  • 利用注意力机制计算每个动作的权重值,突出对决策最重要的动作。
  • 根据权重值选择最优动作或将其作为输入到后续神经网络中进行进一步处理。

算法原理

其中A表示动作集合。

论文示例

ARiADNE: A Reinforcement learning approach using Attention-based Deep Networks for Exploration

方法: 论文介绍了ARiADNE系统,它是一个基于强化学习和注意力机制的深度神经网络方法,用于自主机器人探索任务。

创新点:

  • ARiADNE是一种基于深度强化学习的自主探索方法,通过两个基于注意力的神经网络实现。






请到「今天看啥」查看全文