论文题目:Hokoff:Real Game Dataset from Honor of Kings and its Offline Reinforcement Learning Benchmarks
论文地址:https://arxiv.org/pdf/2408.10556
创新点
-
提出了 Hokoff 数据集,这是首个基于《王者荣耀》的离线强化学习(Offline RL)和离线多智能体强化学习(Offline MARL)基准数据集。该数据集涵盖了单智能体(1v1)和多智能体(3v3)场景,能够模拟真实世界的复杂决策环境,填补了现有离线 RL 数据集在复杂任务和多智能体场景中的空白。
-
提供了一个开源的、易于使用的离线强化学习框架,支持数据采样、模型训练和性能评估的全流程。该框架不仅支持多种离线 RL 和离线 MARL 算法的实现,还提供了丰富的工具和 API,方便研究人员开发新的算法或网络架构。
-
提出了一种新的基线算法 QMIX+CQL,将多智能体强化学习中的 QMIX 算法与保守 Q 学习相结合,专门用于处理《王者荣耀》中固有的层次化动作空间。实验结果表明,该算法在多种数据集上表现优于其他现有方法。
本研究类似建了一个"王者荣耀实战题库" + "考试评分系统" + "新解题方法"。
-
提出
了
新题库(
Hokoff 数据集)
,首次用《王者荣耀》的真实对战数据,制作了供 AI 学习的题库。包含 1v1 单挑和 3v3 团战两种模式,覆盖简单到超难的各种情况。
-
提供了一个考试系统(开源框架),里面包含了数据读取器(把游戏录像变成 AI 能理解的数据)、算法训练器(
内置 8 种主流强化学习算法
)和评分系统(
比如用固定对手测试AI水平
)。