强化学习算法没有游戏训练?DeepMind 开源 OpenSpiel 平台了。研究者可在线部署游戏环境,快速开始实验。
选自GitHub,机器之心编译,参与:一鸣、思。
强化学习算法广为人知的一个应用场景便是游戏了,通过智能体在多玩家游戏中的表现,研究者可以更好地调整算法和参数细节,实现更好的算法性能。近日,DeepMind 开源了一款多玩家游戏平台「Open-Spiel」,支持多种策略和游戏环境,以及相关的分析工具。支持的游戏数量达到了 25 款,绝大多数都和棋牌、博弈相关。
项目地址:https://github.com/deepmind/open_spiel
OpenSpiel 是一个综合性的强化学习游戏测试平台,包括了多种游戏环境和算法,用于强化学习研究或搜索策略的研究。
OpenSpiel 可以帮助研究者解决很多强化学习研究中需要设置实验的问题,它支持:
单人或多人博弈;
完美信息或不完美信息博弈;
带有随机性的博弈;
普通的多玩家「一步」或二人玩家的多步博弈;
交替行动(如下棋)或同时行动的游戏;
零和博弈和非零和博弈(如需要合作的博弈等)。
C++11
Python 3
以及一个支持 Swift 语言的缩减版
支持平台
目前 OpenSpiel 已经在 Linux 系统上进行了测试(Debian 10 和 Ubuntu 19.04),但是没有在 MacOS 或 Windows 上测试过。但是因为后两个平台都可以自由使用代码,因此作者认为不太可能出现大的问题。
支持游戏
OpenSpiel 目前支持以下游戏,共 25 款,包括国际象棋、围棋、双陆棋、翻转棋等游戏:
首先,我们先要明确,在 OpenSpiel 中 Game 对象包含了对某个游戏非常高层次的描述,例如游戏的方式、参与人数、最大分数等。而 State 对象描述了更加具体的游戏局,例如象棋中特定的棋子状态、扑克中特定的手牌组合。通过这两个对象,整个游戏都是通过树来表示的。
OpenSpiel 首先需要加载游戏,配置游戏进行方式,然后就可以直接运行了。如下所示为玩 trajectory 游戏的 Python 代码:
import randomimport pyspielgame = pyspiel.load_game("kuhn_poker")state = game.new_initial_state()while not state.is_terminal(): legal_actions = state.legal_actions() if state.is_chance_node(): # Sample a chance event outcome. outcomes_with_probs = state.chance_outcomes() action_list, prob_list = zip(*outcomes_with_probs) action = np.random.choice(action_list, p=prob_list) state.apply_action(action) else: # The algorithm can pick an action based on an observation (fully observable # games) or an information state (information available for that player) # We arbitrarily select the first available action as an example. action = legal_actions[0] state.apply_action(action)复制代码
安装方法
virtualenc -p python3 venvsource venv/bin/activatepip3 install -r requirements.txt复制代码
保证环境有效的情况下,编译并运行
mkdir buildcd buildCXX=g++ cmake -DPython_TARGET_VERSION=3.6 -DCMAKE_CXX_COMPILER=${CXX} ../open_spielmake -j$(nproc)ctest -j$(nproc)./open_spiel/scripts/build_and_run_tests.sh复制代码
export PYTHONPATH=$PYTHONPATH:/<path_to_open_spiel>export PYTHONPATH=$PYTHONPATH:/<path_to_open_spiel>/build/python复制代码