随着人工智能技术的发展,AI与人类在棋类游戏中的对抗已经成为常态。目前,AI在战略性游戏如国际象棋和围棋中的表现尤为突出。由Elon Musk共同创立的风险投资公司OpenAI开发了一套名为OpenAI Five的算法,它们在流行的Dota 2游戏中与人类玩家竞争。与以往的AI游戏不同,Dota 2需要实时决策能力,而不仅仅是思考下一步棋。根据OpenAI的博客文章,Dota 2游戏以每秒30帧的速度运行,平均持续45分钟,每局游戏大约有80,000次更新。
OpenAI Five实际上是由5个神经网络组成的团队。它每天与自己进行相当于180年的游戏量的训练!当然,这种规模和水平的训练离不开强大的计算资源。OpenAI Five使用一类名为近端策略优化(Proximal Policy Optimization,简称PPO)的强化学习算法的扩展版本进行自训练。这一训练过程需要256个GPU和128,000个CPU核心。
那么,这些神经网络是如何实时识别和构建策略的呢?每个神经网络包含一个单层、1024个单元的长短期记忆(LSTM)网络,用于分析游戏的实时状态并执行动作。“OpenAI Five将世界视为一个包含20,000个数字的列表,并通过发出一个包含8个枚举值的列表来采取行动。”
OpenAI Five有一些限制,具体可以在他们的博客文章中了解。OpenAI计划在7月28日与顶级Dota 2玩家进行比赛,并在8月参加锦标赛以衡量他们的进步。