人工智能在Dota 2游戏中的实时决策

随着人工智能技术的发展,AI与人类在棋类游戏中的对抗已经成为常态。目前,AI在战略性游戏如国际象棋和围棋中的表现尤为突出。由Elon Musk共同创立的风险投资公司OpenAI开发了一套名为OpenAI Five的算法,它们在流行的Dota 2游戏中与人类玩家竞争。与以往的AI游戏不同,Dota 2需要实时决策能力,而不仅仅是思考下一步棋。根据OpenAI的博客文章,Dota 2游戏以每秒30帧的速度运行,平均持续45分钟,每局游戏大约有80,000次更新。

OpenAI Five实际上是由5个神经网络组成的团队。它每天与自己进行相当于180年的游戏量的训练!当然,这种规模和水平的训练离不开强大的计算资源。OpenAI Five使用一类名为近端策略优化(Proximal Policy Optimization,简称PPO)的强化学习算法的扩展版本进行自训练。这一训练过程需要256个GPU和128,000个CPU核心。

那么,这些神经网络是如何实时识别和构建策略的呢?每个神经网络包含一个单层、1024个单元的长短期记忆(LSTM)网络,用于分析游戏的实时状态并执行动作。“OpenAI Five将世界视为一个包含20,000个数字的列表,并通过发出一个包含8个枚举值的列表来采取行动。”

OpenAI Five有一些限制,具体可以在他们的博客文章中了解。OpenAI计划在7月28日与顶级Dota 2玩家进行比赛,并在8月参加锦标赛以衡量他们的进步。

沪ICP备2024098111号-1
上海秋旦网络科技中心:上海市奉贤区金大公路8218号1幢 联系电话:17898875485