谷歌的国际象棋实验揭示了如何提升人工智能的力量

2024-02-29



本文原载于《量子杂志》(Quanta Magazine)。


2020 年初,当 COVID-19 将人们送回家时,计算机科学家汤姆-扎哈维(Tom Zahavy)重新发现了国际象棋。他小时候下过棋,最近又读了加里-卡斯帕罗夫(Garry Kasparov)的《深思》(Deep Thinking)一书,这本回忆录记录了这位国际象棋大师 1997 年与 IBM 的国际象棋计算机 "深蓝"(Deep Blue)的比赛。他在 YouTube 上观看了国际象棋视频,还在 Netflix 上观看了《女王的赌博》。


尽管对国际象棋重新产生了兴趣,但扎哈维并没有想方设法提高自己的棋艺。"我不是一个伟大的棋手,"他说。"我更擅长国际象棋谜题"--棋子的排列,通常是设计好的,不太可能在真正的对局中出现,挑战棋手找到创造性的方法来获得优势。


这些谜题可以帮助棋手提高棋艺,但最近它们也帮助揭示了国际象棋程序隐藏的局限性。数学家罗杰-彭罗斯爵士(Sir Roger Penrose)在2017年设计了一个最臭名昭著的谜题,将更强大的黑棋(如皇后和车)放在棋盘上,但位置很尴尬。经验丰富的人类棋手下白棋,很容易将对局变成和棋,但强大的计算机国际象棋程序会认为黑棋优势明显。扎哈维说,这种差异表明,尽管计算机可以打败世界上最优秀的人类棋手,但它们还不能识别和解决每一种棘手的问题。从那时起,彭罗斯和其他人设计了大量计算机难以解决的难题。


国际象棋一直是检验人工智能新思路的试金石,彭罗斯的难题引起了扎哈维的兴趣。"他说:"我试图理解是什么让这些局面对计算机来说如此困难,而我们人类至少可以解决其中的一些问题。"我完全着迷了。这很快就演变成了一种职业兴趣: 作为谷歌 DeepMind 的研究科学家,扎哈维探索创造性解决问题的方法。其目标是设计出除执行单一任务外,还具有一系列可能行为的人工智能系统。


传统的人工智能国际象棋程序经过训练后可能无法理解彭罗斯难题,但扎哈维怀疑,由许多不同系统组成的程序作为一个群体协同工作,可以取得进展。于是,他和同事们从 DeepMind 的强大国际象棋程序 AlphaZero 开始,开发出了一种将多个(最多 10 个)决策人工智能系统编织在一起的方法,每个系统都针对不同的策略进行了优化和训练。他们在今年八月的报告中指出,新系统比 AlphaZero 单独发挥得更好,而且在处理彭罗斯的谜题时表现出了更高的技巧和创造力。从某种意义上说,这些能力来自于自我协作: 如果一种方法碰壁,程序就会转向另一种方法。


DoorDash 公司的计算机科学家艾莉森-利姆赫特查拉特(Allison Liemhetcharat)说,这种方法从根本上讲是合理的,她曾在机器人技术中使用多代理方法解决问题。"有了代理群体,难题更有可能出现在至少有一个代理接受过训练的领域。


这项工作表明,由不同人工智能系统组成的团队可以高效地解决游戏棋盘之外的难题。"伦敦帝国理工学院的人工智能研究员安托万-库利(Antoine Cully)没有参与 DeepMind 项目,他说:"这是一个很好的例子,说明寻找不止一种方法来解决问题,就像赢得国际象棋比赛一样,会带来很多好处。他将其比作人类头脑风暴会议的人工版本。"这种思维过程会带来创造性和有效的解决方案,而如果不做这种练习,就会错过这些解决方案。"



追逐失败

在加入 DeepMind 之前,扎哈维对深度强化学习很感兴趣,这是人工智能的一个领域,系统利用神经网络通过试错来学习某些任务。它是最强大的国际象棋程序的基础(也用于其他人工智能应用,如自动驾驶汽车)。系统从环境开始学习。以国际象棋为例,环境包括棋盘和可能的走法。如果任务是驾驶汽车,环境则包括汽车周围的一切。然后,系统会做出决定、采取行动并评估离目标的距离。当系统越来越接近目标时,它就会积累奖励,而随着奖励的积累,系统的性能也会不断提高。这种方法的 "深度 "部分描述了用于分析和评估行为的神经网络。


强化学习是 AlphaZero 成为国际象棋大师的学习方法。DeepMind 报告称,2017 年 12 月,在程序最初 9 个小时的训练中,它与自己下了 4400 万盘棋。起初,它的棋步是随机确定的,但随着时间的推移,它学会了选择更有可能导致将死的棋步。经过短短几个小时的训练,阿尔法零开发出了击败任何人类棋手的能力。


不过,尽管强化学习可以取得成功,但它并不总能制定出反映对棋局普遍理解的策略。在过去的半个多世纪里,扎哈维和其他人注意到,通过试验和错误训练出来的系统可能会出现一些奇特的故障。例如,一个玩视频游戏的系统可能会发现一个漏洞,并找出如何作弊或跳过一个关卡,或者它也可能很容易地陷入一个重复的循环。彭罗斯式的谜题也同样暗示了阿尔法零的一种盲点,或者说是故障--它不知道如何去解决一个从未见过的问题。


但也许并不是所有的故障都是错误。扎哈维怀疑,阿尔法零的盲点实际上可能是另一种变相的东西--与系统内部奖励挂钩的决定和行为。他说,深度强化学习系统不知道如何失败,甚至不知道如何识别失败。长期以来,失败的能力一直与创造性地解决问题联系在一起。"卡斯帕罗夫在《深度思考》一书中写道:"创造力具有人类的特质。"它接受失败的概念"。