解密AlphaGo:TA有了人类的直觉?
来源:南方日报 日期:2016-03-21
五场对弈,凭借着4:1战胜李世石,AlphaGo的排名积分来到了3586分,仅次于中国棋手柯洁。这也意味着,如果想在围棋界称王,挑战柯洁将成为绕不过去的一环。
事实上,第四战结束后,AlphaGo的研发工程师拉利亚·哈德赛尔就在Facebook上写下了战书:“柯洁,准备好一场比赛了吗?”几天之后,得到回应。19岁的柯洁用惯有的语气在微博上写道:咱能动手就尽量别废话。同时,贴上了哈德赛尔的战书截图。
硝烟再起,似乎又一场“世纪大战”一触即发。然而,在不少专家看来,哈德赛尔和柯洁的隔空喊话,更像是谷歌的一场公关秀。因为找高手下棋,更多是为了验证AlphaGo的自学水平。
TA学到什么地步,没人知道
表象下的AlphaGo只是一台台式电脑,在整场对弈中,它只能安静地杵在边上,需要落子时,才由研发者之一黄士杰来执行。于是在连赢两局后,就有中国网友调侃,愤怒的李世石一气之下将AlphaGo砸碎,发现柯洁正躲在黑暗的机箱里。
AlphaGo的名声大振始于今年1月27日。当时,国际顶级杂志《Nature》以封面论文的形式对它进行了报道,并记录了去年10月5:0击败欧洲棋王樊麾一事。
《Nature》杂志的高级编辑坦吉·肖尔德在此前接受媒体采访时说,AlphaGo是“深度学习神经网络”与“蒙特卡洛树搜索算法”结合上的关键进展,它的基本概念在原理上可以解决人工智能的各类问题。
虽然这期杂志的问世引来了不少争议,有人认为那篇论文属于典型的《Nature》式炒作体,因为深度学习和蒙特卡洛算法在人工智能领域中的引用并不新鲜,不过这篇论文依然得到了学术界和产业界的认可。
Facebook人工智能组研究员、美国卡耐基梅隆大学机器人系博士田渊栋曾对DeepMind团队发表在《Nature》上的论文做过分析,他认为,这整篇文章价值在于它是一个系统性的工作,而不是一两个小点有了突破就能达到的胜利。
时下,AlphaGo颇为人津津乐道的是它对于neural network(神经网络)的应用。
中山大学人机互联实验室主任翟振明教授在接受南方日报记者采访时表示,70年前有学者建立了“神经网络”数学模型,但是到目前为止,发挥效应最大的就是此次人机大战。通过软件模仿来建构人工的神经元,就像给计算机安装上一个充满神经元的“大脑”。
“这些人工神经元,有输出端、有输入端,关键是相互之间的联通及由此产生的非线性累积迭代。”翟振明说。不过,由于人工神经元网络的无序性,输入进去的数据便很难追踪,这也就意味着,即便是研发者也不知道它们到底学到了什么样的水平。
“所以,他们要到处找人下棋,因为他们自己也不知道AlphaGo到了一个什么水准。”科大讯飞研究院副院长魏斯在也向记者表达了同样的观点。
TA的风格,不是优柔寡断
众所周知,AlphaGo的神经网络有两个,即策略网络(Policy Network)和估值网络(Value Network)。
DeepMind的CEO哈萨比斯在此前介绍AlphaGo研究进展时说,AlphaGo不是做穷举计算,策略网络负责落子选择,将理论上存在的200种可能的棋步缩小到三四种得分最高的可能,从而减少计算的宽度,不用去计算所有落子可能;价值网络则负责评估落子后的局面和最终胜负的概率关系,从而减少计算的深度,不用徒劳地尝试算到底。
田渊栋在介绍Facebook的围棋人工智能时则坦言,他们的程序没有后者,而正是后者的引入,AlphaGo棋力得到了大规模提升。它让AlphaGo可以一边推算落子,一边判断局面。
除了上述两个网络之外,蒙特卡洛算法的应用也颇值得关注。这一算法可以将棋局和数据库上的信息放在一个概率函数上,这样AlphaGo就不用对每一步棋都给以同样计算量,然后可以对某些棋步作重点分析。
与人工神经网络一样,蒙特卡洛算法也有70年历史,进入21世纪之后,研究者们开始探索“蒙特卡洛树搜索”的全新思路,日本的ZEN和法国的CrazyStone都是在“蒙特卡洛算法”的思路上不断改进的代表。
它以蒙特卡洛城来命名。蒙特卡洛位于地中海之滨,属于摩纳哥公国,为世界三大赌城之一。除了蒙特卡洛算法之外,还有拉斯维加斯算法,两者都属于一种随机算法。
科普作家苏椰解释,拉斯维加斯算法可以总结为“尽量找最好的,但不保证能找到”,而蒙特卡洛算法则可以理解为“尽量找好的,但不保证是最好的”。这也意味着,如果AlphaGo选用前者,那么因为可能找不到最优解而陷入无法落子的尴尬局面;选用后者,则可能因落子并非最佳选择,而导致输棋。
不过,科学家最终选择了蒙特卡洛算法,因为没有永远的最好。另外,蒙特卡洛算法的规律也说明,采样越多就越能给出最优解,疯狂采样对于机器来说,从来不是问题。苏椰就笑称,在引入蒙特卡洛算法之前,“机器围棋的水平几乎是个笑话”。
中国著名围棋手江铸久九段曾多次与人工智能对弈,据他讲述,在以前,只要在棋盘上丢几个弃子,人工智能就会傻乎乎地围着那几个弃子转。
TA的“直觉”,得靠学习
AlphaGo的学习能力令人吃惊,据了解,它曾研究了围棋的三千万种可能,如果按照常人每半小时下一盘的速度,这三千万种如果要学完大概需要1700年。不过AlphaGo在学习过程中,只要两微秒就可以走一步,这样,三千万种棋路在很短时间内就可以学成,而且从不疲倦。
AlphaGo的惊艳表现也让很多人看到了“直觉”的影子。魏斯在接受记者采访时就盛赞AlphaGo似乎有了“灵性”。他说,两大神经网络让它照顾到了大势和局面,蒙特卡洛算法又让他像人一样,在现有的棋面下,再往深处想几步。
“直觉”也是围棋魅力的一部分,当棋局达到一定深度的时候,靠的只能是直觉。据统计,围棋棋步的数量甚至要远高于宇宙的原子总数,围棋的步数有10的360次方之多,而宇宙的原子数则只有10的80次方。
“如果你问一个围棋大师为什么这一步要这么走,有时候他只能告诉你,这样走感觉是对的。围棋更像是一个靠直觉的游戏。”哈萨比斯在此前的宣传短片里这样说,这也是围棋程序让很多科学家着迷的原因所在。因为再强大的数据库也无法完全覆盖围棋所有棋路,要想将围棋程序训练成绝世高手,只能赋予它“直觉”。
黄士杰在日前也曾表示,是人类的“直觉”给了他们启发,AlphaGo观察围棋的整体布局,然后选择最佳下法,这种方式就像依靠直觉和第六感作出判断的人类大脑的功能。
田渊栋将这种“直觉”说成是“可以学到的模型”。据他介绍,从一开始的规则驱动的暴力搜索,到特征驱动的线性模型,再到数据驱动的深度学习,越来越强的模式识别能力让“直觉”两字从神秘莫测,变成了通过大量样本就能学到的模型。…