智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 2511|回复: 1
打印 上一主题 下一主题

猜一猜AlphaGo为什么会出昏招

[复制链接]
跳转到指定楼层
1#
pokerbean 发表于 2016-3-13 20:18:36 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
连续三盘负于AlphaGo之后,李世石在第四盘人机大战中,在不利局面下凭78挖的一记妙手,击中AlphaGo无人知晓竟然存在的阿喀琉斯之踵,令AlphaGo应对有误乃至一时方寸大乱昏招连连。李世石逆袭成功,终下一城。

或许是与以往三局表现出的惊人棋力对比太过悬殊,AlphaGo的连续低级错误,让之前被它的超级算力惊到的人们同样感觉匪夷所思。我在此凭自己对其算法的粗浅理解,试着猜测一下AlphaGo大出昏招的原因。

首先,AlphaGo系统中的策略网络和价值网络都是深度卷积神经网络,而在神经网络算法里,是有可能出现在某些情况下算法陷于“局部最优”不能自拔,虽然很多时候这个局部最优与正确答案相去不远,但也有可能落入远远偏离正确答案的情况。这就比方,黄山最高峰是莲花峰,若能登上天都峰顶也很好,可是,若你站在山脚下一个小土丘的顶部,如果你只看自己身边的这一小圈,你也会觉得自己是站在最高处,但这个局部最高离真正的巅峰差远了。虽然也有帮助神经网络跳出局部最优陷阱的办法,但这些方法往往有随机性,并不能确保奏效,并且,虽然AlphaGo三千万盘的训练已远非人力所能及,但对比所有可能的局面,这个数字仍然是沧海一粟,所以AlphaGo的网络中完全可能遗留有一些漏洞,在特定情况下会暴露出来。

其次,一味强调取胜概率的价值网络估值方法可能有其局限,尤其是在局面不利时,可能出现所有备选方案的胜率估值都较低并且差别细微的情况,这时候,电脑在几种方案中的选择就可能出现差之毫厘谬以千里的误选。也就是说越是形势不利,电脑越可能出错。

还有就是AlphaGo系统中似乎并没有一个用来即时评价对手棋力的模块,所以当它搜索对局推演情况时,对各种局面出现的概率不会根据对手的棋力进行调整,而是同等对待,这样它就会做出一厢情愿的选择。这特别可以解释为什么AlphaGo会下出在右边被围处做毫无意义的挣扎和在左边损目的官子等看似非常小儿科的错误,因为它所下的那些无理手,万一它的对手是象我这样的围棋菜鸟,应对失当,它的“昏招”就能发挥作用而大有斩获。也就是说,在它自己已经发昏的情况下,它只能一厢情愿地指望对方更昏,而全然不顾它的真实对手发昏的可能是微乎其微的。

这些都只是我粗浅的猜想,虽然我自己觉得还有一些道理,真相如何,希望能看到AlphaGo团队的后续报告来验证。在新闻发布会上,AlphaGo团队负责人说他们也不知道发生了什么,要等待回去后好好分析程序的记录。这应该不是故作谦虚或想隐瞒什么,因为以AlphaGo的算法来说,十多层卷积网络的非线性计算累积下来,“狗”脑子里究竟是什么鬼,还真不是人好猜的。深度神经网络的这种黑箱性质,也正是它尽管取得很大成功但仍然受到质疑的地方。

在赛后新闻发布会上,哈萨比斯强调,正是李世石的精妙攻击,才迫得AlphaGo露出破绽,这应是由衷之言。我在看了李世石0:3失利后在新闻发布会上的发言后,不禁要对他深表敬意,这是一位有风度有尊严,有真正运动员精神的棋士。这几天的时间,从信心满满,到惊讶无语,到绝望无助,再到峰回路转豁然开朗,想必李世石也会感慨良多。我再次想到《三体》中的一句话,“弱小和无知不是生存的障碍 傲慢才是。”祝愿李世石在最后一局中能乘胜追击,再创辉煌。也期待谷歌团队做出更棒的人工智能。

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏
2#
yoking 发表于 2016-3-14 11:08:35 | 只看该作者
通宵debug是全世界程序员的宿命,谷歌也不能例外。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-24 05:36 , Processed in 0.054640 second(s), 7 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部