由卡耐基梅隆大学教授Tuomas Sandholm和他的学生Noam Brown共同研发的扑克人工智能(AI)Libratus,在无限注德州单挑游戏中大胜四位顶尖人类选手。与Libratus交手12万手牌后,四位人类选手全部水下,总共输掉了170万筹码,也就是1.7万个大盲注,每百手亏损近14个大盲注。Brown表示,Libratus还有很大的改进空间,他预测下一代AI将轻松打爆Libratus,甚至可以达到每百手50个大盲注的赢利。
最近接受CardPlayer采访时,Brown谈到了刚刚过去的人机大战,以及扑克AI未来的发展。
采访内容如下:
CardPlayer(CP):你对这次AI大胜人类的结果感到惊讶吗? Noam Brown(NB):是的,挺惊讶。它对上之前的版本Claudico,可以每百手赢利10到12个大盲注,比人类在2015年对上Claudico时要赢得多,所以我觉得Libratus会有微弱的优势。它的表现真的很了不起。
CP:所以你并不觉得Libratus对上人类时可以每百手赢利14个大盲注? NB:第一次人机大战时,人类选手其实胜之不武,因为他们当时找到了Claudico的弱点,并一直在利用,比如不断加注Claudico的平跟,这是他们最终获胜的主要原因。而Libratus并不会利用对手的弱点,但它还是可以每百手赢Claudico 10到12个大盲注,所以这表明Libratus其实在单挑游戏中比人类强不少。
CP:人类某个阶段差点就完成了反超,你当时有没有觉得Libratus的弱点被找到了? NB:是的,第一周比赛快结束时,人类确实有反超的迹象,当时他们都在猜测Libratus的打法,进行数据分析,试图找出可以利用的漏洞,不过没有告诉我分析结果,但从其它渠道听到的有关他们得出的结论,我认为大部分不靠谱。比如,有一天,他们拿80%的牌3-Bet,因为通过数据分析,发现AI在面对特定3-Bet尺寸时很弱,我不觉得这是一个弱点,是数据让他们产生了错觉。但他们有些分析是准确的,比如,他们注意到AI在面对特定翻牌前加注尺寸时表现不佳,我们研发的时候认为这些都不是什么大问题,结果在实战中确实可以被对手利用,不过幸运的是,当人类选手晚上睡觉时,AI可以一直学习,并迅速填补这些漏洞,这就是Libratus第二周会变得更强的原因。
CP:每个session后都会对AI的策略进行调整,这很重要?是不是这样才公平?因为毕竟人类选手赛后也会在一起讨论。 NB:这里有很多误解。并不是我们对AI进行调整,我们并不会告诉它更多的4-Bet或弃牌,事实上,人类会在翻牌前或翻牌进行不同尺寸的下注,我们事先已经为AI植入了很多下注尺寸,所以它知道怎么应对2倍、2.5倍或3倍的翻牌前加注,但如果人类加注2.75倍,AI就会把它近似为3倍。到了晚上,AI会基于算法自己模拟对手下注2.75倍时该如何行动。这种算法的关键就在于,它可以帮助AI不断地适应人类的打法。Libratus并不会向他们猜测的那样利用对手的弱点,它只是单纯地学习如何更好地应对人类选手各种尺寸的下注。
CP:那是不是对AI来说,转牌和河牌怎么行动不那么重要了? NB:转牌和河牌阶段,AI通常要花些时间才行动。它真的需要时间来验算,不过还是有很多人没有注意到,针对人类选手在转牌或河牌的每次下注,AI都会花时间来验算自己的策略,而且都是在打牌过程中实时计算的。
CP:Claudico没有这种实时计算的能力吗?还是有,但不够完美? NB:Claudico确实可以在河牌实时计算,但功能很弱。首先,它不会考虑阻断牌,当它手中有As,而公共牌有三张黑桃时,他的策略会和手中有Ac,公共牌有三张黑桃时一样。其次,Claudico不会验算。我认为验算能力是Libratus这次大胜的关键所在。还有,我们让它在转牌就拥有了这种能力。
CP:Libratus何时会完美使用GTO? NB:没有人知道AI什么时候会学会GTO,我们其实有办法做到,但费用太高了,不过下一步应该会尝试,我预测完美使用GTO的 AI对上Libratus,可以每百手赢利15个大盲注,这是我的粗略估算,当然也可能是5个或50个。
CP:哇,扑克AI还有这么大的提升空间? NB:很难说。以前的扑克AI最大的弱点是在转牌和河牌不考虑阻断牌,这在高级别的游戏中很重要,但Libratus没有这个问题,这是Libratus和Claudico相比最大的进步之处。目前,在处理阻断牌方面已经没有提升空间了,但也许在下注尺寸方面作出改进后,可以提升15%左右的优势。
CP:很多人说Libratus在转牌和河牌非常激进,经常超底池下注。你认为AI的这种打法是完美的吗? NB:超底池下注确实让我们很惊讶,我们并没有用人类的数据来训练Libratus,它从来没有看过一手人类的牌局,它在使用独一无二、自认为的最佳策略,和人类认为的最佳策略不一样。而大的超底池下注正是它的策略之一,还有反主动下注,这真的难以置信。之前laudico也会这样,经常在底池很小的情况下全押,我认为这是不对的,没有达到平衡,但Libratus做到了平衡,这是它成功的关键。
CP:很多人关心AI对线上扑克未来的发展意味着什么。 NB:我至少可以向人们保证,我们没有让Libratus打线上,也没有计划这样做。当然,我们不能阻止其他人使用我们的技术发明机器人。我不会过多的猜测AI会怎样影响线上扑克,因为我也不是很清楚,我知道扑克机器人已经在被使用了,各大扑克室也在想办法清除它们,我不知道最终哪边会获胜。
CP:随着比赛的进行,筹码量减少了或增加了怎么办?这对结果有影响吗?AI可以玩500到1000个大盲注的深筹码吗? NB:200个大盲注被选择是因为这个筹码量被用在每年的机器人扑克大赛中,AI研究者们每年都会拿自己的作品和其他人比赛。200大盲注的深度其实对AI来说是一个挑战,因为筹码越深,选择更多,难度也越大。以我的理解,200个大盲注也是人类玩家每次打牌的最大买入量,所以这是一个很合适的尺寸,对大家都公平。如果是100个大盲注,AI可以很好的应对,也有可能表现更好。问题是如果增加到500或1000个大盲注会怎样,说实话,我认为情况会一样。并不是因为这对AI来说变得简单,而是对人类选手来说变得更困难,我并不认为有人经常玩500或1000个大盲注这么深的现金游戏。在这个筹码深度,像AI经常做出的超底池下注变得更重要,我不知道人类选手有没有胆量这么做。
CP:AI现在可以战胜多人游戏了吗? NB:已经有团队在研究三人桌了,一般而言,Libratus的技术在应对多人游戏时效果也会不错,但问题不在技术,而在如何评估结果。因为三人局中,即使你完美的使用GTO策略,但还是输钱的,因为另两位对手可能打伙牌。所以如果举办一场AI和五位人类选手参加的比赛,最后会很难评估AI是不是比人类更优秀。这就是为什么人机大战都是单挑游戏,在单挑游戏中,比赛的结果更有意义。我认为六人桌游戏目前超出了Libratus或类似AI的能力。不过机器人扑克大赛最近增加了六人桌游戏,所以现在针对六人桌的研究正在进行,我认为很快会出成果。如果对Libratus做点小改进,它在未来两年内就可以在六人桌游戏中打败人类。当面对多个对手的时候,我们不清楚使用GTO策略,或专注于剥削弱玩家,哪个更好。我们和扑克玩家们讨论过这件事,还没得出结论。人类选手在利用对手漏洞,和剥削弱玩家方面还是比AI有优势。
|