近来火爆扑克圈的人工智能Libratus与人类顶尖牌手的比赛最后以人工智能压倒性胜利(14bb/100hand)而告终,其核心是用算法逼近博弈论最优策略即GTO (Game theoryoptimal,是一个有点尴尬的扑克界专用术语)。而它的开发者表示,理论上真正的GTO策略还能取得对现版本大概15bb到35bb的优势,而同时注意,参赛的四位顶尖牌手无一不是熟知GTO理论并在过去几年付出大量研究的,由此可见GTO本身的强大和可盈利性,也说明了在这个竞技游戏上我们还有很大的学习和进步空间。
但GTO可能是当今扑克界最被人误用的词汇,笔者希望竭尽所能,跟大家分享自己对GTO的一些粗浅理解和常见的实战应用。这篇先从概念说起:
1,石头剪刀布,输的人喝酒,
我们和对手都很会观察并实时调整,比如我们稍微多出剪刀,对方就多扔一点石头少出布,我们又会变为多出布少出剪刀,长此反复,一言难尽。如果双方都还没喝醉,会调整为彼此每次都1/3概率出剪刀,1/3概率出石头,1/3概率出布。此时游戏达到纳什均衡,即没有任何参与者能单方面调整策略提高期望值(下文略写为EV)。注意纳什均衡指的是一个所有参与者的策略组合,本例中即双方都采用同样的等概率随机混合拳。 但我们通常说的GTO只是采用这个策略组合中某一参与方的策略,并不假定游戏本身达到纳什均衡。
2,对方自持酒量太好,决定让我们一拳,比如永远不出布,此时的纳什均衡是?
如果我们不领情,可以仍然使用上例的GTO策略即完美混合拳,此时对方不管怎么混合他的石头或者剪刀,双方喝酒概率都仍然一样,对方的确无法单方面提高甚至EV,但这是GTO吗?不是。因为我们可以单方面提高EV。
既然对方不出布,我们显然此时不需要再出剪刀。我们只需要考虑混合石头和布,假设我们出石头概率为X,布的概率为1-X,既然我们要让对方无法提高EV,只需要让他在两种极端情况(一直出石头和一直出剪刀)的EV相等即可。(将对方喝酒设为收益1,我们喝酒设为收益-1)
即:Es(一直出石头)= 1-X = Ej(一直出剪刀)= X- (1-X) X = 2/3;即此时我们应该2/3的时候出石头,1/3出布。EV为1/3. 同样可以解得对方需要 2/3的时候出石头, 1/3出剪刀。对方EV为-1/3.
此时双方都无法再单独调整策略提高EV,游戏进入纳什均衡,此策略组合即我们双方的GTO策略相加。
这个例子虽然简单,但却涉及到几个重要且常见的GTO误区。
误区1:只要令对方无法提高EV的策略就是GTO策略。上面可见,很多时候会同时存在多个这样的策略使得对方的决定无法提高他的EV,但GTO是令我们EV最高的那个策略。这个误区本系列会在后面应用场景中反复纠正,比如一些极化的场景中下注不够大,比如在范围过弱的时候跟注所谓的最低防守频率,这都是常见的“伪”GTO带来的EV流失。
误区2:GTO只是防守策略,保证不被对方剥削,却也无法盈利。 此误区或者不解在国内外的各种论坛上屡见不鲜,从第一个石头剪刀布的例子也难免会形成这样的印象:虽然对方无法针对我们,但我们也完全无法降低对方EV。 但扑克是更接近于第二个看似不公平的石头剪头布的游戏,光位置优势就能造成EV的很大差别,但这个是大家轮流来,相当于这局我先让你一拳,下局你再让我一拳,总体却是公平的。如果我们完美执行GTO,对方的让拳局我们可以保证取得1/3的EV,而对方在我们的让拳局偏离GTO,很可能他的1/3EV就流失甚至变成负的。举个常见的例子,河牌我们过牌,对方这里本来应该全下他的价值牌及混合适当比例的诈唬,但对方只是用价值牌下注了半个底池,而我们在易地而处的时候用了正确的下注,两手牌加在一起就是巨大的EV差别(下篇将具体计算分析)。
“误区”3:GTO和最大化剥削策略(简称为MES)格格不入,相去甚远。 我打引号是因为这可能不应该称为误区,但我们可以换一种方式思考。MES是当我们发现对方相对比较持续的在某个地方偏离GTO的时候,我们采用相应的方式去针对。此例中,对方也许不是存心让拳,而是不自觉的严重偏离了GTO而导致从不出布,这在实际的游戏中并不少见,但我们可能对对方怎样混合他的石头和剪刀一无所知。那此时的MES 策略就等于加上这个先决条件(对方不会出布)的GTO策略。即我们可以把MES当成一种改变了一定规则的特殊游戏下的GTO策略,这样的思考方式可以把如何最大化EV很好的统一在一个框架下,也符合现在各种流行的GTO软件的设计思路。在我们比较清楚GTO策略是什么的时候,一方面很利于我们观察到对方的偏离,另一方面,观察到偏离后我们可以用同样的思路迅速找到MES去针对对方。
误区4 : GTO可以使我们在所有扑克游戏中立于不败之地,这不是能从上面的例子说明的误区,但却可以从定义里面看出。纳什均衡只保证任何一方不能单独行动增加他的EV,当我们在一个零和单挑游戏里面,这的确保证了我们EV只可能增加即处于不败之地。但如果游戏是多人的时候,可能出现对方的行动导致对方和我们的EV同时降低而使得其他参与方获益。一个常见的例子,6人单桌比赛到了3人的泡沫期,我们是筹码领先者,根据GTO我们可以利用ICM压制去推一个很宽的范围,但碰上一个激进的玩家可能会跟注一个比他的相应GTO策略宽得多的范围,此时他毫无疑问EV是降低的,但我们的EV也可能会降低,而第三方的EV却大幅增加。这个例子也可以看出纳什均衡一般是指在非合作博弈的状态下,GTO的应用现多局限于单挑游戏或者单挑底池。
接下来笔者会结合理论和PIOSOLVER软件讨论几个不同的范围分布下相应的双方GTO策略以及大致如何针对对方的偏离。有的情况有确实的解和广泛的应用,有的情况解比较模糊但思考的过程很有帮助。也将会涉及到一些朋友关心的超池下注和关于阻断牌在决策中的作用。大概的目录如下:
(2) 完全极化范围的下注和跟注 (3) 几乎极化范围的下注尺寸和对应策略 (4) 超池的应用总结和误区 (5) 双方范围几乎对称时的攻防和下注尺寸 (6) 常见的一些非对称范围的攻防要点 (7) 阻断牌的应用总结和误区
|