GTO长什么样(一):硬币游戏 Howard 扑士杂志2016年5月号,转载请注明出处
GTO全称是GameTheory Optimization,或者GameTheory Optimal,中文可称为博弈论最优解。GTO是扑克届最近流行的热词,据说掌握了GTO就可以秒杀一切扑克高手。到底对打扑克有多大作用,我不敢说。本系列文章(希望还有热情保持写下去)只准备构造几个最简单的数学模型,来看看一个GTO是长什么样子,是怎么计算出来的。这些模型,可能跟扑克有关,也可能跟扑克完全无关。
第一个模型,是个很简单的摆硬币的游戏。
玩家甲和玩家乙各有一枚硬币。游戏是双方各投掷硬币,然后同时打开。
输赢规则是这样: 1. 两枚硬币正反面相同,则甲赢5元。
2. 甲为反,乙为正,乙赢10元。
3. 甲为正,乙为反,乙赢1元。
这游戏的EV很好算:甲正乙正、甲反乙反、甲正乙反、甲反乙正四种情况的概率都是1/4。每玩4次,乙平均就会赢1块钱: 10+1-5-5 = 1
所以乙每次的EV是0.25元。随机投掷硬币对乙有利。
如果我们把规则改一下,甲和乙的硬币不是随机投掷的,而是事先按自己的意愿摆好,藏在一张纸下,双方都摆好后再拿出来对比,情况会有什么变化?
如果甲的心理猜测能力比乙强,他能有效的提高自己的EV,比随机投掷硬币的每次-0.25要好一点。
但即使甲自认为心理猜测能力很差,也可以通过数学和逻辑来提高自己的EV。换句话说,甲可以精确计算出自己摆硬币的正反比例,使得自己的摆法是最优化(Optimal)的。
在这里,Optimal的含义是,只要甲按照该比例来混合硬币的正反,那么他的EV就是固定的。无论乙摆全正、全反、还是以任何比例混合正反,都不会影响甲的EV。
当然,这也就是甲的GTO策略。
甲该怎么计算他的GTO策略呢?关键在于此:既然乙无论全摆正还是全摆反都不会影响到甲的EV,那么我们就按照乙全正和全反两种极端情况来寻找一种EV相等的策略,这就是正确答案。我们不需要去担心乙摆一部分正一部分反的情况。
为什么?
假设甲已经找到了一种策略,按照这种策略摆硬币,无论乙全正还是全反,甲都能获得固定收益,比如每手8分钱吧。二人玩了100次,乙摆出正面60次,摆出反面40次。
我们人为把这个游戏分为两部分。一部分乙摆出60次正面,这部分乙的策略是“全正”。甲的收益是8分×60次 = 4.8元。 另一部分乙摆出40次反面,这部分乙的策略是“全反”。甲的收益是8分×40次=3.2元。
甲的总收益是4.8+3.2= 8元。这跟按照每次8分,100次,8分×100 =8元完全等价。
因此,我们只要计算对了极端情况,就不用再管混合的。知道了这些,就简单了,寻找GTO变成了初中代数问题。
先来看乙摆全正的情况下,甲的EV。假设在甲的GTO策略中,正面的比例是h,反面的比例是1-h。
甲出正面时,二人都正,甲赢5元;
甲出反面时,甲反乙正,甲输10元。 甲的平均EV是:5h -10(1-h) = 15h - 10
再来看乙摆全反的情况下,甲的EV。 甲出正面时,甲正乙反,甲输1元;
甲出反面时,二人都反,甲赢5元。 甲的平均EV是:-h +5(1-h) = 5 - 6h
令二者相等,15h- 10 = 5 - 6h,得到h= 15/21 = 5/7
貌似我们已经得出结论:甲每7次中摆出5次正面,2次反面,就是他的GTO策略。
来验证一下,这7次里面如果乙全部摆出正面,甲有5次赢5元,2次输10元,总共7次下来赢5*5-2*10= 5元,每次的EV是5/7 =0.71元。
如果乙全部摆*出反面,甲有5次输1元,有2次赢5元,总共-5*1+ 2*5 = 5元,每次的EV仍然是5/7 =0.71元。
事实上,无论乙用什么比例混合正反面,甲拿到的EV总是每次0.71元。 这比随机投掷时甲每次输0.25元要强的太多了。
这是一个很简单计算GTO模型,在其他情况下,可能计算起来很复杂,但思路都是一样的,就是寻找对方的极端情况,计算EV,再令两端极端情况EV相等,这就会得出GTO解。
接下来的几篇,我计划把模型逐渐扩展到扑克领域,直到最后模仿简单的二人德州。这个过程会比较费劲,说实在的我也不知道自己的知识储备能不能应付得来。不过,本系列的意图也不是探讨太理论的东西,而是两点:1.GTO最优解怎么推导出来;2推导出来后的解大约是什么样子。只要这两点能做到,还望读者原谅文章的疏漏和含混。
|