智游城

标题: GTO长什么样(一):硬币游戏 [打印本页]

作者: Howard    时间: 2016-12-16 22:48
标题: GTO长什么样(一):硬币游戏
GTO长什么样(一):硬币游戏
Howard 扑士杂志20165月号,转载请注明出处

GTO全称是GameTheory Optimization,或者GameTheory Optimal,中文可称为博弈论最优解。GTO是扑克届最近流行的热词,据说掌握了GTO就可以秒杀一切扑克高手。到底对打扑克有多大作用,我不敢说。本系列文章(希望还有热情保持写下去)只准备构造几个最简单的数学模型,来看看一个GTO是长什么样子,是怎么计算出来的。这些模型,可能跟扑克有关,也可能跟扑克完全无关。

第一个模型,是个很简单的摆硬币的游戏。

玩家甲和玩家乙各有一枚硬币。游戏是双方各投掷硬币,然后同时打开。

输赢规则是这样:
1. 两枚硬币正反面相同,则甲赢5元。
2. 甲为反,乙为正,乙赢10元。
3. 甲为正,乙为反,乙赢1元。

这游戏的EV很好算:甲正乙正、甲反乙反、甲正乙反、甲反乙正四种情况的概率都是1/4。每玩4次,乙平均就会赢1块钱:
10+1-5-5 = 1

所以乙每次的EV0.25元。随机投掷硬币对乙有利。

如果我们把规则改一下,甲和乙的硬币不是随机投掷的,而是事先按自己的意愿摆好,藏在一张纸下,双方都摆好后再拿出来对比,情况会有什么变化?

如果甲的心理猜测能力比乙强,他能有效的提高自己的EV,比随机投掷硬币的每次-0.25要好一点。

但即使甲自认为心理猜测能力很差,也可以通过数学和逻辑来提高自己的EV。换句话说,甲可以精确计算出自己摆硬币的正反比例,使得自己的摆法是最优化(Optimal)的。

在这里,Optimal的含义是,只要甲按照该比例来混合硬币的正反,那么他的EV就是固定的。无论乙摆全正、全反、还是以任何比例混合正反,都不会影响甲的EV

当然,这也就是甲的GTO策略。

甲该怎么计算他的GTO策略呢?关键在于此:既然乙无论全摆正还是全摆反都不会影响到甲的EV,那么我们就按照乙全正和全反两种极端情况来寻找一种EV相等的策略,这就是正确答案。我们不需要去担心乙摆一部分正一部分反的情况。

为什么?

假设甲已经找到了一种策略,按照这种策略摆硬币,无论乙全正还是全反,甲都能获得固定收益,比如每手8分钱吧。二人玩了100次,乙摆出正面60次,摆出反面40次。

我们人为把这个游戏分为两部分。一部分乙摆出60次正面,这部分乙的策略是“全正”。甲的收益是8分×60 = 4.8元。
另一部分乙摆出40次反面,这部分乙的策略是“全反”。甲的收益是8分×40=3.2元。

甲的总收益是4.8+3.2= 8元。这跟按照每次8分,100次,8分×100 =8元完全等价。

因此,我们只要计算对了极端情况,就不用再管混合的。知道了这些,就简单了,寻找GTO变成了初中代数问题。

先来看乙摆全正的情况下,甲的EV。假设在甲的GTO策略中,正面的比例是h,反面的比例是1-h

甲出正面时,二人都正,甲赢5元;
甲出反面时,甲反乙正,甲输10元。
甲的平均EV是:5h -10(1-h) = 15h - 10

再来看乙摆全反的情况下,甲的EV
甲出正面时,甲正乙反,甲输1元;
甲出反面时,二人都反,甲赢5元。
甲的平均EV是:-h +5(1-h) = 5 - 6h

令二者相等,15h- 10 = 5 - 6h,得到h= 15/21 = 5/7

貌似我们已经得出结论:甲每7次中摆出5次正面,2次反面,就是他的GTO策略。

来验证一下,这7次里面如果乙全部摆出正面,甲有5次赢5元,2次输10元,总共7次下来赢5*5-2*10= 5元,每次的EV5/7 =0.71元。

如果乙全部摆*出反面,甲有5次输1元,有2次赢5元,总共-5*1+ 2*5 = 5元,每次的EV仍然是5/7 =0.71元。

事实上,无论乙用什么比例混合正反面,甲拿到的EV总是每次0.71元。
这比随机投掷时甲每次输0.25元要强的太多了。

这是一个很简单计算GTO模型,在其他情况下,可能计算起来很复杂,但思路都是一样的,就是寻找对方的极端情况,计算EV,再令两端极端情况EV相等,这就会得出GTO解。

接下来的几篇,我计划把模型逐渐扩展到扑克领域,直到最后模仿简单的二人德州。这个过程会比较费劲,说实在的我也不知道自己的知识储备能不能应付得来。不过,本系列的意图也不是探讨太理论的东西,而是两点:1.GTO最优解怎么推导出来;2推导出来后的解大约是什么样子。只要这两点能做到,还望读者原谅文章的疏漏和含混。


作者: 西红柿哥哥    时间: 2016-12-16 23:20
本帖最后由 西红柿哥哥 于 2016-12-16 23:22 编辑

不懂gto能成为顶尖高手嘛?
作者: Howard    时间: 2016-12-17 00:44
西红柿哥哥 发表于 2016-12-16 09:20
不懂gto能成为顶尖高手嘛?

我认为完全可以。

首先要说明的一点就是,GTO是一种科学的总结,是根据零和游戏的特点,根据一系列的逻辑推理,总结出的客观规律。

这话是什么意思呢?这也就是说,GTO不是一种“打法”。

客观规律的意思是,你懂与不懂,它永远在那里。
打法的意思是,你知道了,懂了,才会去用它;不懂或者没听说过,就不会用。

举个例子,
牛顿发现了万有引力定律。
跳高基本在比谁挑战万有引力最牛逼的一个事儿。
牛顿跳高,能比不懂万有引力的索托马约尔牛逼吗?万无可能。
不但索老,朱建华也可以轻松跳过牛顿2倍的高度。

他们不懂万有引力还跳那么高,不等于研究引力定律就没有用。
首先,也是最重要的,也是跟我的原因吻合的,是研究客观规律本身就是一个令人愉悦的过程。
其次,研究引力已经造成了无数的副产品,卫星上天,飞机,登月,这都不说了
最后,对于一个技术精益求精的跳高者,也许一点点对引力的研究可以帮助他找到自身发力姿势的一个小毛病,因此提高1cm。

不懂引力定律的人,引力定律照样对他起着作用,不会因为他不懂就多一分或者少一分;
不懂GTO的人,也在受GTO(以及背后逻辑)的限制,不会因为他不懂就可以”脱离GTO“

GTO不是“打法”,意思是GTO不是“背越式”。

背越式是一种技术,不懂且没听过背越式的运动员,会有很大劣势。
不懂背越式,在目前已经很难成为世界级选手了


作者: 伟大的墙    时间: 2016-12-17 01:08
雷哥一出手,你的GTO立马没电
作者: kinder    时间: 2016-12-17 03:16
Howard 发表于 2016-12-17 00:44
我认为完全可以。

首先要说明的一点就是,GTO是一种科学的总结,是根据零和游戏的特点,根据一系列的逻 ...

好有说服力的解释。

作者: ceaxyz    时间: 2016-12-17 09:58
这个例子感觉比MOP的简单点哈哈。。
作者: BTCD    时间: 2016-12-17 21:56
人模狗样哈哈
作者: PlutoFu    时间: 2016-12-19 12:34
好文~坐等后续~
作者: yyy6    时间: 2016-12-19 13:09
Howard 发表于 2016-12-17 00:44
我认为完全可以。

首先要说明的一点就是,GTO是一种科学的总结,是根据零和游戏的特点,根据一系列的逻 ...

先说观点,我认为完全不可以,至少非常不可能。

感觉例子举得不太恰当。跳高等等是有每个人运动能力的区别的,但益智类游戏并不存在,或者可以假定每个人的运动能力都相等。那回到跳高,如果运动能力相当的情况下,一个人懂得去找一个引力小一点的地方跳,成绩明显就会提高。

又或者老霍主页的例子,看似非常简单的GTO解决思路,但是如果不通过这个方法去解决,让甲和乙哪怕玩10万次,经验也并不一定能帮助甲找到5/7这个精确答案。扑克里面,实际上有相当多的地方GTO已经是有明确答案了,即使是那些没有完全解决的地方,这个思考的思路也能让我们的模糊答案远远超过我们的经验。因为我们的经验往往是来自于很多不同的(大概率是低水平的)对局和对手,这些经验在顶尖高手的对局中往往变成了弱点。

有看过国外付费视频的人应该知道,现在所有的顶尖高手的几乎所有视频都在讲GTO,没有其他的东西,大家都在用软件/逻辑/数学推导找各个牌面下的解。

但这只是针对番茄哥关于成为“顶尖”高手的问题,如果大家要说不系统学GTO也能战胜哪怕德扑圈最高的级别我并无异议。这好比100米短跑你说有些人不经过专业训练也能跑过小学生一样。但即使博尔特,他如果没有专门的科学训练,而且是长期保持这样的科学训练,他应该也不能在世界级比赛夺冠。

个人的体会,即使我们不是去对抗顶尖高手,从GTO的角度去思考长期帮助也会非常大,就好像我们最开始可能一直不了解范围的概念,大家可以说不了解的时候也在不知不觉的使用,但是了解这些概念和他很多延伸的东西的时候,思路就会变得专注快速有效,而且对了解更深的概念也会帮助很大。

作者: bomb    时间: 2016-12-19 13:56
yyy6 发表于 2016-12-19 13:09
先说观点,我认为完全不可以,至少非常不可能。

感觉例子举得不太恰当。跳高等等是有每个人运动能力的区 ...

Phil Ivey懂GTO吗?

作者: yyy6    时间: 2016-12-19 14:18
bomb 发表于 2016-12-19 13:56
Phil Ivey懂GTO吗?

这个我不知道,他曾经是不是专门研究过,或者现在是不是在专门研究。我个人感觉以他现在的精力可能并没有这么做。

ivey曾经肯定是最顶尖的牌手之一,现在也轮不到我来评论,他研究没研究过GTO,水平肯定也远在我之上。不过他最近3年还是4年网上都是输钱的,总共输了800万刀以上吧,好像是这几年网上最大的输家。而且我最近几次看他上PS高额桌,输赢不论,但是都是上桌就满+有人排队,下桌桌子很快就散了。

作者: 1025    时间: 2016-12-19 23:46
学习了
作者: Howard    时间: 2016-12-20 01:57
yyy6 发表于 2016-12-18 23:09
先说观点,我认为完全不可以,至少非常不可能。

感觉例子举得不太恰当。跳高等等是有每个人运动能力的区 ...

歪总跟哥看法的区别,主要是对于“顶尖”的定义上。

歪总的定义大约是世界top 0.001%的玩家,这些人有雄厚的数理逻辑基础,人聪明肯钻研,对GTO研究到非常精细的地步,可以说,我们平常所见的那些扑克明星跟这些人打起来,占不到任何便宜,而且几乎一定要吃亏。更可怕的是这些人还很年轻,前景非常广阔。

我的“顶级”定义,至少是回复番茄哥帖子时候,我意思是能够在身边的圈子里面是盈利最多或者前三多的,能战胜自己负担得起的德扑圈最大局,跟低手交战如砍瓜切菜,跟高手交战至少也能不显著下风。如果用数字形容,大约是top 0.1%左右的玩家,显然这个水平已经比错,但是歪总的顶尖还要再从这里面进行一次百里挑一


作者: Howard    时间: 2016-12-20 01:59
比如,doyle brunson算顶尖吗?在我看来可以算。在大多数人看来应该也能算。但是歪总看来,不但不能算,而且差得太远太远

从某种意义上我觉得歪总是对的
作者: Howard    时间: 2016-12-20 02:13
ceaxyz 发表于 2016-12-16 19:58
这个例子感觉比MOP的简单点哈哈。。

基本就是mop上的 对这种自己搞不太定的例子,构造一个怕弄巧成拙 还是照搬人家的为佳。能搞懂的我自创 半懂不懂可借鉴 完全不懂要照搬
作者: 老陈    时间: 2016-12-20 03:02
BTCD 发表于 2016-12-17 07:56
人模狗样哈哈

你这样回贴是什么意思?
对你提出警⚠️,本板块不准如此回贴。
作者: sama    时间: 2016-12-20 07:07
看見yy和howard的讨论,自我感覺很不足,要重新学習
作者: Howard    时间: 2016-12-21 04:09
原文只计算了甲的GTO策略,要计算乙的GTO策略,可用相似的方法计算。

但要想知道乙GTO策略的EV,不一定非得知道丫的策略。因为我们已经知道甲的GTO策略:5/7的正面,2/7的反面。且我们知道了甲使用GTO策略时的EV:每次$0.71

根据GTO的定义,乙无论怎么摆,甲都是每手0.71。言下之意,乙当然每手都是-0.71。这包括乙全正、全反、任意比例正反、或者以GTO策略摆放。

如果不信,可以验证。(最后计算出来,乙的GTO应该是2/7正,5/7反)

那位说了,两人都随机投掷,乙每次EV+0.25,这怎么GTO了反而下降到-0.71,要你这GTO有何用!

首先,GTO不管你要不要它,它是个客观存在。并不是我或者什么人硬发明出一种“先进”打法。
其次,甲如果已经GTO了,那么无论乙是否GTO,二者EV都是固定的:甲+0.71,乙-0.71;
根据对称性,乙如果GTO了,无论甲是否GTO,二者EV也是固定的:甲+0.71,乙-0.71;

根据上面两句话得出,只要任意一方GTO,二者的收益就都固定了。

这句话可以这么凑合着直观的想象:
拿一块正方形手帕,在中间画个十字,使之成为一个“田”字形。
然后用手指捏住四边的中点,抻开了,让中间的十字处在一个水平面上,且是手帕的最高点,其他部分自然耷拉着,四个角最低

这大概就是二维EV图形的样子。横纵坐标分别代表双方的策略,手帕上点的高低就是某人EV,比如甲的。

或者还不太像,可能要掀起对角线的两个角来,让两角高于十字


这虽然是一个翻硬币的题目,但是里面GTO的思想跟扑克是一致的。
作者: BTCD    时间: 2016-12-21 11:47
引力波在发现之前也是存在的吧
作者: 老陈    时间: 2016-12-21 16:17
本帖最后由 老陈 于 2016-12-21 06:21 编辑

设甲摆正面的频度为:p,乙摆正面的频度为:q
甲的
EV=5pq + 5(1-p)(1-q) - 10(1-p)q - p(1-q)
=5pq + 5 - 5p - 5q +5pq - 10q + 10pq - p + pq
=21pq - 6p - 15q + 5
=p(21q - 6) - 15q +5
=q(21p - 15) -6p +5

p=15/21=5/7时EV与乙的策略无关。
q=6/21=2/7时EV与甲的策略无关。

把q=5/7代入公式得EV=5/7。

如果甲摆正面少于5/7,那乙就全摆正面;
如果甲摆正面多于5/7,那乙就全摆反面;
如果乙摆正面多于2/5,那甲就全摆反面;
如果乙摆正面多于2/5,那甲就全摆正面。
谁先改变策略谁吃亏。

甲率先改变策略,乙使用正确的对策,只能是EV减少;乙率先改变策略,甲使用正确的对策,只能使EV增加。如果一方使用GTO策略,另一方的任何努力都是徒劳的。

有的朋友会问了,既然努力是徒劳的,那掌握GTO还有什么用处?答案是不但有用,而且用途特别大。用途在于判断对手是否偏离了GTO,如果是,我们就应该采取相应的策略,来惩罚对手,使自己获利。反之,如果对手也掌握GTO,我们就不要偏离GTO,否则会遭到对手的惩罚。

作者: 老陈    时间: 2016-12-21 20:47
本帖最后由 老陈 于 2016-12-21 06:50 编辑
Howard 发表于 2016-12-20 14:09
原文只计算了甲的GTO策略,要计算乙的GTO策略,可用相似的方法计算。

但要想知道乙GTO策略的EV,不一定非 ...


如果手帕左边表示甲全部摆反面,右边表示全部摆正面,下面表示乙全部摆反面,上面表示乙全部摆正面,则表示手帕初始高度为5/7,左上角高度为-10,右下角高度为-1,右上角高度为5,左下角高度为5。十字的左面5/7,十字上面5/7。
手帕不应该四个角都往下耷拉。
作者: Howard    时间: 2016-12-21 22:37
老陈 发表于 2016-12-21 06:47
如果手帕左边表示甲全部摆反面,右边表示全部摆正面,下面表示乙全部摆反面,上面表示乙全部摆正面,则表 ...

使用上下左右来描述非常靠谱。陈爷对图形的描述也很到位。哥昨天试图用online三维函数的工具Octave画出来,结果好久没用了基本命令都忘了,没弄出来

作者: Howard    时间: 2016-12-22 04:43
本帖最后由 Howard 于 2016-12-21 14:49 编辑

把陈爷函数做了几个图,以描述这种 “手帕中间有十字,对角的两角提溜起来”的样子。图形的Z轴(上下方向),描述的是点,而不是函数值,可以忽略,只看曲面形状即可

函数采用陈爷的 甲EV = =q(21p - 15) -6p +5


60×60尺度:

[attach]6221[/attach]


10×10尺度:
[attach]6223[/attach]


10×10 从p看过来,可以看到在p=5/7的时候,是一条水平线:
[attach]6225[/attach]

10×10 从q看过来,可以看到在q=2/7的时候,是一条水平线:

[attach]6224[/attach]

-------Octave脚本,供自己查看--------
f=@(p,q) q*(21*p-15)-6*p+5
ezmesh(f,[0,1])
ezmesh(f,[0,1],10)

view(10,10)
view(80,10)


作者: Howard    时间: 2016-12-22 04:51
说来也巧,我跟陈爷同时想到了对此制图,他用Excel,我用Octave,基本上同时做出来,待会他上来贴一下,看看形状一样不。Excel的可以做成surface不透光的表面,看起来可能更舒服一些
作者: 老陈    时间: 2016-12-22 09:22
本帖最后由 老陈 于 2016-12-21 19:26 编辑

我做的图如下:




作者: dengxianqi    时间: 2016-12-23 04:37
写得太好了!!!滔滔江水,绵绵不绝~ 所以,AK该怎么打?
作者: 老陈    时间: 2016-12-23 22:25
本帖最后由 老陈 于 2016-12-23 08:27 编辑
老陈 发表于 2016-12-21 19:22
我做的图如下:

EV分布表如下:
横向为甲的策略,纵向为乙的策略。

作者: 老陈    时间: 2016-12-24 02:51
从表中可以看出,数字排列是均匀的。如果一方策略不变,EV是另一方策略的线性函数。函数式子本身也可以这样解释。
作者: ceaxyz    时间: 2016-12-29 01:18
Howard 发表于 2016-12-20 02:13
基本就是mop上的 对这种自己搞不太定的例子,构造一个怕弄巧成拙 还是照搬人家的为佳。能搞懂的我自创 半 ...

最近在替别人翻译toy gaming。。。感觉又深刻理解了GTO,可能核心还是要看MOP的内容。。

的确就像技术哥所说的,现在看看从前自己对于GTO的理解,感觉弱爆了哈哈哈

作者: ceaxyz    时间: 2016-12-29 01:20
老陈 发表于 2016-12-22 09:22
我做的图如下:

这简直跟我paper里的图一样了。。囧rz

作者: AKsReid    时间: 2017-6-24 22:16
这个帖子居然没看到?先顶再看
作者: Jimihandrix    时间: 2017-6-25 16:28
老陈 发表于 2016-12-23 22:25
EV分布表如下:
横向为甲的策略,纵向为乙的策略。

牛逼!能否突出显示纳什均衡配对?
作者: doglas    时间: 2017-6-25 20:36
看的云山雾绕,这点数学不够用,先补点数学
作者: 小北_YZ1V7    时间: 2017-6-27 13:18
提示: 作者被禁止或删除 内容自动屏蔽
作者: markaren    时间: 2018-8-30 23:28
老陈 发表于 2016-12-21 16:17
设甲摆正面的频度为:p,乙摆正面的频度为:q
甲的
EV=5pq + 5(1-p)(1-q) - 10(1-p)q - p(1-q)

把q=5/7代入公式得EV=5/7。

这里的p已经吗?代进去好像消不掉p




欢迎光临 智游城 (http://zhiyoucheng.co/) Powered by Discuz! X3.2