智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 18095|回复: 34
打印 上一主题 下一主题

GTO长什么样(一):硬币游戏

[复制链接]
跳转到指定楼层
1#
Howard 发表于 2016-12-16 22:48:55 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
GTO长什么样(一):硬币游戏
Howard 扑士杂志20165月号,转载请注明出处

GTO全称是GameTheory Optimization,或者GameTheory Optimal,中文可称为博弈论最优解。GTO是扑克届最近流行的热词,据说掌握了GTO就可以秒杀一切扑克高手。到底对打扑克有多大作用,我不敢说。本系列文章(希望还有热情保持写下去)只准备构造几个最简单的数学模型,来看看一个GTO是长什么样子,是怎么计算出来的。这些模型,可能跟扑克有关,也可能跟扑克完全无关。

第一个模型,是个很简单的摆硬币的游戏。

玩家甲和玩家乙各有一枚硬币。游戏是双方各投掷硬币,然后同时打开。

输赢规则是这样:
1. 两枚硬币正反面相同,则甲赢5元。
2. 甲为反,乙为正,乙赢10元。
3. 甲为正,乙为反,乙赢1元。

这游戏的EV很好算:甲正乙正、甲反乙反、甲正乙反、甲反乙正四种情况的概率都是1/4。每玩4次,乙平均就会赢1块钱:
10+1-5-5 = 1

所以乙每次的EV0.25元。随机投掷硬币对乙有利。

如果我们把规则改一下,甲和乙的硬币不是随机投掷的,而是事先按自己的意愿摆好,藏在一张纸下,双方都摆好后再拿出来对比,情况会有什么变化?

如果甲的心理猜测能力比乙强,他能有效的提高自己的EV,比随机投掷硬币的每次-0.25要好一点。

但即使甲自认为心理猜测能力很差,也可以通过数学和逻辑来提高自己的EV。换句话说,甲可以精确计算出自己摆硬币的正反比例,使得自己的摆法是最优化(Optimal)的。

在这里,Optimal的含义是,只要甲按照该比例来混合硬币的正反,那么他的EV就是固定的。无论乙摆全正、全反、还是以任何比例混合正反,都不会影响甲的EV

当然,这也就是甲的GTO策略。

甲该怎么计算他的GTO策略呢?关键在于此:既然乙无论全摆正还是全摆反都不会影响到甲的EV,那么我们就按照乙全正和全反两种极端情况来寻找一种EV相等的策略,这就是正确答案。我们不需要去担心乙摆一部分正一部分反的情况。

为什么?

假设甲已经找到了一种策略,按照这种策略摆硬币,无论乙全正还是全反,甲都能获得固定收益,比如每手8分钱吧。二人玩了100次,乙摆出正面60次,摆出反面40次。

我们人为把这个游戏分为两部分。一部分乙摆出60次正面,这部分乙的策略是“全正”。甲的收益是8分×60 = 4.8元。
另一部分乙摆出40次反面,这部分乙的策略是“全反”。甲的收益是8分×40=3.2元。

甲的总收益是4.8+3.2= 8元。这跟按照每次8分,100次,8分×100 =8元完全等价。

因此,我们只要计算对了极端情况,就不用再管混合的。知道了这些,就简单了,寻找GTO变成了初中代数问题。

先来看乙摆全正的情况下,甲的EV。假设在甲的GTO策略中,正面的比例是h,反面的比例是1-h

甲出正面时,二人都正,甲赢5元;
甲出反面时,甲反乙正,甲输10元。
甲的平均EV是:5h -10(1-h) = 15h - 10

再来看乙摆全反的情况下,甲的EV
甲出正面时,甲正乙反,甲输1元;
甲出反面时,二人都反,甲赢5元。
甲的平均EV是:-h +5(1-h) = 5 - 6h

令二者相等,15h- 10 = 5 - 6h,得到h= 15/21 = 5/7

貌似我们已经得出结论:甲每7次中摆出5次正面,2次反面,就是他的GTO策略。

来验证一下,这7次里面如果乙全部摆出正面,甲有5次赢5元,2次输10元,总共7次下来赢5*5-2*10= 5元,每次的EV5/7 =0.71元。

如果乙全部摆*出反面,甲有5次输1元,有2次赢5元,总共-5*1+ 2*5 = 5元,每次的EV仍然是5/7 =0.71元。

事实上,无论乙用什么比例混合正反面,甲拿到的EV总是每次0.71元。
这比随机投掷时甲每次输0.25元要强的太多了。

这是一个很简单计算GTO模型,在其他情况下,可能计算起来很复杂,但思路都是一样的,就是寻找对方的极端情况,计算EV,再令两端极端情况EV相等,这就会得出GTO解。

接下来的几篇,我计划把模型逐渐扩展到扑克领域,直到最后模仿简单的二人德州。这个过程会比较费劲,说实在的我也不知道自己的知识储备能不能应付得来。不过,本系列的意图也不是探讨太理论的东西,而是两点:1.GTO最优解怎么推导出来;2推导出来后的解大约是什么样子。只要这两点能做到,还望读者原谅文章的疏漏和含混。

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏4
35#
markaren 发表于 2018-8-30 23:28:48 | 只看该作者
老陈 发表于 2016-12-21 16:17
设甲摆正面的频度为:p,乙摆正面的频度为:q
甲的
EV=5pq + 5(1-p)(1-q) - 10(1-p)q - p(1-q)

把q=5/7代入公式得EV=5/7。

这里的p已经吗?代进去好像消不掉p
34#
小北_YZ1V7 发表于 2017-6-27 13:18:11 | 只看该作者
最理想的打法?
33#
doglas 发表于 2017-6-25 20:36:41 来自手机 | 只看该作者
看的云山雾绕,这点数学不够用,先补点数学
32#
Jimihandrix 发表于 2017-6-25 16:28:39 | 只看该作者
老陈 发表于 2016-12-23 22:25
EV分布表如下:
横向为甲的策略,纵向为乙的策略。

牛逼!能否突出显示纳什均衡配对?
31#
AKsReid 发表于 2017-6-24 22:16:20 来自手机 | 只看该作者
这个帖子居然没看到?先顶再看
30#
ceaxyz 发表于 2016-12-29 01:20:34 | 只看该作者
老陈 发表于 2016-12-22 09:22
我做的图如下:

这简直跟我paper里的图一样了。。囧rz
29#
ceaxyz 发表于 2016-12-29 01:18:56 | 只看该作者
Howard 发表于 2016-12-20 02:13
基本就是mop上的 对这种自己搞不太定的例子,构造一个怕弄巧成拙 还是照搬人家的为佳。能搞懂的我自创 半 ...

最近在替别人翻译toy gaming。。。感觉又深刻理解了GTO,可能核心还是要看MOP的内容。。

的确就像技术哥所说的,现在看看从前自己对于GTO的理解,感觉弱爆了哈哈哈
28#
老陈 发表于 2016-12-24 02:51:49 来自手机 | 只看该作者
从表中可以看出,数字排列是均匀的。如果一方策略不变,EV是另一方策略的线性函数。函数式子本身也可以这样解释。
27#
老陈 发表于 2016-12-23 22:25:49 | 只看该作者
本帖最后由 老陈 于 2016-12-23 08:27 编辑
老陈 发表于 2016-12-21 19:22
我做的图如下:

EV分布表如下:
横向为甲的策略,纵向为乙的策略。

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-24 06:51 , Processed in 0.050280 second(s), 8 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部