智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

楼主: RichZhu
打印 上一主题 下一主题

GTO(所谓的“博弈论最优”)通俗版

[复制链接]
11#
我是Jsli 发表于 2015-11-29 14:50:42 来自手机 | 只看该作者
本帖最后由 我是Jsli 于 2015-11-29 15:46 编辑

根据上面纳什均衡理论
扑克游戏中是否有gto?

这里以现金HU来说明
1.双方必须从自身利益为出发点.
2.双方对自身利益有明确的判断,并且可以自愿执行.
3.双方的行为对双方产生的利益相等.

双方筹码一样多,双方永远都不弃牌
这个是不是纳什均衡

当然因为扑克室的抽水
所以双方不打牌才是对双方最有利的
就好像2个罪犯都不承认犯罪
12#
我是Jsli 发表于 2015-11-29 15:43:30 | 只看该作者
刚才在路上把扑克中有关对gto认识的一个现象想明白了

再回到这个例子
其經典的例子就是囚徒困境。囚徒困境是一个非零和博弈。大意是:一个案子的两个嫌疑犯被分开审讯,警官分别告诉两个囚犯,如果你招供,而对方不招供,则你将被立即释放,而对方将被判刑十年;如果两人均招供,将均被判刑两年。如果两人均不招供,将最有利,只被判刑半年。于是,两人同时陷入招供还是不招供的两难处境。但两人无法沟通,于是从各自的利益角度出发,都依据各自的理性而选择了招供,这种情况就称为纳什均衡点。这时,个体的理性利益选择是与整体的理性利益选择不一致的。

这里有2点:
1.两个囚犯地位条件对等。设想如果其中一位的爹叫李钢,这个囚犯指定不认罪,因为他爹李刚能摆平.
2.双方自愿达成了这个平衡,任何一方试图不认罪都可能将自己置于更坏的境地.

而扑克双方条件是不对等的
大白话就是扑克水平有差别

所以现实扑克中
双方都愿意把把不弃牌这个纳什均衡的情况不会出现
双方都会想方设法脱离这个平衡
13#
starbit 发表于 2015-11-29 18:07:07 | 只看该作者
请教一下老大 知不知道matthew janda的
对他有什么评价吗

我觉得GTO就是追求一种平衡的打法从而不被对手剥削

当对手的打法是不平衡的时候
你也可以跳出GTO  也可以打得不平衡从而去剥削他的
14#
taiji18 发表于 2015-11-29 18:55:04 | 只看该作者
学习
15#
haoqianruhaose 发表于 2015-11-29 20:32:56 来自手机 | 只看该作者
能举点例子么?
16#
jimmyking 发表于 2015-11-29 23:48:55 | 只看该作者
對於這種通俗的討論,非常的適合我,所以也來說幾句。

我想gto用在撲克中,最通俗的說法,就是“你吹我唔脹策略”。

即是你沒好的對付我的辦法。

例子:一個岩石型的玩家在河牌下注,而且是一個嚴肅的下注如pot size,你對付他的策略很簡單,只是要簡單的棄牌。差不多你拿到2nd nuts才考慮一下,那些第五/第六nuts馬上棄。

所以岩石型不是gto。同理,把把下注亦不是gto。

就以下注而言,gto就是一個黄金比例,有value bet亦有bluff bet,對手不可以簡單全跟又或者全棄來處理,這樣對手無所適從。

另外,跟注亦一樣,你不能全是拿著很強的牌(如2nd到6th nuts)才跟注,否則對手只要把把下注對付你即可。

gto其實是平衡策略,平衡到洽到好處,對方吹你唔脹。

大學之道,在明明德,在親民,在止於至善。

gto,就是止於至善。

我們做的每個決定,包括check/bet/raise/reraise/fold都平衡得很好,就是gto,讓對手難以觸摸。

問題是這個平衡得很好,是一個概念,這裏非常複雜。

因為不同對手,理論上黄金比例不一樣,而且多幾個對手又會不同,而對手不同時段不同狀況又會有影響。

所以,gto 只是理論上的追求。

明乎此,就會知道pre flop raise AK是一個難以定論的課題。
17#
 楼主| RichZhu 发表于 2015-11-30 00:47:58 | 只看该作者
我是Jsli 发表于 2015-11-29 15:43
刚才在路上把扑克中有关对gto认识的一个现象想明白了

再回到这个例子

囚徒困境中是有很多假设/简化的,比如你你招供了,不会一出监狱就因为背叛被同伙打死,自然也不能附带上另一个人的爸爸是李刚。

话说回来,如果罪犯A知道罪犯B的爸爸是李刚,不会认罪,他怎么选择?(假设他出狱了,李刚也不能把他怎么着)

他还是应该选择认罪,因为这样他就会被立刻释放,而李刚之子被判十年(他爸把他捞出去算另案处理)

这个例子的有趣之处在于,整体上说,双方都不招供是对双方最好的结果(只判半年),但这个最佳结果却实现不了,双方都坐2年监狱是“合理的”结果。

这个平衡应该说是各自为自己利益最大化做的选择,尽管每个人都知道有对双方更好的结果,所以与其说是“自愿”,不如说是“被迫”,多少有些害人害己,但又不能不害的意思。

看得有点糊涂的朋友可以看一下囚徒A的选项,就明白了:

A做决定的时候,知道B只有两个可能:招供,和不招供。

如果B招供,A选择不招供,会被判10年;A选择招供,只判2年。招供比不招供强。

如果B不招供,A选择不招供,A被判半年;A选择招供,立刻释放。还是招供比不招供好。

也就是说,从A的角度看,不管B怎么选择,他招供都比不招供结果好,所以他只能招供。

同样的道理,B也只能选择招供。这样就达到双方都判2年的结果。
18#
 楼主| RichZhu 发表于 2015-11-30 00:59:40 | 只看该作者
starbit 发表于 2015-11-29 18:07
请教一下老大 知不知道matthew janda的
对他有什么评价吗

不知道这个人。

只知道他写了一本书,Applications of no limit holdem. 这本书我没看,只看了一下简介和评语。虽然是2+2出版,我一直对2+2比较信任,但还是不推荐大家看。

有人会说,你看都没看,怎么会推荐不推荐的?我只能说,这类书有两种可能,一种是写得真好的,对1%的读者会有帮助,另外99%的读者是浪费时间和买书的钱。另一种是写的不好的,对所有人都是浪费。

这书都出版两年了,如果是前者,业界会有不少后续的讨论,所以前者的可能性不大。

当然,我不能完全肯定。但打牌的人一般做决定都是基于不完全信息,做不完全确定的决策。
19#
 楼主| RichZhu 发表于 2015-11-30 01:04:32 | 只看该作者

到目前为止,还只是陈述事实,后面如果大家不明白,可以一起讨论例子。
20#
 楼主| RichZhu 发表于 2015-11-30 01:07:09 | 只看该作者

我写这篇文章的一个原因,就是希望像你这样的好同志,可以放心使用“最佳应对”这样的描述,而不用担心这个词汇像帝都的空气一样,被轻度污染。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-24 02:30 , Processed in 0.044450 second(s), 7 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部