完全极化范围的下注和跟注 -- GTO的概念和应用（2）

yyy6 · 发表于 2017-4-8 02:17:27

本帖最后由 yyy6 于 2017-4-8 02:19 编辑

为方便大家阅读或者跳过不感兴趣的段落，先放提纲：

1，定义 -- 什么叫完全极化

2，结论 -- 极化方该以什么频率什么尺寸下注，抓诈唬方怎么防守

3，结论证明

A，数学推导

B，逻辑推导

C，软件演示

4，误区 -- 常见的误区和误用

5，如何控制频率及实战举例 -- 阻断牌的使用

6，偏离及针对 -- 如何观察到对方的偏离及如何调整

1，定义

完全极化，即一方的手牌范围里面有一部分(坚果端)对上对方的手牌范围赢率100%，剩下的另一部分(空气端)对上对方的手牌范围赢率0%。通俗的说，一方是极化范围（polarized range）：要么是相对的坚果，要么是空气，另一方是牌力封顶的范围（cappedrange）：即没有坚果，所有手牌都只能抓诈唬。

2，结论

设此时可以下注的最大额度为X倍底池 ,无限德州即为全下.

极化方应该主动下注X，其中X/(2X+1)的比例为诈唬.

比如我们剩两个底池,我们这时候有20个组合,6个是坚果,14个是空气,我们这里应该全下所有的6个坚果组合,再全下4个空气组合,使得诈唬比例达到2/(2*2+1)即40%.剩下10个空气组合过牌放弃.

范围封顶的一方应该跟注最低防守频率，这里为 1/（1+X）.

比如对方下注一个底池,应该50%的时候跟注. 对方下注2倍底池应该1/3的时候跟注，以此类推。（关于最低防守频率的使用和误区可能会专门写篇文章介绍。）

这里有一个关于双方底池份额(equity)的隐含假设,会在后面误区里面澄清,当极化方equity过高下注过大的时候,范围封顶的一方应该全部弃牌.

3，结论推导

A) 数学推导

由于篇幅有限,这里不列详细过程,仅说明推导思路,仍然是从概念入手,设定极化方的下注频率和下注尺寸后列出双方EV公式,然后寻求下注频率使得对方的EV不能提高,这样解得对方的EV后可以看出来是一个关于下注尺寸的单调递减函数,所以我们应该最大化下注.

B) 逻辑推导

这个简单的情况正好可以用逻辑全部推导.由于范围封顶方没有任何下注意义(无法价值到对方,亦无法诈唬对方,对方空气端赢率是0即无须保护),所以不管谁有位置,范围封顶方永远不会下注,而极化方只能主动下注,范围封顶方只有一个动作,即在极化方下注的时候决定跟注还是弃牌.

极化方GTO策略

显然,如果我们诈唬过多,对方可以提高跟注比例,诈唬过少对方可以提高弃牌比例,那这个过多过少,是相对什么?哪里是刚好?

根据纳什平衡的定义,极化方要让抓诈唬方这个动作的决策无法提高他的EV,怎么办?让他每一次跟注面对的胜率和赔率相匹配.即以底池胜率混合诈唬的频率即可.就好比我们做庄开一个完全公平的1赔1的扔硬币游戏,你爱玩不玩,EV不会变.又或者开一个1赔37(不是36)的俄罗斯轮盘.比如用上面的例子,我们下注两个底池,对方需要的胜率是2/(2*2+1)即40%, 既然对上我们的价值端是0%胜率,对上我们的诈唬端胜率是100%,所以我们需要有40%即X/(2X+1)的诈唬.此时对方每次跟注面对的胜率和赔率都40%。

此时我们是完美平衡,对方无法通过他的行动改变EV,但需要选择一个下注尺寸使得我们EV最大,才是GTO策略.注意我们可以混合的诈唬比例X/(2X+1)是单调递增函数,所以我们下注越大,可以混合的诈唬比例越高,既然对方跟注和弃牌EV始终一样,不妨假设对方总是弃牌,那么我们总共的下注组合越多,我们的底池份额就越高.所以结论就是最大下注。

以上面例子的数字,我们20个组合里面6个价值组合,本身公平的底池份额是6/20=30%。但下注额外的诈唬组合会使得我们EV提高，比如下注一个底池，此时我们可以有1/3的诈唬，即6个价值组合加3个空气组合，我们的EV提高为(6+3)/20=45%，但如果我们全下2个底池，我们就可以下注4个空气组合，EV提高为(6+4)/20=50%。

抓诈唬方GTO策略

现在来看抓诈唬方的防守策略,显然我们如果跟注过多,对方可以减少诈唬甚至全部价值下注,如果我们跟注过少对方可以诈唬所有的空气,使得EV提高到100%. 那过多过少是相对于什么? 这个标准就是GTO的频率,怎么来?

同样,纳什均衡要求极化方也无法单方面提高他的EV,即无法通过调整他的诈唬比例获利.那我们让他的每一个诈唬组合EV都为0,即诈唬拿下底池的机会和诈唬付出的成本匹配. 假设对方下注X个底池,他付出的成本是X,如果我们弃牌他拿下是当前底池即为1,所以我们防守1/(1+X),他的每一次诈唬都EV为0. 还是上例的数字,对方的任何诈唬组合下注2个底池,我们1/3的时候跟注, 他输掉2个底池,我们2/3的时候弃牌,他赢下一个底池,EV为-1/3*2+2/3 * 1=0.

C) 软件演示

我们构建一个最简单的河牌情况,公共牌22233, 极化方是6个AA组合和14个QQJJTT组合,对方是KK. 底池大小是100, 后手筹码200.我们给PIOSLVER河牌双方多个下注尺寸让它自由选择:

软件毫不犹豫选择了全进，正好为10个组合，6个AA，和4个QQ/JJ/TT。

而防守的一方果然跟注1/3.

4，使用误区

误区一，极化方下注任何尺寸，只要平衡就是GTO，这个已经在上面说过，不再重复。这里的GTO只能是最大下注。

误区二，极化方坚果过多的时候也该全下，而面对全下诈唬方仍然防守最低抵抗频率。这是我上面由于篇幅原因没仔细展开的隐含条件，即，极化方必须有足够的空气使得对方底池赔率不高于他的原本底池胜率。改一下上面的例子，假设我们一共只有9个组合，其中6个为价值组合，那如果我们这里仍然下注2倍底池，对方应该永远弃牌，因为我们给的底池赔率对方需要40%的胜率，但他实际的胜率只有3/9即1/3. 此时我们的EV为100%。虽然我们下注任何超过对方胜率的尺寸（1倍底池）都能达到100%，但从实战的角度，我们这里只需要下注最临界的尺寸即1个底池，使得对方的胜率和赔率相匹配为1/3，这样可以避免万一对方的范围并没有封顶时带来的额外损失，也给了对方额外的犯错空间。

误区三，当抓诈唬方也有空气的时候防守整个范围的最低防守频率。比如上面软件的例子，如果对方是6个KK还有3个TT的组合，即多了3个比计划方的诈唬断还差的空气组合，此时不是防守9个组合的1/3，而是仍然只能跟注1/3的KK,即2个组合。实战的意义是抓诈唬的时候一定要从比较确定能打败对方诈唬端的范围里面防守相应频率，而不是整个范围。

还有一个错误使用，代价非常高，就是我们错误判断了抓诈唬方的范围，对方的范围并没有封顶，这时候是不完全极化的情况，我将会在下一篇展开讨论，此时的下注尺寸往往不应该是全下，甚至不应该超池。

5，如何控制频率及实战举例

抓诈唬方的跟注选择

那么例子中抓诈唬方要防守1/3，怎么决定这1/3？

如果所有情况相等，像软件里面的例子，那就随机混合就好，看看表上的秒针，0到20间跟注，20到60间弃牌，就是1/3.但往往组合和组合间是有差别的，这里基本就涉及到阻断牌：

比如经过多次行动到了河牌，牌面是3h3c4h8d9s，抓诈唬方范围是所有超对，而极化方是三条3以上的牌力或者破产的红桃听牌和顺子停牌

A)优先跟注有阻断对方价值端的牌，比如AA就应该优先于KK,因为我们是KK的时候对方有更多的A3组合，而K3组合翻牌前会少很多。同理，同样是AA,优先跟注Ad和As，因为对方的同色A3会多过杂色A3. 再比如在底池限注奥马哈里面，到河牌3红桃无公对面，对方极化为A花或者只有一张红桃A的阻断牌时，我们跟注要考虑手上的红桃个数，红桃越多越应该优先跟注。

B)优先跟注没有阻断对方空气端的组合，比如同样是KK,要先跟注没有红桃K的KK，这样对方会有更多的带K的红桃听牌。同样的例子举不胜举。

C)如果完全没有阻断牌的时候，优先跟注范围的顶端。这是避免我们对对方范围判断的失误或者对方错误的诈唬了一些有秀牌价值的牌。

那极化方如何选择他的诈唬组合？

极化方的诈唬选择：

A）优先诈唬阻断对方强成牌的组合，比如上面的例子优先诈唬带A的组合，这时候一方面对方AA更少，另一方面对方会认为我们A3更多。再比如优先诈唬带红桃9的听牌，防止我们对对方范围的错误判断而撞上对方的坚果99.

B）优先诈唬没有阻断对方空气的组合，这个和上面同理，我们对对方的范围并不是完全确定的，对方也可能是在听牌，比如这个面45黑桃和45红桃，我会优先选择45黑桃来诈唬，因为对方会多出一些红桃的听牌组合，A5黑桃和A5红桃之间我们该优先诈唬A5黑桃,这样对方不但多了带红桃A的听牌，而且即使对方是AA，对方有红桃A的概率也上升，而如上所述，对方有红桃A的时候会降低抓我们诈唬的频率。

6，偏离及针对

一般确定对方的偏离需要很多的手数，但有了上面的知识储备，可以帮助我们更快发现对方的偏离，或者做出概率更大的猜测。比如对方使用完全没有阻断牌的组合跟注，或者同理使用不该在诈唬范围内的组合，我们都可以更大概率相信对方在偏离。

一旦偏离后的调整其实是非常简单的，比如对方跟注过多，我们只需要减少一定诈唬，反之亦然。而极化方如果诈唬过少，抓诈唬方就更多的弃牌。但我们调整的时候也要注意保护好自己的信息，因为一旦我们去针对对方，我们本身也偏离了GTO，如果对方再调整回来我们将得不偿失。所以一定要是对方相对长期的比较确定的偏离才值得我们放弃GTO频率去针对。

老陈 · 发表于 2017-4-8 02:40:52

公式推导过程可以参考我在德州扑克板块发的《GTO应用之2 全进Bluff》。结论与楼主的结论一致。

老陈 · 发表于 2017-4-8 02:52:19

本帖最后由老陈于 2017-4-7 13:17 编辑

范围封顶的一方应该跟注最低防守频率，这里为 1/（1+X）.
----------
“最低防守频率”是不是改为“最佳防守频率”或“最优防守频率”更准确一些。其实防守频率高了也不行，极化方可以降低bluff频率来提高EV。
有点咬文嚼字，请见谅。

Howard · 发表于 2017-4-8 02:53:04

老陈发表于 2017-4-7 12:40
公式推导过程可以参考我在德州扑克板块发的《GTO应用之2 全进Bluff》。结论与楼主的结论一致。 ...

陈爷的系列跟歪总的系列分别独立完成，结论一致（必须一致，不一致就麻烦了），且内容互为补充。堪称奇迹般巧合。但也暗示着一些东西：

1. Libratus之后，GTO正在引起广泛关注，特别是那些有能力计算和逻辑推理的人。

2. 扑克进行到中级阶段，必须学习GTO，知道GTO大概长什么样子，靠判断敌人对GTO的偏离度执行打击。

3. 扑克进行到高级阶段，全都是GTO。GTO就是扑克的全部。

keybattle · 发表于 2017-4-8 02:59:08

- -我觉得我本来准备写的overbet文章要被这篇cover完了。。。。。

看来没有出头之日了

keybattle · 发表于 2017-4-8 03:03:30

Howard 发表于 2017-4-8 02:53
陈爷的系列跟歪总的系列分别独立完成，结论一致（必须一致，不一致就麻烦了），且内容互为补充。堪称奇迹 ...

GTO自从mathematics of poker那本书出来就广泛讨论，高额线上的reg们都研究了好几年了。。

国内的德扑落后几年，才导致最近这1-2年才开始火起来了

泥中土 · 发表于 2017-4-8 03:10:08

本帖最后由泥中土于 2017-4-8 04:13 编辑

Howard 发表于 2017-4-8 02:53
陈爷的系列跟歪总的系列分别独立完成，结论一致（必须一致，不一致就麻烦了），且内容互为补充。堪称奇迹 ...

感觉伟大的墙的深筹码系列其实也是个。是个200bb以上的，深筹码的，最优游戏理论的，框架模型。

benny_xmy · 发表于 2017-4-8 03:35:23

说句题外话，y总为啥近年不打PS了？

keybattle · 发表于 2017-4-8 04:05:10

benny_xmy 发表于 2017-4-8 03:35
说句题外话，y总为啥近年不打PS了？

因为y总打圈了啊。。。。PS的action dry得不如，，哪像圈。。。。

Howard · 发表于 2017-4-8 05:35:11

keybattle 发表于 2017-4-7 12:59
- -我觉得我本来准备写的overbet文章要被这篇cover完了。。。。。

看来没有出头之日了 ...

所以发帖要趁早。即使我知道你是独立成文的，但多数读者难保有别的想法。

		自动登录	找回密码
密码			注册

完全极化范围的下注和跟注 -- GTO的概念和应用（2）

本帖子中包含更多资源

客服中心

投诉建议