智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 29044|回复: 53
打印 上一主题 下一主题

河牌下注/跟注的GTO策略

[复制链接]
跳转到指定楼层
1#
yyy6 发表于 2015-1-23 17:20:24 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
模型假设
1,我们假设在河牌的时候玩家A的手牌范围已经极化,而玩家B的牌力只能赢所有A的诈唬。
2,不管是A没有位置先考虑bet,或者B在前位先过牌给A,我们假设这里最多只有一次下注和一次跟注(即不考虑玩家B在前位下阻断注或者B在后位加注A的下注)。
3,通过前面的action。A和B都大概知道这里A的强弱牌比例。

设:
河牌下注前的底池大小为1.
A的下注大小为X(如果下注)
A的强牌比例为R
A的弱牌诈唬频率为F
B的跟注频率为Y(显然R/F/Y都在0和1之间)

我们现在讨论:
1,玩家A的GTO策略

对不熟悉GTO的玩家再提一下,GTO是使得对方无法通过改变策略来提高他的期望回报(ev)的策略。在这里对方B的策略只涉及到以什么频率跟注来试图抓A的诈唬。显然A的所有强牌都必须下注,所以我们实际上是在计算A的弱牌诈唬频率,即F为多少时,可以使得不管B以什么频率Y跟注B的期望回报(ev)都相等。列出B的ev:

a)A放弃诈唬过牌,B直接赢下底池,ev:(1-R)*(1-F).
b)A诈唬下注X,B跟注,ev:(1-R)*F*Y*(X+1)
c)A价值下注X,B跟注,ev: R*Y*(-x)
d)  A诈唬/价值下注X,B弃牌,ev:0. 我们以这里为ev的参考临界点。选择其他临界点不影响结论。

所以B的ev是(1-R)*(1-F)+(1-R)*F*Y*(X+1)-R*Y*X

我们求F使得上面Y的系数为0(这样不管Y多少B的ev相等,即B无法通过改变策略来改变ev),得到A的GTO诈唬频率为:F = RX/(1+X-R-RX)。这时候B的ev就是(1-R)*(1-RX/(1+X-R-RX))

比如A的强牌比例只有20%(R=0.2),而河牌他下注了1个底池(X=1),那么从这个式子可以得出他的GTO诈唬频率应该是12.5%. 而B的ev为0.7.注意到由于A的强牌比例只有20%,在下注前底池为1的时候B的ev是0.8,也就是A通过下注压缩了B的ev。这里有很多人对GTO有一个误区认为GTO是不增加自己ev的行为。实际上从这里可以看出A通过GTO的下注频率提高了自己的ev。

2,玩家B的GTO策略

同理,B的GTO策略是使得A无法通过调整A的诈唬频率来改变A的ev。我们只需要列出A的期望式:

a)A放弃诈唬过牌,B直接赢下底池,ev:0.以此为ev参考点
b)A诈唬下注X, B跟注,ev:(1-R)*F*Y*(-X)
c)A价值下注X,B跟注,ev:R*Y*(X+1)
d) A诈唬/价值下注X,B弃牌,ev:(R+(1-R)*(1-F))(1-Y)

所以A的ev是(1-R)*F*Y*(-X)+R*Y*(X+1)+(R+(1-R)*F)(1-Y) (可以验证A的ev和上面B的ev和为1,即底池的现有死钱

同理,我们解出Y使得F的系数为0,得到B的GTO跟注频率为Y = 1/(1+X).这时候A的ev就是R(2-1/(1+X))

注意这里正好与A的强弱牌比例无关。如果河牌A的下注正好是一个底池,B的GTO跟注频率就是50%(这里我看过一个ISSAC HAXTON的采访他也提到过这个频率,当时没算,现在算是验证了)。而A的ev是1.5R。

细心的读者要问了,如果A这里强牌比例高达90%,他下注了一个底池,B还要去跟注吗?按照定义,跟注50%在这里仍然是GTO。A的ev为1.5×0.9=1.35,不会因为A的bluff频率F改变。但是显然从提高B的ev(压缩A的ev)来说B简单100%弃牌给A的下注就可以。这时候Y=0,A的ev是 R+(1-R)*F=0.9+0.1F。可见A可以通过提高诈唬频率F到100%来“剥削”B,所以B的策略不是GTO。但是即使F=1,他的ev也是1(即拿下现有底池),对方的ev也比1.35要低。那么当A的强牌比例超过多少的时候B应该100%弃牌呢?很简单,数学上看使上式中Y的系数为正即可(设F=1,因为这时候即使A诈唬100%他的弱牌我们也弃牌),即B的跟注频率Y越大,A的ev会越高,可以得出R>=(X+1)/(2X+1).或者说A的弱牌<=1-R=X/(2X+1), 注意,X/(2X+1)正好是A给B的底池赔率。所以当A给出的底池赔率大于他的弱牌比例的时候。B弃牌的策略会优于GTO,这也符合我们的直觉。


这里进一步强调上面的观点,GTO并不一定是对ev无影响,可能是提高我们的ev,也可能是降低我们的ev。

现在我们有双方的GTO策略,那么我们可以来看当某一方偏离GTO的时候另一方针对性策略是什么。

3,玩家A的针对性策略

从两个式子来看A的ev是关于F的单调函数。当B的跟注频率过低即Y<1/(1+X)时,A需要诈唬100%(F=1)达到最大EV。回到最开始假设的例子,如果下注一个底池(X=1),A的强牌比例是0.2,而B的跟注频率<50%的时候A需要诈唬100%,这时候A的ev是1-1.4Y。我们从上面知道当A用GTO策略的时候B的ev为0.7,即A的ev为1-0.7=0.3.因为这里Y<0.5,所以A的ev>0.3且随着Y的减少增大。针对性策略的ev应该永远不小于GTO的ev。


反过来,如果B的跟注频率过高即Y>1/(1+X),我们需要从不诈唬自己的弱牌(F=0),这时候A的ev是R+RYX。回到这个例子变为0.2+0.2Y.因为Y>0.5,所以A的ev同样大于0.3,且随Y的增加而变大。


我们再进一步研究一下A的下注大小X。

a)如果B使用的是GTO策略,我们知道A的ev是R(2-1/(1+X)),是一个对X的单调递增函数。所以A的策略应该是进行最大的下注(NL里面就是ALL IN,PL里面为下注一个pot即X=1).在这样的情况下如果X无限大,A的ev能达到2R。但是我们上面讨论过的边界条件限制了B不会在赔率不够的情况下跟注,所以当R>=0.5时,A只需要根据R来下一个赔率刚好的X就可以,即X=R/(2R-1)-1,并且下注100%的时候。这时候A的ev永远都是1.在POT LIMIT的情况下显然A应该用X=1,这时候A的最大EV是1.5R.

b)如果B偏离GTO。我们知道B的GTO跟注频率应该是1/(1+X), 这里我们需要假设B的偏移的函数形式。再代入A的ev公式对X进行求导使得我们能得出X的最合理值使得A的ev最大化。

举个例子,假设B的跟注频率是1.2/(1+X),显然他跟注太多,我们这里转为从不诈唬。然后将F=0,Y=1.2/(1+X)代入A的ev公式变为:2.2R - 1.2R/(1+X),在这个简单的假设下是一个对于X的单调函数,那么我们这里还是下最大的可能注。在POT LIMIT的情况下EV变为1.6R。而X非常大的时候EV可以达到2.2R。

4,玩家B的针对性策略

从B的ev式子里面可以看出是关于Y的单调函数。所以当A的诈唬频率高于F = RX/(1+X-R-RX)时,B简单的跟注所有下注。比如我们的例子X=1,R=0.2如果A的诈唬高于12.5%的话B的ev变为0.6+0.8F>0.7.当F=1的时候ev可以达到1.4.

反过来如果A的诈唬频率过低。B简单的对所有下注弃牌,Y=0,ev变为(1-R)*(1-F).回到上面的例子,R=0.2,如果F=0,B的ev来到0.8,实现了他的全部死钱价值。

希望通过这个简单的模型加深大家对GTO的理解。这方面国外或者国内很可能有类似或者更系统的讨论,我也懒得去做literature research,如有雷同,纯属巧合。如有错误或者遗漏的地方,欢迎大家批评指正。



评分

1

查看全部评分

分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏14
2#
昆仑苍狼 发表于 2015-1-23 17:43:30 | 只看该作者
先顶再看
3#
西红柿哥哥 发表于 2015-1-23 19:52:14 | 只看该作者
先顶再看

最近很多小野模失业

我猜
4#
luckypanda 发表于 2015-1-23 20:16:29 | 只看该作者
先加精华再看。
5#
dengxianqi 发表于 2015-1-23 23:06:20 | 只看该作者
这帖子居然没什么人讨论,感觉有点悲哀啊。

6#
Howard 发表于 2015-1-24 00:21:14 | 只看该作者
花了两小时验证完毕。数学方面没有发现错误,全文水平非常高。

对我而言两处亮点很有启发意义,是我以前没有想到或者没有深究的。

第一处是第二部分的“细心读者会问”。这部分以前也想过但是楼主采用新颖的视角加以解读,读完给人以big picture的清晰感。

第二处是第三部分的 A的下注大小X对EV的影响。以前我没有深究过X特别大会发生什么。现在明白,X特别大时,A能取得“几乎”两倍于自己的“showdown equity”。比如,直接亮牌,A能赢40%,那么通过下100000倍锅底,且构造下注时value 和bluff为1:1 (或者说60% air中bluff三分之二),B只好几乎全部fold,造成A能赢下80%的锅底。B只能捡到A check时的那20%

好文!

评分

1

查看全部评分

7#
lililili11 发表于 2015-1-24 02:40:19 | 只看该作者
以前我也研究过“AKQ问题”,然后包括引申出来的bet size加大,下注方能够攫取到更多的底池权益,然后还有防守方的Block下注,下注量多大能够使得blocking bet优于GTO check等等。

问题在于,对实战没有指导意义。可能是我以前打的级别太低了,最近一年多又只是在打SNG。但是在实战中,作为下注方而言,我们要考虑的始终是“这一手牌的利润最大化”,而GTO要求我们不管诈唬还是价值,下注量都是一样大,这样就不现实了。很可能我们价值大一些,诈唬小一些,每手牌的利润才是最大的,整体利润加起来更加远远超过GTO的策略。

GTO考虑的是如果尽量攫取更大的底池权益,而我们实际上每手牌的任务不仅仅要考虑拿下底池,还要尽量从对手口袋里再扣一点钱出来。

另外真的要做GTO的频率的话,得自己记频率的吧?或者提前设计range 分布,譬如顶部的百分之多少,底部的百分之多少,采取同样的打法,从而使得它们正好能够形成GTO的频率?但是如果还有剩下的牌呢,怎么办,再换一种bet size吗?还是说这些剩下的牌采用同样的bet size,然后再调整其他range分布,来保证我们始终保持这样的GTO频率呢?

也就是说,要在河牌做GTO的行动,得在行动之前就对自己处在这样一个spot,整个range的分布,每个分布采取哪一种打法,都要了然于胸吧?感觉好难。而且range里很多牌还得加权,有些牌不是一定会采取这样的line打到河牌的。

8#
lililili11 发表于 2015-1-24 03:19:37 | 只看该作者
前面说的安排自己的range分布是一大问题。另外对手B河牌check的时候,在实战中,几乎一定有一定比例的慢打的牌,这就大大限制了我们gto下很大的注来抢夺底池权益。而我们自己作为b,什么时候慢打强牌,中等牌什么时候block,什么时候转化为诈呼等等,都是非常复杂的情况,使得这样一个简单的模型在实战中根本不适用。而做出适合实战的安排,则是浩大的工程了,甚至可能没办法做到。
9#
jimmyking 发表于 2015-1-24 05:17:08 | 只看该作者
大學之道,在明明德,在親民,在止於至善。

止於至善,是不是GTO?

我下注,當中有value,亦有偷雞,比例剛好,令你跟也難,棄也難。

這個比例就是optimal,亦即是止於至善。
10#
Whyylu 发表于 2015-1-24 10:46:04 | 只看该作者
很仔细得读了一下全文,数学方面非常完善,论据论点都说得非常好。这一论析从数学角度说明了一般玩家从感觉上得到的根据对方投机频率来决定跟住频率的理论依据。

不过我不明白的是GTO理论对于实战,或者说提高扑克水平有多少的帮助。

1. 这一问题,也就是bluff与否,抓bluff与否只是诸多扑克问题中的一个,更多别的问题,比如起手牌和位置选择,每一条街的分析,GTO是否有相应分析?

2. 玩家的目标是最大化EV,而GTO的目标是让对方的选择无法改变EV。事实上,很多时候(也许是大部分时候),GTO选择的结果是让对方得到了一个非常高的EV,即使对方的选择无法改变这个非常高的EV。那GTO又有何意义呢?

3. 霍总所说的,10000:1的下注比例,对方全部fold,可是面对喜欢用10000:1下注的对手,你只要简单的check所有的nuts或者接近nuts的牌给对手,然后抓住一次对手的bluff就可以了。

4. 在上文的GTO讨论中,似乎忽略了A玩家在有牌的情况下,做一个较小下注所能得到的EV。比如X=1的满锅下注得到的EV与X=0.5的半锅下注的EV差。这一差值才是玩家真正的EV。而这一差值又取决于玩家整体的玩法。

5. 即使计算了这个EV差,依然难以在实战中帮助玩家作出最优化的决定。因为最后的EV最大化决策主要取决于A玩家的bluff比例,真牌比例,A玩家认为B玩家在当前情况下跟住的几率。所以提高扑克水平的关键还是在于分析每一条街上对手的牌力范围,和各种情况下对手的倾向。另外一些比较tough的玩家会给对手一些比较难的选择,比如真牌价值下注,有些玩家可能只在天牌情况下下大注,而某些玩家会在确定对方牌力中等,比如说顶对顶脚,而在自己超对的情况下选择做一个大的下注。面对这样的对手时,分析会变得更加困难。

个人觉得扑克水平提高取决于:

1. 选择合适的spot,比如起手牌,位置,合适的牌面(每条街)进行战斗,让自己最大概率拥有比较好处理的牌和位置。比较好处理包括拥有比对方好的牌(无论是哪条街),拥有比对方好的信息等等。很多喜欢bluff的玩家喜欢非常松得在各种位置玩各种糟糕的起手牌在这一点上是很吃亏的,因为他大大增加了自己使用一手弱于对方的牌和对方战斗的几率。

2. 根据对方的行为和有限的开牌,迅速把握对手的思维水平和各种情况下的倾向,然后在每条街都能够对对手的牌力范围作出最大程度的分析和定位,并根据此作出最佳的对应。

3. 情绪管理。每天去牌桌的唯一目标就是对每一手牌作出最佳决策,而非赢钱。赢不赢钱只有一半取决于自己的决策,另一半取决于运气。如果一天下来决策都做的不错,但还是输钱,自己还是可以给自己打个满分。而分析自己是不是作出了最佳决策其实在很多时候不容易。但即使自己决策做错了,也没有什么,它只是真实反映了自己当前的水平,只要能从中正确吸取教训就可以了。大多数牌手水平难以提高的根本原因是难以“正确”从中吸取教训。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-20 21:21 , Processed in 0.065365 second(s), 8 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部