|
模型假设
1,我们假设在河牌的时候玩家A的手牌范围已经极化,而玩家B的牌力只能赢所有A的诈唬。
2,不管是A没有位置先考虑bet,或者B在前位先过牌给A,我们假设这里最多只有一次下注和一次跟注(即不考虑玩家B在前位下阻断注或者B在后位加注A的下注)。
3,通过前面的action。A和B都大概知道这里A的强弱牌比例。
设:
河牌下注前的底池大小为1.
A的下注大小为X(如果下注)
A的强牌比例为R
A的弱牌诈唬频率为F
B的跟注频率为Y(显然R/F/Y都在0和1之间)
我们现在讨论:
1,玩家A的GTO策略
对不熟悉GTO的玩家再提一下,GTO是使得对方无法通过改变策略来提高他的期望回报(ev)的策略。在这里对方B的策略只涉及到以什么频率跟注来试图抓A的诈唬。显然A的所有强牌都必须下注,所以我们实际上是在计算A的弱牌诈唬频率,即F为多少时,可以使得不管B以什么频率Y跟注B的期望回报(ev)都相等。列出B的ev:
a)A放弃诈唬过牌,B直接赢下底池,ev:(1-R)*(1-F).
b)A诈唬下注X,B跟注,ev:(1-R)*F*Y*(X+1)
c)A价值下注X,B跟注,ev: R*Y*(-x)
d) A诈唬/价值下注X,B弃牌,ev:0. 我们以这里为ev的参考临界点。选择其他临界点不影响结论。
所以B的ev是(1-R)*(1-F)+(1-R)*F*Y*(X+1)-R*Y*X
我们求F使得上面Y的系数为0(这样不管Y多少B的ev相等,即B无法通过改变策略来改变ev),得到A的GTO诈唬频率为:F = RX/(1+X-R-RX)。这时候B的ev就是(1-R)*(1-RX/(1+X-R-RX))
比如A的强牌比例只有20%(R=0.2),而河牌他下注了1个底池(X=1),那么从这个式子可以得出他的GTO诈唬频率应该是12.5%. 而B的ev为0.7.注意到由于A的强牌比例只有20%,在下注前底池为1的时候B的ev是0.8,也就是A通过下注压缩了B的ev。这里有很多人对GTO有一个误区认为GTO是不增加自己ev的行为。实际上从这里可以看出A通过GTO的下注频率提高了自己的ev。
2,玩家B的GTO策略
同理,B的GTO策略是使得A无法通过调整A的诈唬频率来改变A的ev。我们只需要列出A的期望式:
a)A放弃诈唬过牌,B直接赢下底池,ev:0.以此为ev参考点
b)A诈唬下注X, B跟注,ev:(1-R)*F*Y*(-X)
c)A价值下注X,B跟注,ev:R*Y*(X+1)
d) A诈唬/价值下注X,B弃牌,ev:(R+(1-R)*(1-F))(1-Y)
所以A的ev是(1-R)*F*Y*(-X)+R*Y*(X+1)+(R+(1-R)*F)(1-Y) (可以验证A的ev和上面B的ev和为1,即底池的现有死钱)
同理,我们解出Y使得F的系数为0,得到B的GTO跟注频率为Y = 1/(1+X).这时候A的ev就是R(2-1/(1+X))
注意这里正好与A的强弱牌比例无关。如果河牌A的下注正好是一个底池,B的GTO跟注频率就是50%(这里我看过一个ISSAC HAXTON的采访他也提到过这个频率,当时没算,现在算是验证了)。而A的ev是1.5R。
细心的读者要问了,如果A这里强牌比例高达90%,他下注了一个底池,B还要去跟注吗?按照定义,跟注50%在这里仍然是GTO。A的ev为1.5×0.9=1.35,不会因为A的bluff频率F改变。但是显然从提高B的ev(压缩A的ev)来说B简单100%弃牌给A的下注就可以。这时候Y=0,A的ev是 R+(1-R)*F=0.9+0.1F。可见A可以通过提高诈唬频率F到100%来“剥削”B,所以B的策略不是GTO。但是即使F=1,他的ev也是1(即拿下现有底池),对方的ev也比1.35要低。那么当A的强牌比例超过多少的时候B应该100%弃牌呢?很简单,数学上看使上式中Y的系数为正即可(设F=1,因为这时候即使A诈唬100%他的弱牌我们也弃牌),即B的跟注频率Y越大,A的ev会越高,可以得出R>=(X+1)/(2X+1).或者说A的弱牌<=1-R=X/(2X+1), 注意,X/(2X+1)正好是A给B的底池赔率。所以当A给出的底池赔率大于他的弱牌比例的时候。B弃牌的策略会优于GTO,这也符合我们的直觉。
这里进一步强调上面的观点,GTO并不一定是对ev无影响,可能是提高我们的ev,也可能是降低我们的ev。
现在我们有双方的GTO策略,那么我们可以来看当某一方偏离GTO的时候另一方针对性策略是什么。
3,玩家A的针对性策略
从两个式子来看A的ev是关于F的单调函数。当B的跟注频率过低即Y<1/(1+X)时,A需要诈唬100%(F=1)达到最大EV。回到最开始假设的例子,如果下注一个底池(X=1),A的强牌比例是0.2,而B的跟注频率<50%的时候A需要诈唬100%,这时候A的ev是1-1.4Y。我们从上面知道当A用GTO策略的时候B的ev为0.7,即A的ev为1-0.7=0.3.因为这里Y<0.5,所以A的ev>0.3且随着Y的减少增大。针对性策略的ev应该永远不小于GTO的ev。
反过来,如果B的跟注频率过高即Y>1/(1+X),我们需要从不诈唬自己的弱牌(F=0),这时候A的ev是R+RYX。回到这个例子变为0.2+0.2Y.因为Y>0.5,所以A的ev同样大于0.3,且随Y的增加而变大。
我们再进一步研究一下A的下注大小X。
a)如果B使用的是GTO策略,我们知道A的ev是R(2-1/(1+X)),是一个对X的单调递增函数。所以A的策略应该是进行最大的下注(NL里面就是ALL IN,PL里面为下注一个pot即X=1).在这样的情况下如果X无限大,A的ev能达到2R。但是我们上面讨论过的边界条件限制了B不会在赔率不够的情况下跟注,所以当R>=0.5时,A只需要根据R来下一个赔率刚好的X就可以,即X=R/(2R-1)-1,并且下注100%的时候。这时候A的ev永远都是1.在POT LIMIT的情况下显然A应该用X=1,这时候A的最大EV是1.5R.
b)如果B偏离GTO。我们知道B的GTO跟注频率应该是1/(1+X), 这里我们需要假设B的偏移的函数形式。再代入A的ev公式对X进行求导使得我们能得出X的最合理值使得A的ev最大化。
举个例子,假设B的跟注频率是1.2/(1+X),显然他跟注太多,我们这里转为从不诈唬。然后将F=0,Y=1.2/(1+X)代入A的ev公式变为:2.2R - 1.2R/(1+X),在这个简单的假设下是一个对于X的单调函数,那么我们这里还是下最大的可能注。在POT LIMIT的情况下EV变为1.6R。而X非常大的时候EV可以达到2.2R。
4,玩家B的针对性策略
从B的ev式子里面可以看出是关于Y的单调函数。所以当A的诈唬频率高于F = RX/(1+X-R-RX)时,B简单的跟注所有下注。比如我们的例子X=1,R=0.2如果A的诈唬高于12.5%的话B的ev变为0.6+0.8F>0.7.当F=1的时候ev可以达到1.4.
反过来如果A的诈唬频率过低。B简单的对所有下注弃牌,Y=0,ev变为(1-R)*(1-F).回到上面的例子,R=0.2,如果F=0,B的ev来到0.8,实现了他的全部死钱价值。
希望通过这个简单的模型加深大家对GTO的理解。这方面国外或者国内很可能有类似或者更系统的讨论,我也懒得去做literature research,如有雷同,纯属巧合。如有错误或者遗漏的地方,欢迎大家批评指正。
|
评分
-
1
查看全部评分
-
|