智游城

标题: 河牌下注/跟注的GTO策略 [打印本页]

作者: yyy6    时间: 2015-1-23 17:20
标题: 河牌下注/跟注的GTO策略
模型假设
1,我们假设在河牌的时候玩家A的手牌范围已经极化,而玩家B的牌力只能赢所有A的诈唬。
2,不管是A没有位置先考虑bet,或者B在前位先过牌给A,我们假设这里最多只有一次下注和一次跟注(即不考虑玩家B在前位下阻断注或者B在后位加注A的下注)。
3,通过前面的action。A和B都大概知道这里A的强弱牌比例。

设:
河牌下注前的底池大小为1.
A的下注大小为X(如果下注)
A的强牌比例为R
A的弱牌诈唬频率为F
B的跟注频率为Y(显然R/F/Y都在0和1之间)

我们现在讨论:
1,玩家A的GTO策略

对不熟悉GTO的玩家再提一下,GTO是使得对方无法通过改变策略来提高他的期望回报(ev)的策略。在这里对方B的策略只涉及到以什么频率跟注来试图抓A的诈唬。显然A的所有强牌都必须下注,所以我们实际上是在计算A的弱牌诈唬频率,即F为多少时,可以使得不管B以什么频率Y跟注B的期望回报(ev)都相等。列出B的ev:

a)A放弃诈唬过牌,B直接赢下底池,ev:(1-R)*(1-F).
b)A诈唬下注X,B跟注,ev:(1-R)*F*Y*(X+1)
c)A价值下注X,B跟注,ev: R*Y*(-x)
d)  A诈唬/价值下注X,B弃牌,ev:0. 我们以这里为ev的参考临界点。选择其他临界点不影响结论。

所以B的ev是(1-R)*(1-F)+(1-R)*F*Y*(X+1)-R*Y*X

我们求F使得上面Y的系数为0(这样不管Y多少B的ev相等,即B无法通过改变策略来改变ev),得到A的GTO诈唬频率为:F = RX/(1+X-R-RX)。这时候B的ev就是(1-R)*(1-RX/(1+X-R-RX))

比如A的强牌比例只有20%(R=0.2),而河牌他下注了1个底池(X=1),那么从这个式子可以得出他的GTO诈唬频率应该是12.5%. 而B的ev为0.7.注意到由于A的强牌比例只有20%,在下注前底池为1的时候B的ev是0.8,也就是A通过下注压缩了B的ev。这里有很多人对GTO有一个误区认为GTO是不增加自己ev的行为。实际上从这里可以看出A通过GTO的下注频率提高了自己的ev。

2,玩家B的GTO策略

同理,B的GTO策略是使得A无法通过调整A的诈唬频率来改变A的ev。我们只需要列出A的期望式:

a)A放弃诈唬过牌,B直接赢下底池,ev:0.以此为ev参考点
b)A诈唬下注X, B跟注,ev:(1-R)*F*Y*(-X)
c)A价值下注X,B跟注,ev:R*Y*(X+1)
d) A诈唬/价值下注X,B弃牌,ev:(R+(1-R)*(1-F))(1-Y)

所以A的ev是(1-R)*F*Y*(-X)+R*Y*(X+1)+(R+(1-R)*F)(1-Y) (可以验证A的ev和上面B的ev和为1,即底池的现有死钱

同理,我们解出Y使得F的系数为0,得到B的GTO跟注频率为Y = 1/(1+X).这时候A的ev就是R(2-1/(1+X))

注意这里正好与A的强弱牌比例无关。如果河牌A的下注正好是一个底池,B的GTO跟注频率就是50%(这里我看过一个ISSAC HAXTON的采访他也提到过这个频率,当时没算,现在算是验证了)。而A的ev是1.5R。

细心的读者要问了,如果A这里强牌比例高达90%,他下注了一个底池,B还要去跟注吗?按照定义,跟注50%在这里仍然是GTO。A的ev为1.5×0.9=1.35,不会因为A的bluff频率F改变。但是显然从提高B的ev(压缩A的ev)来说B简单100%弃牌给A的下注就可以。这时候Y=0,A的ev是 R+(1-R)*F=0.9+0.1F。可见A可以通过提高诈唬频率F到100%来“剥削”B,所以B的策略不是GTO。但是即使F=1,他的ev也是1(即拿下现有底池),对方的ev也比1.35要低。那么当A的强牌比例超过多少的时候B应该100%弃牌呢?很简单,数学上看使上式中Y的系数为正即可(设F=1,因为这时候即使A诈唬100%他的弱牌我们也弃牌),即B的跟注频率Y越大,A的ev会越高,可以得出R>=(X+1)/(2X+1).或者说A的弱牌<=1-R=X/(2X+1), 注意,X/(2X+1)正好是A给B的底池赔率。所以当A给出的底池赔率大于他的弱牌比例的时候。B弃牌的策略会优于GTO,这也符合我们的直觉。


这里进一步强调上面的观点,GTO并不一定是对ev无影响,可能是提高我们的ev,也可能是降低我们的ev。

现在我们有双方的GTO策略,那么我们可以来看当某一方偏离GTO的时候另一方针对性策略是什么。

3,玩家A的针对性策略

从两个式子来看A的ev是关于F的单调函数。当B的跟注频率过低即Y<1/(1+X)时,A需要诈唬100%(F=1)达到最大EV。回到最开始假设的例子,如果下注一个底池(X=1),A的强牌比例是0.2,而B的跟注频率<50%的时候A需要诈唬100%,这时候A的ev是1-1.4Y。我们从上面知道当A用GTO策略的时候B的ev为0.7,即A的ev为1-0.7=0.3.因为这里Y<0.5,所以A的ev>0.3且随着Y的减少增大。针对性策略的ev应该永远不小于GTO的ev。


反过来,如果B的跟注频率过高即Y>1/(1+X),我们需要从不诈唬自己的弱牌(F=0),这时候A的ev是R+RYX。回到这个例子变为0.2+0.2Y.因为Y>0.5,所以A的ev同样大于0.3,且随Y的增加而变大。


我们再进一步研究一下A的下注大小X。

a)如果B使用的是GTO策略,我们知道A的ev是R(2-1/(1+X)),是一个对X的单调递增函数。所以A的策略应该是进行最大的下注(NL里面就是ALL IN,PL里面为下注一个pot即X=1).在这样的情况下如果X无限大,A的ev能达到2R。但是我们上面讨论过的边界条件限制了B不会在赔率不够的情况下跟注,所以当R>=0.5时,A只需要根据R来下一个赔率刚好的X就可以,即X=R/(2R-1)-1,并且下注100%的时候。这时候A的ev永远都是1.在POT LIMIT的情况下显然A应该用X=1,这时候A的最大EV是1.5R.

b)如果B偏离GTO。我们知道B的GTO跟注频率应该是1/(1+X), 这里我们需要假设B的偏移的函数形式。再代入A的ev公式对X进行求导使得我们能得出X的最合理值使得A的ev最大化。

举个例子,假设B的跟注频率是1.2/(1+X),显然他跟注太多,我们这里转为从不诈唬。然后将F=0,Y=1.2/(1+X)代入A的ev公式变为:2.2R - 1.2R/(1+X),在这个简单的假设下是一个对于X的单调函数,那么我们这里还是下最大的可能注。在POT LIMIT的情况下EV变为1.6R。而X非常大的时候EV可以达到2.2R。

4,玩家B的针对性策略

从B的ev式子里面可以看出是关于Y的单调函数。所以当A的诈唬频率高于F = RX/(1+X-R-RX)时,B简单的跟注所有下注。比如我们的例子X=1,R=0.2如果A的诈唬高于12.5%的话B的ev变为0.6+0.8F>0.7.当F=1的时候ev可以达到1.4.

反过来如果A的诈唬频率过低。B简单的对所有下注弃牌,Y=0,ev变为(1-R)*(1-F).回到上面的例子,R=0.2,如果F=0,B的ev来到0.8,实现了他的全部死钱价值。

希望通过这个简单的模型加深大家对GTO的理解。这方面国外或者国内很可能有类似或者更系统的讨论,我也懒得去做literature research,如有雷同,纯属巧合。如有错误或者遗漏的地方,欢迎大家批评指正。




作者: 昆仑苍狼    时间: 2015-1-23 17:43
先顶再看
作者: 西红柿哥哥    时间: 2015-1-23 19:52
先顶再看

最近很多小野模失业

我猜
作者: luckypanda    时间: 2015-1-23 20:16
先加精华再看。
作者: dengxianqi    时间: 2015-1-23 23:06
这帖子居然没什么人讨论,感觉有点悲哀啊。


作者: Howard    时间: 2015-1-24 00:21
花了两小时验证完毕。数学方面没有发现错误,全文水平非常高。

对我而言两处亮点很有启发意义,是我以前没有想到或者没有深究的。

第一处是第二部分的“细心读者会问”。这部分以前也想过但是楼主采用新颖的视角加以解读,读完给人以big picture的清晰感。

第二处是第三部分的 A的下注大小X对EV的影响。以前我没有深究过X特别大会发生什么。现在明白,X特别大时,A能取得“几乎”两倍于自己的“showdown equity”。比如,直接亮牌,A能赢40%,那么通过下100000倍锅底,且构造下注时value 和bluff为1:1 (或者说60% air中bluff三分之二),B只好几乎全部fold,造成A能赢下80%的锅底。B只能捡到A check时的那20%

好文!
作者: lililili11    时间: 2015-1-24 02:40
以前我也研究过“AKQ问题”,然后包括引申出来的bet size加大,下注方能够攫取到更多的底池权益,然后还有防守方的Block下注,下注量多大能够使得blocking bet优于GTO check等等。

问题在于,对实战没有指导意义。可能是我以前打的级别太低了,最近一年多又只是在打SNG。但是在实战中,作为下注方而言,我们要考虑的始终是“这一手牌的利润最大化”,而GTO要求我们不管诈唬还是价值,下注量都是一样大,这样就不现实了。很可能我们价值大一些,诈唬小一些,每手牌的利润才是最大的,整体利润加起来更加远远超过GTO的策略。

GTO考虑的是如果尽量攫取更大的底池权益,而我们实际上每手牌的任务不仅仅要考虑拿下底池,还要尽量从对手口袋里再扣一点钱出来。

另外真的要做GTO的频率的话,得自己记频率的吧?或者提前设计range 分布,譬如顶部的百分之多少,底部的百分之多少,采取同样的打法,从而使得它们正好能够形成GTO的频率?但是如果还有剩下的牌呢,怎么办,再换一种bet size吗?还是说这些剩下的牌采用同样的bet size,然后再调整其他range分布,来保证我们始终保持这样的GTO频率呢?

也就是说,要在河牌做GTO的行动,得在行动之前就对自己处在这样一个spot,整个range的分布,每个分布采取哪一种打法,都要了然于胸吧?感觉好难。而且range里很多牌还得加权,有些牌不是一定会采取这样的line打到河牌的。


作者: lililili11    时间: 2015-1-24 03:19
前面说的安排自己的range分布是一大问题。另外对手B河牌check的时候,在实战中,几乎一定有一定比例的慢打的牌,这就大大限制了我们gto下很大的注来抢夺底池权益。而我们自己作为b,什么时候慢打强牌,中等牌什么时候block,什么时候转化为诈呼等等,都是非常复杂的情况,使得这样一个简单的模型在实战中根本不适用。而做出适合实战的安排,则是浩大的工程了,甚至可能没办法做到。
作者: jimmyking    时间: 2015-1-24 05:17
大學之道,在明明德,在親民,在止於至善。

止於至善,是不是GTO?

我下注,當中有value,亦有偷雞,比例剛好,令你跟也難,棄也難。

這個比例就是optimal,亦即是止於至善。
作者: Whyylu    时间: 2015-1-24 10:46
很仔细得读了一下全文,数学方面非常完善,论据论点都说得非常好。这一论析从数学角度说明了一般玩家从感觉上得到的根据对方投机频率来决定跟住频率的理论依据。

不过我不明白的是GTO理论对于实战,或者说提高扑克水平有多少的帮助。

1. 这一问题,也就是bluff与否,抓bluff与否只是诸多扑克问题中的一个,更多别的问题,比如起手牌和位置选择,每一条街的分析,GTO是否有相应分析?

2. 玩家的目标是最大化EV,而GTO的目标是让对方的选择无法改变EV。事实上,很多时候(也许是大部分时候),GTO选择的结果是让对方得到了一个非常高的EV,即使对方的选择无法改变这个非常高的EV。那GTO又有何意义呢?

3. 霍总所说的,10000:1的下注比例,对方全部fold,可是面对喜欢用10000:1下注的对手,你只要简单的check所有的nuts或者接近nuts的牌给对手,然后抓住一次对手的bluff就可以了。

4. 在上文的GTO讨论中,似乎忽略了A玩家在有牌的情况下,做一个较小下注所能得到的EV。比如X=1的满锅下注得到的EV与X=0.5的半锅下注的EV差。这一差值才是玩家真正的EV。而这一差值又取决于玩家整体的玩法。

5. 即使计算了这个EV差,依然难以在实战中帮助玩家作出最优化的决定。因为最后的EV最大化决策主要取决于A玩家的bluff比例,真牌比例,A玩家认为B玩家在当前情况下跟住的几率。所以提高扑克水平的关键还是在于分析每一条街上对手的牌力范围,和各种情况下对手的倾向。另外一些比较tough的玩家会给对手一些比较难的选择,比如真牌价值下注,有些玩家可能只在天牌情况下下大注,而某些玩家会在确定对方牌力中等,比如说顶对顶脚,而在自己超对的情况下选择做一个大的下注。面对这样的对手时,分析会变得更加困难。

个人觉得扑克水平提高取决于:

1. 选择合适的spot,比如起手牌,位置,合适的牌面(每条街)进行战斗,让自己最大概率拥有比较好处理的牌和位置。比较好处理包括拥有比对方好的牌(无论是哪条街),拥有比对方好的信息等等。很多喜欢bluff的玩家喜欢非常松得在各种位置玩各种糟糕的起手牌在这一点上是很吃亏的,因为他大大增加了自己使用一手弱于对方的牌和对方战斗的几率。

2. 根据对方的行为和有限的开牌,迅速把握对手的思维水平和各种情况下的倾向,然后在每条街都能够对对手的牌力范围作出最大程度的分析和定位,并根据此作出最佳的对应。

3. 情绪管理。每天去牌桌的唯一目标就是对每一手牌作出最佳决策,而非赢钱。赢不赢钱只有一半取决于自己的决策,另一半取决于运气。如果一天下来决策都做的不错,但还是输钱,自己还是可以给自己打个满分。而分析自己是不是作出了最佳决策其实在很多时候不容易。但即使自己决策做错了,也没有什么,它只是真实反映了自己当前的水平,只要能从中正确吸取教训就可以了。大多数牌手水平难以提高的根本原因是难以“正确”从中吸取教训。
作者: yyy6    时间: 2015-1-24 13:21
lililili11 发表于 2015-1-24 02:40
以前我也研究过“AKQ问题”,然后包括引申出来的bet size加大,下注方能够攫取到更多的底池权益,然后还有 ...

GTO本来就不一定是ev最大化的策略 而且几乎一定不是。像我上面黑体标注的 针对性策略肯定ev大于等于GTO。但是GTO的最大用处是在于你知道这个标准在哪里,比如这个简单的模型,我们经常说一个人弃牌过多或者过少,这个多少是跟什么比较的?这个标准就是GTO。现在我们清楚知道 当我们下注x倍底池的时候对方call的频率高于1/(1+x)就过多 反之就过少。你根据这个偏移在调整成针对性策略。除了作为基准,在不熟悉对手或者水平/调整能力明显低于对手的时候使用GTO可能更好 因为你的针对性策略可能是完全错误的 反而由于偏离GTO太多被对方有效针对。即使对于熟悉的对手你也并不会了解对手在每一个s po t上的倾向性,在你没有把握针对对方的时候你至少可以企图知道怎么不被人针对。
至于你提到的构建的说法是没必要的 我模型里面也没说你必须要把自己的强弱牌比例调整成多少啊 而且GTO又不是只有这里才能运用,这只不过是其中一个例子而已。 理论上任何一个spot都有相应的GTO策略,不管你前面的action多么偏离,那是独立的,比如这个例子 你前面bluff过多 导致river弱牌比例很高 但是不影响这里你有一个参照的GTO策略。

另外这个例子实际上非常常见,尤其是在PLO里面。很多时候在river对方的range已经极化到nuts(或者准nuts)和air(往往包括blocker或者missed draw)。在德州里面也常见得很。作为防守方,我们只需要知道他大概的强弱牌比例即air不能过少,就能知道我们的GTO策略。这里的简化其实挺少的。另外你说的频率问题,细心观察并没有那么难统计,因为大部分时候可以和值得针对的都是大幅偏离。你要说从50%偏离到49.99%可能我们确实看不出来,而且针对性策略的ev优势也微不足道了。尤其在单挑中对方的偏离(我们通常说的le a k大部分时候就是和GTO的偏离)是很容易发现的。

作者: lililili11    时间: 2015-1-24 14:40
yyy6 发表于 2015-1-24 13:21
GTO本来就不一定是ev最大化的策略 而且几乎一定不是。像我上面黑体标注的 针对性策略肯定ev大于等于GTO。 ...

谢谢。

受到启发,我又研究了一下B的x range中有nuts的情况,得到一些有价值的结论。

作者: anytime    时间: 2015-1-24 15:16
Howard 发表于 2015-1-24 00:21
花了两小时验证完毕。数学方面没有发现错误,全文水平非常高。

对我而言两处亮点很有启发意义,是我以前没 ...

哇,霍师傅花了两小时验证无误,那我们只管跳过公式看结论。

作者: hutgies    时间: 2015-1-25 14:22
GTO重出江湖,认真学习下。
作者: verse    时间: 2015-1-26 04:33
nice    好文
作者: sexrange    时间: 2015-1-26 09:06
所以越来越多的pro逐步减少极化的河牌下注,而增加用中等牌力下注的范围(当然是对对手手牌有清楚了解)
比如在优势位置手持A9O,翻牌前OPEN 对手call。flop J,3,9。对手check callflop,TURN 8。CHECKCHECK。RIVER 5对手check。
这时是否要BET?下注尺寸是多少?


作者: monox0    时间: 2015-1-27 23:04
yyy6 发表于 2015-1-24 13:21
GTO本来就不一定是ev最大化的策略 而且几乎一定不是。像我上面黑体标注的 针对性策略肯定ev大于等于GTO。 ...

我只能大大得赞了,你懂扑克,更懂PLO!
作者: 王小二    时间: 2015-1-28 13:13
是不是更懂PLO不知道,能打PLO ZOOM 500的国人确实没几个
作者: 1580688006    时间: 2015-1-28 14:44
提示: 作者被禁止或删除 内容自动屏蔽
作者: jhyt2001    时间: 2015-1-28 19:18
看不懂
作者: maomaobiao    时间: 2015-1-29 10:44
y总的这句话“这里进一步强调上面的观点,GTO并不一定是对ev无影响,可能是提高我们的ev,也可能是降低我们的ev。

恰好回答了我在另外一个帖子里的疑惑。

作者: maomaobiao    时间: 2015-1-29 10:51
我必须对lz道歉,并感谢lz。因为在另外一个帖子里,我把很多对这个帖子的印象带入成火花的模型了,其实是这个帖子提到的一些观点。

这两个贴子串起来看很有营养,个人以为先看monox的帖子,在入y总的理论,就可以深入浅出,绵绵不绝了!!!
作者: 小胖    时间: 2015-1-29 21:24
jhyt2001 发表于 2015-1-28 19:18
看不懂

别哭,哥陪你

作者: gavinchan    时间: 2015-1-30 18:11
学习了看不懂
作者: Bigbryan    时间: 2015-2-13 00:54
太高深了,又看一遍,还是一头雾水。
下次准备休假一周来学习此贴。
作者: 春日野穹    时间: 2015-2-23 01:18
Howard 发表于 2015-1-24 00:21
花了两小时验证完毕。数学方面没有发现错误,全文水平非常高。

对我而言两处亮点很有启发意义,是我以前没 ...

。。。。看到发帖人的ID  我就已经跪了。。哥你可以去查查成绩。

作者: K先生    时间: 2015-3-13 01:55
看了此贴怎么觉得德州扑克变成了自然科学
我觉得研究精神是好的,可是这么大套的理论对于实战的指导意义是什么?
作者: leisong    时间: 2015-8-8 16:13
本帖最后由 leisong 于 2015-8-8 16:42 编辑

一直在瞎忙,今天发现了y总的这个好文,一定要学习一下。


今天先学第一段:玩家A的gto策略

其实,玩家A的gto策略,就是最佳的诈唬频率。就是,我们该以什么样的频率诈唬,通过这个诈唬频率,让对手的无论call还是fold,其ev都是0,这样就能达到让对手indefferent了。

按y总的假设,如果我们在河牌的下注额为1,底池为1的话,我们的最佳诈唬频率为12.5%。我不知道这个频率和我理解的频率是否一致。

下面是我对我们现在的诈唬频率的算法。

按照我所知道的公式是这样计算我们的最佳诈唬频率的

设我们的optimal bulufing frequency为Z

Z=X/2X+Y

其中,X为我们的betsize,Y为potsize

别问我这个公式到底怎么来的,我就知道这么算,要问,问老货去。

好,按这个公式,假设我们要在河牌下注一个底池,我们的最佳诈唬频率应该是:Z=1/2+1=1/3,即为33.3%。

这个数字是什么意思呢?

按y总的假设,在我们的手牌中,设打败对手牌为r,r为20%。那么,我们就应该bluff剩下的0.8弱牌中的0.1,check0.7。这样就能让对手在我们下注的时候,无论他跟还是不跟,他的ev都是0。

y总,我不知道我的这个算法,和你的算法所得出的结论是不是一样的。

作者: yyy6    时间: 2015-8-9 02:02
33.3%太高了 这样对方100%call 下注就可以提高ev 我们的好牌只有20% air还bluff了80%*33.3%即26.66%那我们下注的时候已经是bluff多于value了 对方本也只需要1/3的赔率 现在我们bluff比例都超过50%了 对方闭眼call就好
作者: dengxianqi    时间: 2015-8-9 02:35
yyy6 发表于 2015-8-9 02:02
33.3%太高了 这样对方100%call 下注就可以提高ev 我们的好牌只有20% air还bluff了80%*33.3%即26.66%那我们 ...

你没看懂人家的意思。他说0.8中下注0.1,check0.7,这样加起来等于下注0.3。他说的不是bluff频率,是下注频率
作者: 我是Jsli    时间: 2015-8-9 02:52
K先生 发表于 2015-3-13 01:55
看了此贴怎么觉得德州扑克变成了自然科学
我觉得研究精神是好的,可是这么大套的理论对于实战的指导意义 ...

理论的目的是找出个临界点
计算过程可以忽略了

不给出用于实践的结论而只写出过程的
是纯理论工作者


作者: 我是Jsli    时间: 2015-8-9 03:06
lililili11 发表于 2015-1-24 03:19
前面说的安排自己的range分布是一大问题。另外对手B河牌check的时候,在实战中,几乎一定有一定比例的慢打 ...

而做出适合实战的安排,则是浩大的工程了,甚至可能没办法做到.
----------------------------------------------------------------------------
可以设想一下
现场现金桌人人带一副谷歌眼镜
...

尼玛,这牌没法子打了
扑克也失去了它存在的基础

美国扑克存在的基础是什么?
是给退休的老人家们休闲误乐
扑克(现场现金)是政治是选票


作者: leisong    时间: 2015-8-9 03:15
dengxianqi 发表于 2015-8-9 02:35
你没看懂人家的意思。他说0.8中下注0.1,check0.7,这样加起来等于下注0.3。他说的不是bluff频率,是下注 ...

老邓,这个33.3%,是bluff的频率,不是下注频率。按y总预设的我们强牌的比例,我们的下注频率是整体手牌的0.3。其中,66.6%是value,33.3%是bluff。

作者: leisong    时间: 2015-8-9 03:18
yyy6 发表于 2015-8-9 02:02
33.3%太高了 这样对方100%call 下注就可以提高ev 我们的好牌只有20% air还bluff了80%*33.3%即26.66%那我们 ...

y总,你说的对,我们最佳的bluff频率不可能超过50%。但,频率肯定和下注额是有关联度,如果我们超池下注,自然,我们的bluff频率就会增加,就是说,我们可以更多的bet我们的弱牌组合。

作者: leisong    时间: 2015-8-9 03:26
dengxianqi 发表于 2015-8-9 02:35
你没看懂人家的意思。他说0.8中下注0.1,check0.7,这样加起来等于下注0.3。他说的不是bluff频率,是下注 ...

我又看了看,好像咱俩说的是一个意思,嘿嘿,不好意思

作者: dengxianqi    时间: 2015-8-9 09:13
leisong 发表于 2015-8-9 03:26
我又看了看,好像咱俩说的是一个意思,嘿嘿,不好意思

不是,是我误解你的意思了。
作者: JCreeks11    时间: 2016-5-2 06:39
本帖最后由 JCreeks11 于 2016-5-2 09:59 编辑

首先必须赞赏楼主的文章。楼主花了很多时间,很用心。应该说,楼主文章的结论还是非常接近正确的结果的。下面指出文章里面的几个错误:

一、首先GTO的定义不应该是“使得对方无法通过改变策略来提高他的期望回报(ev)的策略”。由于定义不合理,导致后面出现了“B弃牌的策略会优于GTO”这样不合理的的结论。


GTO的定义应如下:针对A的策略S_A,B有最大化B的EV(EVB) 的策略S_B(S_A), 使得EVB(S_B(S_A))=max_{S_B}EVB(S_B|S_A)。而A的GTO策略S*_A,应该满足EVB(S_B(S*_A))=min_{S_A}(EVB(S_B(S_A)))。A的大部分GTO策略S*_A,都是使得EVB(S_B|S*_A)关于S_B的导数为0的。简单地说,A的大部分GTO策略,都使得B无论100%跟还是0%跟都没有区别,这和楼主的定义一样。但是有例外。比如当R非常接近1的时候,B是应该选择0%跟的。有兴趣的牌友可以验证一下。


如果没看懂,这就好比我要最大化一个函数,大部分函数这个最优点都在导数为零的点,但有时候也会在边界点取到最大值。而楼主相当于直接定义最优点是导数为零的值,这显然不合理。

二、在1中,F的”GTO值“(楼主定义下的)RX/(1+X-R-RX)并不是恒小于1的。事实上,当R=.9, X=1, 这个值等于4.5。F应该等于min(1, RX/(1+X-R-RX)。用我的定义可以得出这个值。有兴趣的牌友可自行验证。

三、在2中,X/(2X+1)并不是是A给B的底池赔率,X/(X+1)才是。当然这是小问题。更大的问题是楼主没有办法解释,A的EV是X的单调递增函数。也就是说,A下注越大越好,最好正无穷。这肯定不符合直觉。因为如果A的好牌比较多,R很大的时候,A还是希望下点儿注让B跟的。而A下注正无穷会导致B没法跟,永远拿不到价值。我这里省却数学推导,直接下结论:


当R>0.5,也就是A好牌比例大的时候,X的最佳下注额是(1-R)/(2R-1)。
当R<0.5,也就是A好牌比例不大的时候,A希望下注正无穷使得B没法跟。但前提是A用弱牌诈唬的概率不能超过R/(1-R)。

作者: yyy6    时间: 2016-5-2 10:14
JCreeks11 发表于 2016-5-2 06:39
首先必须赞赏楼主的文章。楼主花了很多时间,很用心。应该说,楼主文章的结论还是非常接近正确的结果的。下 ...

首先谢谢你的仔细阅读。

一、首先GTO的定义不应该是“使得对方无法通过改变策略来提高他的期望回报(ev)的策略”。由于定义不合理,导致后面出现了“B弃牌的策略会优于GTO”这样不合理的的结论。

二、在1中,F的”GTO值“(楼主定义下的)RX/(1+X-R-RX)并不是恒小于1的。事实上,当R=.9, X=1, 这个值等于4.5。F应该等于min(1, RX/(1+X-R-RX)。用我的定义可以得出这个值。有兴趣的牌友可自行验证。



三、在2中,X/(2X+1)并不是是A给B的底池赔率,X/(X+1)才是。当然这是小问题。更大的问题是楼主没有办法解释,A的EV是X的单调递增函数。也就是说,A下注越大越好,最好正无穷。这肯定不符合直觉。因为如果A的好牌比较多,R很大的时候,A还是希望下点儿注让B跟的。而A下注正无穷会导致B没法跟,永远拿不到价值。我这里省却数学推导,直接下结论:

当R>0.5,也就是A好牌比例大的时候,X的最佳下注额是(1-R)/(2R-1)。
当R<0.5,也就是A好牌比例不大的时候,A希望下注正无穷使得B没法跟。但前提是A用弱牌诈唬的概率不能超过R/(1-R)。


一二三好像是一个问题,都是先界定边界条件还是后界定边界条件的问题。比如F(弃牌率)在0到1之间。比如对方的EV必须要>=弃牌ev。我们可以定义GTO为必须满足这些边界条件,那公式里面就到处都有MIN/MAX,也可以按我说的定义先求导,最后再看结论是否满足边界条件,像你说的第一点,既然B的GTO跟注ev还小于弃牌ev,那当然B只能弃牌。你说的二是一个意思。求出的对方弃牌率是4.5,那当然意味着对方100%弃牌就好。这并不影响任何推导和结论。

对第三点,在不先界定边界的时候,A的EV的确就是单调递增函数,R比例足够大的时候B的策略就是弃牌。也许你没看完,你说的结论我在原文里面都写了,R>0.5的时候R/(2R-1)-1,打开和你写的式子是一样的。而你说的”直觉“是个理解偏差。我们好牌足够多的时候,只需要下注这个底池赔率或以上都可以迫使对方对我们的整个range弃牌。我们不存在”希望“对方跟注,这都不是GTO应该使用的语言和思维方式。另,X(2X+1)和X(X+1)都可以表示底池赔率,个人使用的习惯不同而已,我习惯加上自己需要跟注的钱,因为这个概率跟胜率更好比较,比如X=1即对方POT下注的时候我的公式赔率是1/3,我们需要的胜率也是1/3.

作者: JCreeks11    时间: 2016-5-2 12:05
本帖最后由 JCreeks11 于 2016-5-2 12:35 编辑
yyy6 发表于 2016-5-2 10:14
首先谢谢你的仔细阅读。

一、首先GTO的定义不应该是“使得对方无法通过改变策略来提高他的期望回报(ev) ...

我刚才确实想错了,当R>.5时,X在(1-R)/(1-2R)或以上都是纳什均衡。因为这时候B的GTO决策都是0。当然如果B稍微偏离GTO,A的最佳下注量还是(1-R)/(1-2R)。

另外按照我的定义(就是博弈论中所谓minmax,当然这里纳什均衡必然存在,用minmax或者maxmin都是一样的),并不存在“GTO并不一定是对ev无影响,可能是提高我们的ev,也可能是降低我们的ev”一说。GTO一定是当假设对方是GTO玩家时,自己EV最高的。

作者: JCreeks11    时间: 2016-5-2 12:34
yyy6 发表于 2016-5-2 10:14
首先谢谢你的仔细阅读。

一、首先GTO的定义不应该是“使得对方无法通过改变策略来提高他的期望回报(ev) ...

楼主这里是把下注固定了,然后把诈唬率拉出来作为决策。如果把X和F都作为决策,假设X没有上限,可以发现无论R是多大,B的跟注率在纳什均衡下竟然都是0!

这个例子的现实意义是,当筹码非常深的时候,玩能拿到nuts的牌的重要性。只要你的range里有nuts,只有你的筹码足够深,只要你是GTO,对手就会被打到必须弃牌。

作者: Jimihandrix    时间: 2016-5-4 23:57
yyy6 发表于 2015-8-9 02:02
33.3%太高了 这样对方100%call 下注就可以提高ev 我们的好牌只有20% air还bluff了80%*33.3%即26.66%那我们 ...

我觉得这里楼主的说法不正确。GTO的定义是:双方无法通过改变策略增加EV。GTO是一对动态平衡的策略,任何一方改变策略只能减少EV(假设对手完美针对)
那么我们来看,假设对手100%跟注我们66.6%nuts+33.3%air比例的下注,虽然这时双方的EV都为零,但是我们是可以通过减少我们的诈唬增加EV的。所以,这种情况和GTO的定义不符,对手100%跟注的策略不是GTO。那么对手的GTO是什么?33.3%的情况下跟注。这时,我们无法通过增加或减少诈唬增加EV,而对手一旦偏离33.3%的跟注比例,就会出现能够被剥削的漏洞。计算比较简单,我就不写了。


作者: yyy6    时间: 2016-5-5 10:51
Jimihandrix 发表于 2016-5-4 23:57
我觉得这里楼主的说法不正确。GTO的定义是:双方无法通过改变策略增加EV。GTO是一对动态平衡的策略,任何 ...

你可能误解了。我当时说33%不对是因为以为他说的在弱牌里面诈唬33%,那样就太高了。但leisong的意思是整个bet的range里面诈唬33%,既然是pot下注,那当然2:1的value:bluff正好是GTO。 如果是我以为的意思,即诈唬过多,对方的针对性策略就是100%跟注。我没说对方100%跟注是GTO。
另外,我们POT下注的时候对方的GTO 跟注比例不是33%,而是50%,我在原文里面已经算过了,你应该是没看到。

作者: JCreeks11    时间: 2016-5-5 11:01
yyy6 发表于 2016-5-5 10:51
你可能误解了。我当时说33%不对是因为以为他说的在弱牌里面诈唬33%,那样就太高了。但leisong的意思是整 ...

我也觉得50%是GTO。

作者: yyy6    时间: 2016-5-5 11:03
JCreeks11 发表于 2016-5-2 12:34
楼主这里是把下注固定了,然后把诈唬率拉出来作为决策。如果把X和F都作为决策,假设X没有上限,可以发现 ...

这个例子其实有点误导。因为首先筹码不可能是无限深,即使是无限深,我们给对方的赔率也是1赔1。只要我们的强牌比例不是超过了50%,对方仍然不是必须弃牌,或者说我们不能诈唬100%。 而我们如果强牌比例都超过了50%了,你的无限筹码深度本来就失去意义了,对方最多能跟注R/(2R-1)-1而已。

作者: JCreeks11    时间: 2016-5-5 11:09
yyy6 发表于 2016-5-5 11:03
这个例子其实有点误导。因为首先筹码不可能是无限深,即使是无限深,我们给对方的赔率也是1赔1。只要我们 ...

诈唬率F可以调整使得对方无法跟啊。我不是说了F和X都是决策吗。

作者: yyy6    时间: 2016-5-5 11:26
JCreeks11 发表于 2016-5-5 11:09
诈唬率F可以调整使得对方无法跟啊。我不是说了F和X都是决策吗。

对啊。你调整F的意思不就是不能100%诈唬吗?假设我们rep的强牌只有10%,即使你是100倍pot all in。F也大概只有11%多一点而已。另外80%的时候我们只能过牌放弃,所以不是range里面有nuts就有那么美好的,

作者: JCreeks11    时间: 2016-5-5 11:31
yyy6 发表于 2016-5-5 11:26
对啊。你调整F的意思不就是不能100%诈唬吗?假设我们rep的强牌只有10%,即使你是100倍pot all in。F也大概 ...

这个我同意,1%的nuts最多只能“掩护” x/(x+1)%的bluff。

其实两极分化的问题还是比较容易解决的,难的是还有中间的牌。

作者: bomb    时间: 2016-5-5 11:33
JCreeks11 发表于 2016-5-5 11:09
诈唬率F可以调整使得对方无法跟啊。我不是说了F和X都是决策吗。

你的意思是说,如果两个玩家都玩GTO,筹码无限深的情况下,可以互相把对方无条件打fold?那到底是谁fold啊?

作者: JCreeks11    时间: 2016-5-5 11:45
bomb 发表于 2016-5-5 11:33
你的意思是说,如果两个玩家都玩GTO,筹码无限深的情况下,可以互相把对方无条件打fold?那到底是谁fold ...

我没说清楚。结论是:

筹码无限深的情况下,有a%nuts牌的一方,最多可以用a%的烂牌bluff走对方,对方没有任何办法。

作者: bomb    时间: 2016-5-5 12:07
JCreeks11 发表于 2016-5-5 11:45
我没说清楚。结论是:

筹码无限深的情况下,有a%nuts牌的一方,最多可以用a%的烂牌bluff走对方,对方没 ...

我是看了你40楼关于"现实意义"的结论跟过来回帖的。我觉得实战中通常不宜假设只有己方才可能有nuts。另外关于最多可以掩护a%的烂牌咋呼也是因为己方牌力极化的假设,实战中肯定远远高于a%。

作者: 伟大的墙    时间: 2016-7-3 14:25
这里呢

作者: 小胖    时间: 2016-7-3 17:29
伟大的墙 发表于 2016-7-3 14:25
这里呢

老墙咋的啦?

作者: 伟大的墙    时间: 2016-7-4 11:47
小胖 发表于 2016-7-3 17:29
老墙咋的啦?

顶起来看

作者: l_icem    时间: 2016-7-29 21:04
再次拜读。真不愧我扑克圈最大的偶像YYY6




欢迎光临 智游城 (http://zhiyoucheng.co/) Powered by Discuz! X3.2