本帖最后由 benny_xmy 于 2017-3-29 11:27 编辑
这个问题困扰了我很久。在看老外各种教学视频的时候,经常听到“GTO”,“Exploitative Play”,我不懂博弈论的,搞不大清楚。就此提出几点疑惑:
1. 经常听到分析一手牌的时候回讲“I will check this turn to balance my range”,“如果我这里有set和flush我也shove,有blff的时候我也shove,来平衡的value和bluff,使其达到最优”云云。每次听到这类话我就有疑问:“在今后你打牌的过程中真的会碰到和相同的对手遇到相同的flop打出相同的line,这个时候你和他拿着不同的牌么?” preflop我觉得是可能的,我是个Hyper-Turbo 6MAX出身的玩家,所以推推乐的情况在我打的盘数里会反复出现,但每次我的手牌都不一样。再比如HU,之所以讨论“balance”有意义,是因为双方肯定会打很多可能不同手牌但反复出现类似的flop和相同的line所以才有“balance”。所以一般cash九人桌的牌例应该不适合讨论这个话题。而且就算讨论HU的牌来阐述“balance”也不可能只通过一手牌的line,应该是在一个session里的很多手牌同时横向比较flop、turn和river的line(也就是数据),才有意义,但不适合观众看,因为牌看多了会很累。话说第一天CMU-AI vs Human HU的比赛我进RiversCasino的PokerRoom现场很寂寞的一个人观摩了很久,很沉闷很无聊,就是在工作,我在休息期间里面的Starbucks排队的时候趁机问了Jimmy Chou为啥他们没数据,他回答说以后可能需要,目前还不需要@_@
2. 看Doug Polk今年的视频里提到了“Circular thinking",我也有想过这个问题。不晓得对不对,但我确实目前以为Poker的赢利点在于对于对手thinking level的估计。下图是他视频里实例:
简单的说就是:“每一次我的option都是针对我对你的thinking level做了估计之后的剥削打法“Exploitative Play”,这样“我在你行动之后”这么打就能赚钱。”他在视频里举了石头剪刀布的例子,然后说石头剪刀布这样是无穷无尽的,不是一个能实现最优的策略(总有一个“Exploitative Play”能打败你),所以没必要讨论这个问题。
其实从整体过程来看,从Level1到Level999,石头剪刀布的频率确实是1/3,也确实是这个过程的GTO?是不是有可能双方在“Exploitative Play”到Level∞的时候收敛到一个平衡域?这个平衡点应该就是GTO,也就是说GTO的“Exploitative Play”就是GTO本身的收敛域。也就是说“GTO”是一个相互的过程,而不是经常听到的“对手的GTO近乎完美,我怎么打都是输钱”,因为你如果不是GTO,你离收敛域太远的话对手也不是GTO收敛域里,只是一直在剥削你罢了。你问为啥对手能赢钱?答案就是“位置”。你先行动,若你和对手都是Level∞的pro,这个option已经打的GTO了,那对手也GTO这么打,不输;若你这个option偏差很大,才Level1,对手Level2就剥削了,也不需要Level∞,也就是常说的“低级别不用考虑GTO”。有趣的是身边时常有兄弟抱怨“被鱼干了”,“他拿AA怎么可能那么打”云云,我猜那是因为你没找对Level:对手是Level1的水平,你用Level3的思考去打,或者甚至就用GTO去打,完全可能反而被Level1剥削哈哈(详见剪刀石头布例子)这也就是俗称“Over thinking”->想太多=v=
我觉得用剪刀石头布这个例子来举例可能不大好,因为option太少,就三个,也就是说太离散,体会不到收敛。虽然打牌line就三条街,但毕竟选项很多,而且如果你承认你的分析带range的话那就更多,所以应该不能以石头剪刀布相提并论。我在PokerStars打推推乐出身,在每次沉浸于推推乐的刺激喜悦中对于收敛我有所体会,于是想了个SNG的简单实验例子:
不妨设A和B在打一场Hyper-Turbo 6MAX的单挑阶段,参赛费$6.71+0.29,奖池分配第一第二$26.17 $14.09,A和B都恰好1500筹码整,所以现在的ICM均为$20.13,现在150/75/25ante,A是大盲B是小盲。此时刚发了盲还没发牌。
不妨设A和B都是懂PokerStove的进度条表示的牌力强弱的选手,而且A和B只有Allin和Fold两个选项,A的脑里在Over thinking(我也经常被兄弟们这么嘲笑哈哈):“我应该以多宽的range call B的Allin我才能赚最多钱?”
假设B很激进,x*(0) = 100% Allin,弃牌率1-x*(0) = 0%,也就是Range是Random(100%),设A以p的概率call,q的胜率(Pokerstove模拟得出)ICM ev是$26.17-$20.13, (1-q)是$14.09-$20.13;(1-p) fold之后的ICM ev是$19.4253-$20.13,结论如下图:
这个时候我得到了我的Exploitative range p*(1)(大概70%),曲线最高值ICM ev在+$0.2,然后这时候B也和A一样同样的分析方式得到了针对p*(1) = 70%的 range的一个Allin range x*(1),如下图:
这个时候我得到了我的Exploitative range a*(1) (大概50%),曲线最高值ICM ev在+$0.022。
同理可得p*(2) = 40%如下图,曲线最高值ICM ev在+$0.051:
同理可得x*(2) = 100%如下图,曲线最高值ICM ev在+$0.18:
发现B的Exploitative range又回到最初的起点:100% Random。我不清楚我上述的工作是否有错误,但就目前这个结果来看和猜拳一样了不收敛。或许和起始点的选择有关?比如有一类范围是GTO收敛的,有一类是发散的?我搞不懂了,所以贴出来,请教练指导=。=
|