"平衡”真的存在嘛？有没有牌例能说明什么是“平衡”？

benny_xmy · 发表于 2017-3-29 11:25:57

本帖最后由 benny_xmy 于 2017-3-29 11:27 编辑

这个问题困扰了我很久。在看老外各种教学视频的时候，经常听到“GTO”，“Exploitative Play”，我不懂博弈论的，搞不大清楚。就此提出几点疑惑：
1. 经常听到分析一手牌的时候回讲“I will check this turn to balance my range”，“如果我这里有set和flush我也shove，有blff的时候我也shove，来平衡的value和bluff，使其达到最优”云云。每次听到这类话我就有疑问：“在今后你打牌的过程中真的会碰到和相同的对手遇到相同的flop打出相同的line，这个时候你和他拿着不同的牌么？” preflop我觉得是可能的，我是个Hyper-Turbo 6MAX出身的玩家，所以推推乐的情况在我打的盘数里会反复出现，但每次我的手牌都不一样。再比如HU，之所以讨论“balance”有意义，是因为双方肯定会打很多可能不同手牌但反复出现类似的flop和相同的line所以才有“balance”。所以一般cash九人桌的牌例应该不适合讨论这个话题。而且就算讨论HU的牌来阐述“balance”也不可能只通过一手牌的line，应该是在一个session里的很多手牌同时横向比较flop、turn和river的line（也就是数据），才有意义，但不适合观众看，因为牌看多了会很累。话说第一天CMU-AI vs Human HU的比赛我进RiversCasino的PokerRoom现场很寂寞的一个人观摩了很久，很沉闷很无聊，就是在工作，我在休息期间里面的Starbucks排队的时候趁机问了Jimmy Chou为啥他们没数据，他回答说以后可能需要，目前还不需要@_@

2. 看Doug Polk今年的视频里提到了“Circular thinking"，我也有想过这个问题。不晓得对不对，但我确实目前以为Poker的赢利点在于对于对手thinking level的估计。下图是他视频里实例：

简单的说就是：“每一次我的option都是针对我对你的thinking level做了估计之后的剥削打法“Exploitative Play”，这样“我在你行动之后”这么打就能赚钱。”他在视频里举了石头剪刀布的例子，然后说石头剪刀布这样是无穷无尽的，不是一个能实现最优的策略（总有一个“Exploitative Play”能打败你），所以没必要讨论这个问题。
其实从整体过程来看，从Level1到Level999，石头剪刀布的频率确实是1/3，也确实是这个过程的GTO？是不是有可能双方在“Exploitative Play”到Level∞的时候收敛到一个平衡域？这个平衡点应该就是GTO，也就是说GTO的“Exploitative Play”就是GTO本身的收敛域。也就是说“GTO”是一个相互的过程，而不是经常听到的“对手的GTO近乎完美，我怎么打都是输钱”，因为你如果不是GTO，你离收敛域太远的话对手也不是GTO收敛域里，只是一直在剥削你罢了。你问为啥对手能赢钱？答案就是“位置”。你先行动，若你和对手都是Level∞的pro，这个option已经打的GTO了，那对手也GTO这么打，不输；若你这个option偏差很大，才Level1，对手Level2就剥削了，也不需要Level∞，也就是常说的“低级别不用考虑GTO”。有趣的是身边时常有兄弟抱怨“被鱼干了”，“他拿AA怎么可能那么打”云云，我猜那是因为你没找对Level：对手是Level1的水平，你用Level3的思考去打，或者甚至就用GTO去打，完全可能反而被Level1剥削哈哈（详见剪刀石头布例子）这也就是俗称“Over thinking”->想太多=v=

我觉得用剪刀石头布这个例子来举例可能不大好，因为option太少，就三个，也就是说太离散，体会不到收敛。虽然打牌line就三条街，但毕竟选项很多，而且如果你承认你的分析带range的话那就更多，所以应该不能以石头剪刀布相提并论。我在PokerStars打推推乐出身，在每次沉浸于推推乐的刺激喜悦中对于收敛我有所体会，于是想了个SNG的简单实验例子：
不妨设A和B在打一场Hyper-Turbo 6MAX的单挑阶段，参赛费$6.71+0.29，奖池分配第一第二$26.17 $14.09，A和B都恰好1500筹码整，所以现在的ICM均为$20.13，现在150/75/25ante，A是大盲B是小盲。此时刚发了盲还没发牌。

不妨设A和B都是懂PokerStove的进度条表示的牌力强弱的选手，而且A和B只有Allin和Fold两个选项，A的脑里在Over thinking（我也经常被兄弟们这么嘲笑哈哈）：“我应该以多宽的range call B的Allin我才能赚最多钱？”
假设B很激进，x*(0) = 100% Allin，弃牌率1-x*(0) = 0%，也就是Range是Random（100%），设A以p的概率call，q的胜率（Pokerstove模拟得出）ICM ev是$26.17-$20.13, (1-q)是$14.09-$20.13；(1-p) fold之后的ICM ev是$19.4253-$20.13，结论如下图：

这个时候我得到了我的Exploitative range p*(1)（大概70%），曲线最高值ICM ev在+$0.2，然后这时候B也和A一样同样的分析方式得到了针对p*(1) = 70%的 range的一个Allin range x*(1)，如下图：

这个时候我得到了我的Exploitative range a*(1) （大概50%），曲线最高值ICM ev在+$0.022。
同理可得p*(2) = 40%如下图，曲线最高值ICM ev在+$0.051：

同理可得x*(2) = 100%如下图，曲线最高值ICM ev在+$0.18：

发现B的Exploitative range又回到最初的起点：100% Random。我不清楚我上述的工作是否有错误，但就目前这个结果来看和猜拳一样了不收敛。或许和起始点的选择有关？比如有一类范围是GTO收敛的，有一类是发散的？我搞不懂了，所以贴出来，请教练指导=。=

hitnuts · 发表于 2017-8-15 16:44:32

文章我没看完，也不一定看的懂。
我的理解是这样的，纳什均衡肯定是存在的，所有决策都是相对的，都是在用一种不平衡去击溃另一种不平衡。就像我们这一生，都可能打不出同样一手牌一样。
很多时候我们的策略，可能都是短期策略。比如说，我上一手牌，咋呼了两条街，在一个中小底池，被开牌了，这一次，我拿到了强牌，我依然像上次一样操作，可能有意外收获，比如说，上一次我牌大，是怎么操作的，大家都看到了，这一次，我就变个花样，设置不同的line，或者这一次我没什么，还按照上次牌大的line去打，对方弃牌给我偶的可能性就会变大。
咱们的所谓的平衡能被对手注意到，才是有用的。没人注意这些，咱们想那么多就没有意义了。

rahj · 发表于 2017-8-14 19:29:16

nasi均衡的一大前提是零和
think level背后实际是迭代
最佳防御策略铁布衫岂可被剥削

benny_xmy · 发表于 2017-5-20 04:55:42

泥中土发表于 2017-5-19 23:59
知道。我只是感慨还是英文特别好才行呀，我都是只能开着Google网页翻译才能快速浏览外文德州网站，并寻找 ...

这，我英语也很差，但只要你想慢慢啃肯定没问题

benny_xmy · 发表于 2017-5-20 02:04:47

泥中土发表于 2017-5-19 23:06
只是在那里看到一个叫benny-xmy的，感觉好熟悉，想起城里也有一个。

这。。兄弟，同道中人啊！

吹牛无罪 · 发表于 2017-5-20 00:20:22

一看题目就知道是谁写的。牛

泥中土 · 发表于 2017-5-19 23:59:52

提示: 作者被禁止或删除内容自动屏蔽

泥中土 · 发表于 2017-5-19 23:06:46

提示: 作者被禁止或删除内容自动屏蔽

benny_xmy · 发表于 2017-5-19 22:45:04

本帖最后由 benny_xmy 于 2017-5-19 23:19 编辑

泥中土发表于 2017-5-19 18:51
这应该是Run it once 帖子GTO equals to 0 ev?的图片吧

是的，咋啦？原文里我说了是引用的，是别人的工作

		自动登录	找回密码
密码			注册

"平衡”真的存在嘛？有没有牌例能说明什么是“平衡”？

本帖子中包含更多资源

客服中心

投诉建议