"平衡""偏离""GTO""剥削"到底是啥？

benny_xmy · 发表于 2017-3-31 06:01:11

本帖最后由 benny_xmy 于 2017-3-31 10:11 编辑

发了几篇帖子，少有回复，感觉有点遗憾，感觉最有价值的回复就是“afa”的那一条了。
在这里引用一下“sky1021”的一条回复：

“打牌至今从不看这些只靠人工感应；
九人桌不用太多花俏重策略；
你就观察桌上哪一个偏离了策略标记下针对干他就行”

第一句中的“人工感应”很有趣=v=我也觉得打牌很需要“灵性”；第二句我也很赞同：观察过大家打九人桌ring game调整都很有限，但并不是很理解其指的“策略”是什么；第三句在我看到的帖子里出现的频率太高了：“偏离了GTO”、“对手打法有leak”就可以“剥削策略针对”。我搞不懂了，什么叫GTO？对手的leak指的是什么？你是怎么观测到对手“偏离了GTO”“对手的leak”的？如果你都不能回答“什么是GTO”那凭什么你说你能“观测到偏离了GTO”？反正我从来没见过说这类话的人详细阐述过他将这句话应用到他举的牌例过，每次都是仅仅提出这个“GTO偏离”这个广泛陈述。不管你信不信，反正我不信=v=再说leak，查到一个例子：

There is a raise from early position, and a re-raise from middle position. Both players are tight and aggressive. The action gets around to you on the button, and you look down at pocket Twos.

Now, there is no chance that you are ahead in the hand at this point, and you have already seen a raise and a re-raise in front of you. Despite all of that, you decide to call, hoping that you hit a set on the flop.

This is a major "leak", as there is no way that you should be calling here.

是不是大概可以理解：“你这个手牌很弱，不该call应该fold，你call了所以你这个option打错了，这个是你的leak”；那么问题来了：（1）怎么证明你的分析是对的？这个“对错”绝对唯一么？举个可能不恰当的例子，如果你承认每个人看一手牌的思考是不一样的，A看到这手牌觉得对手在出剪刀，B看到这手牌觉得对手在出石头，那到底是剪刀对还是石头对？因为这决定了我出石头还是出布来“针对剥削策略打你”。是不是可能你眼里的“leak”是别人眼里的“edge”？（2）你是怎么观测到对手的“leak”的？你并没有上帝视角，你是否只能通过“摊牌”来看对手是不是有你先前推测的“leak”？如果你的回答是“我通过数据和其他信息，而并非单纯手牌信息”的话，怎么证明你的推测是对的？（3）我承认有一些很基本大家都公认的“leak”，举个例子，绝对的Calling Station，只会call和fold。这个是被你通过数据“VPIP”、“PFR”和“AF(q)”和一些river摊牌观测到从而得出的结论。那你的“针对剥削策略”是什么？是憋牌和对手拼击中，比如flop击中了TPTK猛打三条街因为你知道对手的支付能力很强？这能不能称之为你的“edge”？（TPTK over play似乎被一群打的“较好”的人认为是一个“leak”=v=）你的策略能赢他多少bb/100手？你有没有和一个对手做过实验模拟或者通过证明？

你可能发现问题所在了，就拿上段（3）中的例子“TPTK over play似乎被一群打的“较好”的人认为是一个“leak””，这句话是不完整的，我猜应该这么说：“把“憋牌拼击中；比如flop击中了TPTK猛打”说成是众多策略中的一种；“憋牌拼击中；比如flop击中了TPTK猛打”能剥削Calling Station，但“憋牌拼击中；比如flop击中了TPTK猛打”是被另一群不是Calling Station的pro们剥削的。”也就是说，我猜，任何一个“策略”都能剥削和被剥削，也就是只有“相对的”“leak”和“edge”。

你可能会说，“憋牌拼击中；比如flop击中了TPTK猛打”这话太笼统了，不能称之为一种“策略”，我深表赞同。如果你承认你的每个option都能解说出具体的理由来证明你这个option的选择是对的，那我觉得就完美了。也就是说“每个option都能得出根据现有信息得到的一种“策略””，即每个option的决定选择代表一个“策略”。判断标准应该就是当前ev最大化，也就是“剥削最大化”，在先前的一篇帖子里我举了双方的ev都为﹢的情况，评论的回答直至“死钱”，至于“沉没成本”和ev的具体分析我觉可以以后讨论，但这个option选择的判断标准应该是ev分析，我不懂，因为我找不到其他的分析能取代之，求教练指导@_@。

因为你和对手每手牌交锋是打的一个line，你可能觉得option和“策略”很少，但如果你把你和对手所有可能的line展开成一个决策树的话，option和“策略”就多的惊人了。我们不妨先看看，双方都打明牌，那这个过程是怎么样的？随便举个例子，比如一个人拿着AKs是大盲，一个人拿着77是小盲，双方明牌打，每个人都用“最大化剥削策略”打，整个line应该是怎么样的？你会发现无从下手：此时AKs和77的胜率是48%打52%，那77怎么打才是“最大化剥削”的策略？Raise到一个size让AKs能有合适的赔率call？Allin？你会发现根本无从下手，没办法从“fold、call、“min raise -> Allin”等间隔采样得到有限的raise size”里选择一个option说我打的是最优的。除非打到了river，一家100%一家0%，这样是有最优解的：“100%：除了fold任意option；0%：fold” 哈哈，因为option是有限的，那应该是存在最优解的？但我连一个“打明牌”的例子都解不了“最优策略”，我还想战胜所谓的“不完整信息的博弈”的“最优策略”去应用去赚钱，应该是在做梦吧。

所以，以我现有的能力，我只能玩玩推推乐，也就是Allin or fold。在推推乐的过程中我能很容易计算“最大化ev”的概念。举个简单的例子：

不妨设A和B在打cash game（ev=cev)，就只有10个BB，不妨设A一直是大盲，B一直是小盲（当A是小盲B是大盲的时候双方策略互换即可，对称的），option选择就只有Allin or fold。A和B在打牌前先通了气，承诺了：B选择用前58.3%的牌Allin，A选择用前36.6%的牌call。

还没发牌的时候，B开始思考了：A说他用前36.6%的牌会call我的Allin，那我拿前%几的牌去推才能让我最大化剥削呢？不妨设我用前p%的牌Allin，那我的弃牌率就是(1-p%)，收益是-0.5BB，我用前p%的牌打他的前36.6%的牌的胜率可以通过PokerStove计算得出：q%胜，此时的收益是+10BB，(1-q%)输掉，收益是-10BB；他63.4%会弃牌，这个时候我的收益是+1BB；（收益可能会根据不同理论对“死钱”的沉默成本的分析略有区别），那我就有一个总体收益的公式：

F(p,q) = p*(+1*63.4%+(10*q - 10*(1-q))*36.6%) - 0.5*(1-p)

然后q从0到1做一下图（可以详见我在“平衡”帖子里发的图，参数不一样但可以看下大概形状），这个参数我没做过，但思路是一样的。而其作者发现得出的Fmax(p*,q*)的时候p* = 58.3%，也就是说这个时候B的最优“策略”是用前58.3%的牌去推。A也做了同样的思考，算出A的最优“策略”是用36.6%的牌去call。可以想象，一个长期过程中，A和B的策略稳定在一种最优解上了，也就是达到了“平衡”。整个A和B的思考过程都是想“最大化剥削”对手，但每次得到的解都是一样的。于是我理解其达到了“GTO”，达到了“平衡”。这也就解释了很常见的一句话：“GTO不会被剥削”，因为我猜“GTO”的“剥削策略”就是“GTO”本身。（有趣的是，虽然B和A都不能互相被剥削，但ev虽然很接近0但确实有正负：±0.05，BB是+0.05\SB是-0.05，我猜这就是我们常说的“位置”的价值所在？）

你或许会问：这个例子里的“GTO”“平衡”是怎么找到的？怎么观测得到的？我也不晓得，但确实证明了这是存在的。你或许又会问，能不能通过B和A的有限次重复博弈之后得到这个“GTO”“平衡点”？我也搞不懂。我发现“GTO”是一个互相的过程，也就是说一方达到了“GTO”，另一方才“达到GTO”，而不是就中文翻译“最优博弈理论”一样，觉得是一个无敌的策略，只要找到了“GTO”，无论对手怎么打，我都能保证盈利最多。其实不然，如果有一方“偏离”了“GTO”，那另一方的“最大化剥削策略”就不是“GTO”了。举个例子，如果“B的Allin = 100%”，而你作为A仍以“GTO”也就是36.6%的range进行call的话，你可以算一下，“GTO”在这个情况就不是最优解了，可能是输钱的。我在前一篇谈“平衡”的帖子里做过一个实验：当一方发生“偏离”，例子讲的是“B的Allin = 100%”，之后，每次计算“最大化剥削策略”，发现最后产生了“石头剪刀布”的情况，进入了一个循环。我猜这也是“平衡”的一种存在形式，是一种动态“平衡”，但我不懂博弈论，也说不好，希望有教练能指导。

以上这个例子是Allin or fold推推乐，我猜完全也可以应用到经常听到的“在river上value bet和bluff的完美比例”云云，得到的结果我猜是一样的：只有双方相互的比例都是完美的，才是“GTO”；而不是“一方的比例完美一方的比例不完美，不完美的一方总是输钱的”。所以我猜“GTO”就是一个“平衡”点的现象，这个不管双方怎么调整，怎么“最大化剥削”都调整不出这个点；所以在实际情况下你用“GTO”未必是件好事，你可能遇到很鱼的娱乐玩家，这个时候“GTO”是被娱乐玩家剥削的，哈哈=v=（详见上段中关于“一方偏离一方不偏离”的实验结果）

如果你能有耐心看到这里，我觉你应该能体会我心中的疑惑了：打了那么多手牌那么多盘SNG了，但不晓得自己打的是个啥？不晓得自己为啥输钱？不晓得自己赢钱赢在哪里？或许我自我陶醉在中牌的喜悦，没牌的失落；被Bad Beat的愤怒，Bad Beat别人的快感（如果你经常被BB而不是BB别人，冷静的想一下，这是不是说明你打的比别人好呢？或者说长期和这个人打你是赚钱的呢？所以别轻易tilt哈哈）；同时收货冠军title和prize的优越；bluff过程中的刺激，成功后的释然；云云。如果你觉得我也说出了你心中的疑惑，那就听我一句劝：放弃Poker吧。思考分析了那么多手牌真的觉得自己提高了么？打了那么多手牌真的有新的体会了么？依我看，不过是在海量的样本亲自测试里迷失了自己罢了，哈哈=v=

其实我还有很多疑惑，只是一下子不大能组织语言来表达，我从小语文没及格哈哈@_@我应该会一篇一篇写下来吧，如果让你觉得厌烦了我深表歉意，但我真的很希望你能和我一起来讨论，指出我在分析中的错误，并写出你的分析证明。我觉得只有这样大家才能共同进步吧=v=