智游城

标题: 试简明阐释贝叶斯定理在扑克中的应用（中）——联合range [打印本页]

作者: lililili11 时间: 2015-6-24 21:46
标题: 试简明阐释贝叶斯定理在扑克中的应用（中）——联合range
本帖最后由 lililili11 于 2015-6-24 22:32 编辑

（很多想法还不成熟，仅仅处于猜想阶段，发出来供大家讨论）

上一篇文章我们说到了贝叶斯推理其实就是“评估+修正”的过程。那么我们为什么不直接对所需要求解的问题进行评估，而是要绕一个圈子，对另一个事情评估，然后再修正呢？

我认为答案是这样的：

就是因为直接需要求解的问题，很难评估出具体的东西，或者说即使能够评估出来，准确性不高，不太可靠。

当然不是所有问题都不能直接评估的，只能说有一部分方便直接评估，另一部分不方便直接评估。而方便直接评估的那些问题，都已经毫无疑问地被我们轻松解决掉了，所以就不在我们今天的讨论范围之内。

所以现在我们拿出来讨论的，都是通过直接评估有难度的，或者准确率不高的。那么这时候我们就需要绕一个弯——通过其他的我们已知的，并且比较有把握的信息(或者比较靠谱的评估)，来推导出我们要解决的这个问题的信息，这样就能保证准确度。

-------------------------------------------

OK，接下来我们来聊牌：

人的range与牌的range：
先有人，后有牌，人决定牌的range。
人的range，即是牌的range的range。
贝叶斯定理既可以用来推算牌，又可以用来推算人。

推算牌:

对手是个tag，AA/KK 会100% 4bet，AK/QQ会50% 4bet，其他牌不会4bet。现在对手4bet了，他有什么牌?

我们知道AAKK一共12 combo，AKQQ一共22 combo，50% 就是11 combo，所以我们知道他的range中大约一半是AAKK，一半是AKQQ 。

推算人:
除了tag以外，还有一种人是lag，他们是会4bet诈呼的选手，这种人4bet range中1/3是QQ+ AK+，另2/3是各种半诈呼的牌型，比如KQ,同花连张等，这些牌都会弃牌给5bet all in。

现在我们被对手4bet了，我们不知道他是什么样的人，也不知道他有什么牌。现在问我们手里的JJ是全押还是弃牌?

这里显然条件不足，我们需要寻找条件。

1.如果我们知道这个人手里具体是哪手牌就好了，可惜我们不知道。

2.退而求其次，我们不知道他的底牌，如果知道他的range是什么，那也可以。可惜，我们不仅不知道他的底牌，连他的range也不清楚。而且不能随便给他安上一个range，因为那样的range会是我们主观“自以为”，而不是客观事实。我们说，虽然打牌仅仅是个游戏，也要讲究实事求是。

3.再退一步，那我们知道他是什么样的人也行啊。因为知道他是什么人，就等于知道他的range了嘛。可惜我们还是不知道他具体是哪种人。但是这里我们已经有点头绪了，因为我们知道，他不是一个tag，就是一个lag，其他可能性太小，不考虑。这时候虽然不能知道怎么打，但似乎情况已经有点眉目了。

4.对手类型只有两种，既然我们不能确定他是哪一种，那么我们能不能知道他作为人的range是什么呢？有的朋友可能会说，我知道了，他作为人的range就是{tag,lag}这么一个range嘛，这还不简单?
不对，如果他有99%可能是tag，1%可能是lag;或者他1%可能是tag，99%可能是lag，这两种情况完全不一样吧？

所以我们还要知道他多大可能是tag，多大可能是lag。这两者只要知道一个就能知道第二个了，因为两种可能性之和为1（其他的可能性太小，忽略）。

说到这里，我们其实差不多可以下判断了。比如根据自己的“感觉”，认为对手是tag/lag的可能性28开啊，37开啊，46开啊，55开啊。不管我们怎么给他定，都能得出一个结果，那就是他是什么range的人。但是这个划分是不是还是稍微有点主观了？因为我们在划分的不是正常情况下对手是什么人，而是在4bet情况下对手是什么。4bet情况一般来说是挺罕见的，我们由于缺乏被4bet的经验，贸贸然做出主观的划分的话，准确率不一定够高。

那么有没有更客观一点的办法？

于是我们可以找找看有没有更加有把握的评估，如果没有，那就照这个方案来办。如果有，就用更加客观的办法。

5.通常我们没有足够多的被4bet的样本数量，那么4bet我们的人是tag/lag的可能性我们也就没有很大把握判断。但是在正常情况下，对手是tag/lag的可能性多大，我们还是比较有把握的。比如我们认为正常情况下，对手是tag/lag八二开。

由于我们知道，tag的4bet combo是23个，lag的4bet combo是100多个，我们就把这两个数字近似地看成是25和100。说明如果在tag和lag比例相等的情况下，其实4bet的这个人是lag的可能性是tag的4倍。

请注意上面这个逻辑关系，为什么lag的combo多了，4bet的人是lag的可能性就更高?我们类比一下，如果有一位财神爷，他在牌桌上玩100%的range，那们我们是不是每把牌都能看到这个人的参与呢？很显然，某人的vpip越高，那么我们在平均每手牌中看到他参与的可能性就越高，而这个可能性恰好和他的vpip成正比关系。

现在由于tag/lag其实不是比例相等，而是八二开，那么combo比例和这个人数比例刚好抵消了，那么我们就得出，4bet的人中，tag/lag大约是五五开的局面。

现在我们知道这个对手是什么人的range，又知道每种人的牌的range，那么我们就知道了一个“联合range”。由于这里对手是tag/lag恰好是55开，所以计算起来比较简单，我们可以算出对手的这个4bet的联合range中，AA/KK的combo是12个，AK/QQ的combo是16.5个，诈呼牌的combo是34个。

知道range以后，JJ是要全押还是弃牌，由大家自行决定。

以上就是我们对这个假想情况的分析过程。这个分析过程，可以认为用到了贝叶斯定理，也可以说没有用到贝叶斯定理。因为扑克有个好处，它可以数combo，数来数去，最后除一下，概率就清楚了，不像贝叶斯公式那么麻烦。但是推理过程其实跟贝叶斯定理在逻辑上是一致的。

作者: lililili11 时间: 2015-6-24 21:48
本帖最后由 lililili11 于 2015-6-24 22:00 编辑

但是扑克每手牌不是孤立的，仅仅是一手牌，我们可以这样分析，但是如果加入history呢？如何去分析一连串的手牌呢？

比如假设我们这手牌弃牌了，紧接着下一轮，同样的位置，同样的对手，又遇到同样的情况的话，我们对这个对手是tag/lag的默认评估就不是八二开了，而是五五开了。

因为上一手牌我们已经认为他作为人的range，从tag/lag 八二开变成五五开了嘛。然后我们就弃牌了，没有更多的交锋，也就没有更多的信息，所以我们对他的这个人的认识，就停留在tag/lag五五开的这么一个层面。

那么现在再次遇到这个情况，就应该以五五开为默认根据，然后再次对他在4bet的时候是哪种人，来进行修正。比如对手第二次在相同位置4bet我们，由于他是tag/lag五五开，并且由于lag的combo数量是tag的4倍，那么这次他是lag的可能性就是tag的4倍，于是，我们得出，第二次对手4bet的时候，他是tag/lag的可能性是八二开。

对手在相同的情况下第三次4bet我们，以此类推……

从上面的推导过程我们可以看出，由于lag的combo永远比tag的combo要多，所以每当对手4bet我们一次，他是lag的可能性都会变得比我们初始的评估更高一些。而如果每当对手有机会4bet我们，却没有这么做，而是选择了弃牌的时候，他是tag的可能性就会变得更高。

作者: lililili11 时间: 2015-6-24 21:49
本帖最后由 lililili11 于 2015-6-24 22:02 编辑

上面的分析方法推算了牌，推算了人，其实还不够，因为它没有考虑“针对性”。

扑克中更重要的是“针对性”，前面分析了“牌的range”、“人的range”，如果对手只是采取机械的表格式的打法，或者他本身其实就是个死板的程序的话，那么我们采取上面的分析过程没有问题，多分析几次就能把对手摸透。但是正常来说，我们遇到的对手都是会思考，会调整的人。他第一次4bet我们以后，第二次的4bet range很可能会发生调整。

这时候就会有level出现：
对手是lv1的话，按照原本的机械打法不动摇，那么我们可以继续用这个方法来分析他。
对手是lv3的话，就有可能反而收紧range，lag可能在这一次变成tag
对手是lv5的话，可能反而会放宽range，tag可能在这一次变成lag

所以如果发生这种“针对性调整”的情况，原来的分析方法可能就不适用了。这时候可能会出现三条路：

1、我们在没有针对性调整的地方，运用这个分析方法，总可以吧？

比如如果某个人对全桌每个对手都采取差不多的打法，那么我们就可以认为这样的打法就是他自己的默认打法。而我们自己并没有什么特别的地方，没有和桌上的其他人有什么不同，所以在没有针对性的情况下仍然可以采取这样的分析方法。

2、在有针对性调整的地方，我们仍然不管，只是谨慎地使用这种分析方法，有没有可能保证不吃亏？

在有针对性调整的情况下，我们碰到对手第二次4bet，本身就有可能是碰到“小概率事件”。比如这个对手在第一次4bet以后，第二次绝不诈唬，那么他第二次4bet的可能性就是2%左右。我们98%的时候在第二圈不会被他4bet，但是一旦被他4bet了，他的range中没有任何诈唬牌。

贝叶斯定理在没有考虑到针对性调整的情况下，肯定是没有做到利润最大化的。但是它能不能保证按照贝叶斯定理来打，长期来说不吃亏？也就是说，如果第二次真的碰到了2%这样的小概率事件，而我们却把它当成了一个诈唬牌有点多的情况，从长期来说并不会导致我们非常吃亏？这个暂时我还不知道。

我的猜想是，如果我们坚持采用一个比较扎实的回击range，而不是漏洞非常大的回击range的话，那么即使这里碰到小概率事件，而判断错了对手的range，错误也不会很大。长期来说未必会吃亏，比如最多就是JJ/AQ这种牌推出去了，但是不会出现很多垃圾牌推出去想要反诈唬的情况。所以即使吃亏，也仅仅是几手“找不到理由fold”的牌，不能算是打错。

这里似乎有一个说法叫做“完美贝叶斯纳什均衡”，我只是听说了这么个概念，不知道是不是这个概念能应用到扑克的这种情况上来，还有待学习研究。

3、在有针对性调整的地方，我们能不能把针对性调整也纳入推算之中？
这里我有两种假想：
1）       在可能发生针对性调整的地方，把第二次4bet与第一次4bet分离开来看，也就是说，把第二次4bet看成一个独立的情况。那么第二次4bet作为一个单独情况来讲，“人的range”就要重新评估，而不是延续前面第一次得出的修正结果。比如我们如果有足够的把握认为，在第二次4bet之前，平均而言，人的range应该是｛70%tag，30%lag｝，那么第二次4bet发生的时候，就根据这个来修正，而不是延续上一次得到的｛50%tag，50%lag｝的这个结果。

2）       如果要延续第一次得到的｛50%tag,50%lag｝的结果的话，可以假设tag不会改变第二次的4bet range，lag有一半会收紧自己的4bet range变成tag，另外一半不会收紧。那么这时候如果我们遇到了第二次4bet，那么我们评估的起点就是｛75%tag，25%lag｝。

然后再按照一开始提出的方法加以分析：lag的combo数量是tag的4倍，所以如果一开始tag和lag的数量相等的话，在4bet发生以后，这里对手是lag的可能性是tag的4倍。但是我们评估的起点是｛75%tag，25%lag｝，也就是说，一开始tag数量是lag的3倍，所以综合起来，对手是lag的可能性是tag的1.3倍。也就是说，人的range大约是｛57%tag, 43%lag｝那么联合range就是AA/KK 12个，QQ/AK 16个，诈唬牌29个。在这个联合range下，如果我们是JJ的话，是5bet all in还是弃牌，由大家自行决定。

------------------------------------

人类超越机器学习的地方就在于，
1、       会考虑针对性
2、       会从其他各种细微的地方，推测出相关的信息，在这个情况下用上。譬如从其他各种地方看出他是一个新手，那么这里对手针对性的可能性就比较低。譬如从他的VPIP看出他是一个疯子类型的对手，那么这里对手针对性的可能也比较低。

毕竟人类收集信息的渠道多种多样，把各种方面综合起来考虑的能力，也远远超过某种单独的固定的算法。

作者: starbit 时间: 2015-6-29 11:20
前排先占个座

作者: maomaobiao 时间: 2015-7-8 13:12

lililili11 发表于 2015-6-24 23:49
上面的分析方法推算了牌，推算了人，其实还不够，因为它没有考虑“针对性”。

扑克中更重要的是“针对性” ...

我觉得你从理性的分析跳跃到感性的认知的高度的过程，过于简化了。给我的感觉：

1. 跟没说一样，我们大多数时候就是凭借“感觉”做了很多简化的决定。面对4bet计算半天显然也是不现实的。
2. 均衡和反馈的基础都没有涉及，但凡扯到博弈了，起码有个决策树什么的。如果只是用思考的级别来定义调整的幅度，显然是不足以支持博弈中优化的选择结果，和均衡的实现的。
3. 我胡说一点，以HU为例，对均衡最大的影响是什么？不是range，不是思考层面，而是位置。A9 vs 77，不管思考层面到了一个什么境界，率先全进的人都有优势。
4. 那么，你这个（中）对于贝叶斯的应用的阐释，相当不简明。也没有觉得有承上启下的意思，一时间不知道要在（下）里期待些什么了。其实你开头讲的例子不错，不过说28开和55开的分析太累赘了，只需要简单地给出数字就好了，精彩的部分是数字调整变化的过程，而变化之后的部分也偏向教科书了没必要细说。我觉得怎么调整，才是有意思的部分，希望细说。

我举个例子吧。一次印象深刻的智游程周赛经历。

9人桌，就我和对手两个人。
一段时间两个人很有默契地各偷一半。
然后V发现了对我位置略有优势，增加了偷盲的次数。
我认怂的同时，发动了几次3bet，就把他偷走的找回来了。
然后V打字要求各偷一半，我开玩笑说我筹码比他多。V生气开始疯狂偷盲。
演变成HU的攻防，showdown了不到3手牌，我小输换桌。

从此之后，我对起手牌和HU有了完全不一样的认识。但是没有足够的理性思考支持我的一些感性的决策。希望lili总可以拨云见日。

作者: lililili11 时间: 2015-7-8 22:59

maomaobiao 发表于 2015-7-8 13:12
我觉得你从理性的分析跳跃到感性的认知的高度的过程，过于简化了。给我的感觉：

1. 跟没说一样，我们大 ...

额，抱歉让猫猫兄失望了。
这个系列其实我都是在学习和探索，所以其实都是一些摸索中的未定型的东西。特别是3楼的内容，全都是猜测和假想的内容，而一二楼则是我自己对贝叶斯定理熟悉的过程。
有了猜测，我就有了方向，然后再去探索，能多探索一点就多一点收获。

另外，我很少会写自己笃定明确的东西，因为写那些东西对我的成长没有帮助。即使有写，都是稍微总结整理一下就收到电脑里面去了，大概已经有几百篇了。很多时候写东西就是为了让自己的思维能够向远处延伸，因为不借助文字，光靠脑子想，真的很难深刻，所以是一个以笔促思的过程。

作者: lililili11 时间: 2015-7-8 23:22

maomaobiao 发表于 2015-7-8 13:12
我觉得你从理性的分析跳跃到感性的认知的高度的过程，过于简化了。给我的感觉：

1. 跟没说一样，我们大 ...

关于扑克中的静态和动态的均衡，本文中没有涉及，因为它本身是一个很大的主题，我虽然有一些不成熟的思考，但是要写的话，可能比这篇文章长若干倍。

所以我其实是默认，在自己知道的一些基础的均衡知识之上，能不能把贝叶斯定理的调整添加到这个上面来。基本上是形成了这个猜测，所以就提到了这个猜测，然后更深的内容我还不知道，有待探索。

作者: maomaobiao 时间: 2015-7-9 05:42
本帖最后由 maomaobiao 于 2015-7-9 07:44 编辑

lililili11 发表于 2015-7-9 00:59
额，抱歉让猫猫兄失望了。
这个系列其实我都是在学习和探索，所以其实都是一些摸索中的未定型的东西。特 ...

支持一下！我觉得你的思维和写作会大放异彩的。

How do I know what I think

until I see what I say?

– E. M. Forster

多写是好事，我现在越来越懒了....

欢迎光临智游城 (http://zhiyoucheng.co/)