智游城

标题: 试简明阐释贝叶斯定理在扑克中的应用(中)——联合range [打印本页]

作者: lililili11    时间: 2015-6-24 21:46
标题: 试简明阐释贝叶斯定理在扑克中的应用(中)——联合range
本帖最后由 lililili11 于 2015-6-24 22:32 编辑

(很多想法还不成熟,仅仅处于猜想阶段,发出来供大家讨论)

上一篇文章我们说到了贝叶斯推理其实就是“评估+修正”的过程。那么我们为什么不直接对所需要求解的问题进行评估,而是要绕一个圈子,对另一个事情评估,然后再修正呢?

我认为答案是这样的:
       就是因为直接需要求解的问题,很难评估出具体的东西,或者说即使能够评估出来,准确性不高,不太可靠。
       当然不是所有问题都不能直接评估的,只能说有一部分方便直接评估,另一部分不方便直接评估。而方便直接评估的那些问题,都已经毫无疑问地被我们轻松解决掉了,所以就不在我们今天的讨论范围之内。
        所以现在我们拿出来讨论的,都是通过直接评估有难度的,或者准确率不高的。那么这时候我们就需要绕一个弯——通过其他的我们已知的,并且比较有把握的信息(或者比较靠谱的评估),来推导出我们要解决的这个问题的信息,这样就能保证准确度。
-------------------------------------------
OK,接下来我们来聊牌:
人的range与牌的range:
先有人,后有牌,人决定牌的range。
人的range,即是牌的range的range。
贝叶斯定理既可以用来推算牌,又可以用来推算人。


推算牌:
对手是个tag,AA/KK 会100% 4bet,AK/QQ会50% 4bet,其他牌不会4bet。现在对手4bet了,他有什么牌?

我们知道AAKK一共12 combo,AKQQ一共22 combo,50% 就是11 combo,所以我们知道他的range中大约一半是AAKK,一半是AKQQ 。

推算人:
除了tag以外,还有一种人是lag,他们是会4bet诈呼的选手,这种人4bet range中1/3是QQ+ AK+,另2/3是各种半诈呼的牌型,比如KQ,同花连张等,这些牌都会弃牌给5bet all in。

现在我们被对手4bet了,我们不知道他是什么样的人,也不知道他有什么牌。现在问我们手里的JJ是全押还是弃牌?

这里显然条件不足,我们需要寻找条件。

1.
如果我们知道这个人手里具体是哪手牌就好了,可惜我们不知道。

2.退而求其次,我们不知道他的底牌,如果知道他的range是什么,那也可以。可惜,我们不仅不知道他的底牌,连他的range也不清楚。而且不能随便给他安上一个range,因为那样的range会是我们主观“自以为”,而不是客观事实。我们说,虽然打牌仅仅是个游戏,也要讲究实事求是。

3.再退一步,那我们知道他是什么样的人也行啊。因为知道他是什么人,就等于知道他的range了嘛。可惜我们还是不知道他具体是哪种人。但是这里我们已经有点头绪了,因为我们知道,他不是一个tag,就是一个lag,其他可能性太小,不考虑。这时候虽然不能知道怎么打,但似乎情况已经有点眉目了。

4.对手类型只有两种,既然我们不能确定他是哪一种,那么我们能不能知道他作为人的range是什么呢?有的朋友可能会说,我知道了,他作为人的range就是{tag,lag}这么一个range嘛,这还不简单?
不对,如果他有99%可能是tag,1%可能是lag;或者他1%可能是tag,99%可能是lag,这两种情况完全不一样吧?

所以我们还要知道他多大可能是tag,多大可能是lag。这两者只要知道一个就能知道第二个了,因为两种可能性之和为1(其他的可能性太小,忽略)。

说到这里,我们其实差不多可以下判断了。比如根据自己的“感觉”,认为对手是tag/lag的可能性28开啊,37开啊,46开啊,55开啊。不管我们怎么给他定,都能得出一个结果,那就是他是什么range的人。但是这个划分是不是还是稍微有点主观了?因为我们在划分的不是正常情况下对手是什么人,而是在4bet情况下对手是什么。4bet情况一般来说是挺罕见的,我们由于缺乏被4bet的经验,贸贸然做出主观的划分的话,准确率不一定够高。
那么有没有更客观一点的办法?
于是我们可以找找看有没有更加有把握的评估,如果没有,那就照这个方案来办。如果有,就用更加客观的办法。

5.通常我们没有足够多的被4bet的样本数量,那么4bet我们的人是tag/lag的可能性我们也就没有很大把握判断。但是在正常情况下,对手是tag/lag的可能性多大,我们还是比较有把握的。比如我们认为正常情况下,对手是tag/lag八二开。
由于我们知道,tag的4bet combo是23个,lag的4bet combo是100多个,我们就把这两个数字近似地看成是25和100。说明如果在tag和lag比例相等的情况下,其实4bet的这个人是lag的可能性是tag的4倍。

请注意上面这个逻辑关系,为什么lag的combo多了,4bet的人是lag的可能性就更高?我们类比一下,如果有一位财神爷,他在牌桌上玩100%的range,那们我们是不是每把牌都能看到这个人的参与呢?很显然,某人的vpip越高,那么我们在平均每手牌中看到他参与的可能性就越高,而这个可能性恰好和他的vpip成正比关系。

现在由于tag/lag其实不是比例相等,而是八二开,那么combo比例和这个人数比例刚好抵消了,那么我们就得出,4bet的人中,tag/lag大约是五五开的局面。

现在我们知道这个对手是什么人的range,又知道每种人的牌的range,那么我们就知道了一个“联合range”。由于这里对手是tag/lag恰好是55开,所以计算起来比较简单,我们可以算出对手的这个4bet的联合range中,AA/KK的combo是12个,AK/QQ的combo是16.5个,诈呼牌的combo是34个。
知道range以后,JJ是要全押还是弃牌,由大家自行决定。

以上就是我们对这个假想情况的分析过程。这个分析过程,可以认为用到了贝叶斯定理,也可以说没有用到贝叶斯定理。因为扑克有个好处,它可以数combo,数来数去,最后除一下,概率就清楚了,不像贝叶斯公式那么麻烦。但是推理过程其实跟贝叶斯定理在逻辑上是一致的。



作者: lililili11    时间: 2015-6-24 21:48
本帖最后由 lililili11 于 2015-6-24 22:00 编辑

但是扑克每手牌不是孤立的,仅仅是一手牌,我们可以这样分析,但是如果加入history呢?如何去分析一连串的手牌呢?

比如假设我们这手牌弃牌了,紧接着下一轮,同样的位置,同样的对手,又遇到同样的情况的话,我们对这个对手是tag/lag的默认评估就不是八二开了,而是五五开了。

因为上一手牌我们已经认为他作为人的range,从tag/lag 八二开变成五五开了嘛。然后我们就弃牌了,没有更多的交锋,也就没有更多的信息,所以我们对他的这个人的认识,就停留在tag/lag五五开的这么一个层面。

那么现在再次遇到这个情况,就应该以五五开为默认根据,然后再次对他在4bet的时候是哪种人,来进行修正。 比如对手第二次在相同位置4bet我们,由于他是tag/lag五五开,并且由于lag的combo数量是tag的4倍,那么这次他是lag的可能性就是tag的4倍,于是,我们得出,第二次对手4bet的时候,他是tag/lag的可能性是八二开。

对手在相同的情况下第三次4bet我们,以此类推……

从上面的推导过程我们可以看出,由于lag的combo永远比tag的combo要多,所以每当对手4bet我们一次,他是lag的可能性都会变得比我们初始的评估更高一些。而如果每当对手有机会4bet我们,却没有这么做,而是选择了弃牌的时候,他是tag的可能性就会变得更高。

作者: lililili11    时间: 2015-6-24 21:49
本帖最后由 lililili11 于 2015-6-24 22:02 编辑

上面的分析方法推算了牌,推算了人,其实还不够,因为它没有考虑“针对性”。

扑克中更重要的是“针对性”,前面分析了“牌的range”、“人的range”,如果对手只是采取机械的表格式的打法,或者他本身其实就是个死板的程序的话,那么我们采取上面的分析过程没有问题,多分析几次就能把对手摸透。但是正常来说,我们遇到的对手都是会思考,会调整的人。他第一次4bet我们以后,第二次的4bet range很可能会发生调整。

这时候就会有level出现:
对手是lv1的话,按照原本的机械打法不动摇,那么我们可以继续用这个方法来分析他。
对手是lv3的话,就有可能反而收紧range,lag可能在这一次变成tag
对手是lv5的话,可能反而会放宽range,tag可能在这一次变成lag

所以如果发生这种“针对性调整”的情况,原来的分析方法可能就不适用了。这时候可能会出现三条路:

1、我们在没有针对性调整的地方,运用这个分析方法,总可以吧?

比如如果某个人对全桌每个对手都采取差不多的打法,那么我们就可以认为这样的打法就是他自己的默认打法。而我们自己并没有什么特别的地方,没有和桌上的其他人有什么不同,所以在没有针对性的情况下仍然可以采取这样的分析方法。

2、在有针对性调整的地方,我们仍然不管,只是谨慎地使用这种分析方法,有没有可能保证不吃亏?

在有针对性调整的情况下,我们碰到对手第二次4bet,本身就有可能是碰到“小概率事件”。比如这个对手在第一次4bet以后,第二次绝不诈唬,那么他第二次4bet的可能性就是2%左右。我们98%的时候在第二圈不会被他4bet,但是一旦被他4bet了,他的range中没有任何诈唬牌。

贝叶斯定理在没有考虑到针对性调整的情况下,肯定是没有做到利润最大化的。但是它能不能保证按照贝叶斯定理来打,长期来说不吃亏?也就是说,如果第二次真的碰到了2%这样的小概率事件,而我们却把它当成了一个诈唬牌有点多的情况,从长期来说并不会导致我们非常吃亏?这个暂时我还不知道。

我的猜想是,如果我们坚持采用一个比较扎实的回击range,而不是漏洞非常大的回击range的话,那么即使这里碰到小概率事件,而判断错了对手的range,错误也不会很大。长期来说未必会吃亏,比如最多就是JJ/AQ这种牌推出去了,但是不会出现很多垃圾牌推出去想要反诈唬的情况。所以即使吃亏,也仅仅是几手“找不到理由fold”的牌,不能算是打错。

这里似乎有一个说法叫做“完美贝叶斯纳什均衡”,我只是听说了这么个概念,不知道是不是这个概念能应用到扑克的这种情况上来,还有待学习研究。


3、在有针对性调整的地方,我们能不能把针对性调整也纳入推算之中?
这里我有两种假想:
1)        在可能发生针对性调整的地方,把第二次4bet与第一次4bet分离开来看,也就是说,把第二次4bet看成一个独立的情况。那么第二次4bet作为一个单独情况来讲,“人的range”就要重新评估,而不是延续前面第一次得出的修正结果。比如我们如果有足够的把握认为,在第二次4bet之前,平均而言,人的range应该是{70%tag,30%lag},那么第二次4bet发生的时候,就根据这个来修正,而不是延续上一次得到的{50%tag,50%lag}的这个结果。

2)        如果要延续第一次得到的{50%tag,50%lag}的结果的话,可以假设tag不会改变第二次的4bet range,lag有一半会收紧自己的4bet range变成tag,另外一半不会收紧。那么这时候如果我们遇到了第二次4bet,那么我们评估的起点就是{75%tag,25%lag}。

然后再按照一开始提出的方法加以分析:lag的combo数量是tag的4倍,所以如果一开始tag和lag的数量相等的话,在4bet发生以后,这里对手是lag的可能性是tag的4倍。但是我们评估的起点是{75%tag,25%lag},也就是说,一开始tag数量是lag的3倍,所以综合起来,对手是lag的可能性是tag的1.3倍。也就是说,人的range大约是{57%tag, 43%lag}那么联合range就是AA/KK 12个,QQ/AK 16个,诈唬牌29个。在这个联合range下,如果我们是JJ的话,是5bet all in还是弃牌,由大家自行决定。

------------------------------------

人类超越机器学习的地方就在于,
1、        会考虑针对性
2、        会从其他各种细微的地方,推测出相关的信息,在这个情况下用上。譬如从其他各种地方看出他是一个新手,那么这里对手针对性的可能性就比较低。譬如从他的VPIP看出他是一个疯子类型的对手,那么这里对手针对性的可能也比较低。

毕竟人类收集信息的渠道多种多样,把各种方面综合起来考虑的能力,也远远超过某种单独的固定的算法。

作者: starbit    时间: 2015-6-29 11:20
前排先占个座
作者: maomaobiao    时间: 2015-7-8 13:12
lililili11 发表于 2015-6-24 23:49
上面的分析方法推算了牌,推算了人,其实还不够,因为它没有考虑“针对性”。

扑克中更重要的是“针对性” ...

我觉得你从理性的分析跳跃到感性的认知的高度的过程,过于简化了。给我的感觉:

1. 跟没说一样,我们大多数时候就是凭借“感觉”做了很多简化的决定。面对4bet计算半天显然也是不现实的。
2. 均衡和反馈的基础都没有涉及,但凡扯到博弈了,起码有个决策树什么的。如果只是用思考的级别来定义调整的幅度,显然是不足以支持博弈中优化的选择结果,和均衡的实现的。
3. 我胡说一点,以HU为例,对均衡最大的影响是什么?不是range,不是思考层面,而是位置。A9 vs 77,不管思考层面到了一个什么境界,率先全进的人都有优势。
4. 那么,你这个(中)对于贝叶斯的应用的阐释,相当不简明。也没有觉得有承上启下的意思,一时间不知道要在(下)里期待些什么了。其实你开头讲的例子不错,不过说28开和55开的分析太累赘了,只需要简单地给出数字就好了,精彩的部分是数字调整变化的过程,而变化之后的部分也偏向教科书了没必要细说。我觉得怎么调整,才是有意思的部分,希望细说。

我举个例子吧。一次印象深刻的智游程周赛经历。

9人桌,就我和对手两个人。
一段时间两个人很有默契地各偷一半。
然后V发现了对我位置略有优势,增加了偷盲的次数。
我认怂的同时,发动了几次3bet,就把他偷走的找回来了。
然后V打字要求各偷一半,我开玩笑说我筹码比他多。V生气开始疯狂偷盲。
演变成HU的攻防,showdown了不到3手牌,我小输换桌。

从此之后,我对起手牌和HU有了完全不一样的认识。但是没有足够的理性思考支持我的一些感性的决策。希望lili总可以拨云见日。

作者: lililili11    时间: 2015-7-8 22:59
maomaobiao 发表于 2015-7-8 13:12
我觉得你从理性的分析跳跃到感性的认知的高度的过程,过于简化了。给我的感觉:

1. 跟没说一样,我们大 ...

额,抱歉让猫猫兄失望了。
这个系列其实我都是在学习和探索,所以其实都是一些摸索中的未定型的东西。特别是3楼的内容,全都是猜测和假想的内容,而一二楼则是我自己对贝叶斯定理熟悉的过程。
有了猜测,我就有了方向,然后再去探索,能多探索一点就多一点收获。


另外,我很少会写自己笃定明确的东西,因为写那些东西对我的成长没有帮助。即使有写,都是稍微总结整理一下就收到电脑里面去了,大概已经有几百篇了。很多时候写东西就是为了让自己的思维能够向远处延伸,因为不借助文字,光靠脑子想,真的很难深刻,所以是一个以笔促思的过程。

作者: lililili11    时间: 2015-7-8 23:22
maomaobiao 发表于 2015-7-8 13:12
我觉得你从理性的分析跳跃到感性的认知的高度的过程,过于简化了。给我的感觉:

1. 跟没说一样,我们大 ...

关于扑克中的静态和动态的均衡,本文中没有涉及,因为它本身是一个很大的主题,我虽然有一些不成熟的思考,但是要写的话,可能比这篇文章长若干倍。

所以我其实是默认,在自己知道的一些基础的均衡知识之上,能不能把贝叶斯定理的调整添加到这个上面来。基本上是形成了这个猜测,所以就提到了这个猜测,然后更深的内容我还不知道,有待探索。

作者: maomaobiao    时间: 2015-7-9 05:42
本帖最后由 maomaobiao 于 2015-7-9 07:44 编辑
lililili11 发表于 2015-7-9 00:59
额,抱歉让猫猫兄失望了。
这个系列其实我都是在学习和探索,所以其实都是一些摸索中的未定型的东西。特 ...

支持一下!我觉得你的思维和写作会大放异彩的。

How do I know what I think

until I see what I say?

– E. M. Forster

多写是好事,我现在越来越懒了....







欢迎光临 智游城 (http://zhiyoucheng.co/) Powered by Discuz! X3.2