智游城

标题: 出道题:KQJ 之No Limit局 [打印本页]

作者: Howard    时间: 2012-6-22 08:55
标题: 出道题:KQJ 之No Limit局
本帖最后由 Howard 于 2012-6-22 08:56 编辑

不是NoLimit Holdem,是个玩具对局。
甲乙二人heads up,牌敦中只有三张牌:K、Q、J。大小为:K>Q>J

底锅为1,无盲注。有效筹码足够深。每人随机发一张牌。

乙是进攻者,他可选择check/bet,bet量自定(为讨论方便,回帖请用b代表bet量)。甲是防守者,如果乙check,他只能check;如果乙bet,他只能fold/call。没有raise。

现在假设乙决定value bet量和bluff量相等都是b,
问题:乙的最佳bet量b是多大?

--------------------------
提示:
1) 本问题有一定难度
2)看过我《扑克的本质笔记》一帖的朋友可能对KQJ游戏有印象:乙显然只能bet K (value bet,希望甲拿Q去抓bluff),或者bet J(bluff,希望甲fold Q),绝不能bet Q(甲拿K一定call,拿J一定fold)
3)甲乙都采用Game Theory Optimized策略
作者: notch    时间: 2012-6-22 14:06
本帖最后由 notch 于 2012-6-22 14:08 编辑

乙三种情况是各33%
K: bet
Q: check
J: x% bet bluff, (1-x%) check

甲面对三种情况,各有50%可能
乙K,
甲J,fold,乙得1,
甲Q,y call,(1-y) fold,乙得1+yb
乙Q,甲无论如何check
甲K,乙得0
甲J,乙得1
乙J,(1-x)check,乙得0
x bet
甲k,乙得-b
甲Q,ycall,乙得-b,(1-y)fold,乙得1

综上,乙得
1/6*1+1/6*(1+yb)+1/6*0+1/6*1+1/3*(1-x)*0+1/3*x*(1/2*(-b)+1/2*y*(-b)+1/2(1-y)*1)
=1/6*(3+yb+x*(-b-yb+1-y))
=1/6*(3+b(y-x-xy)+x(1-y))

假设存在一个b>0,使
b(y-x-xy)+x(1-y)>0,且有最大值
如果y-x-xy>0,那么b应该是无穷大,于假设不符
如果y-x-xy<0,那么b<(x(1-y))/(x+xy-y),b=0,亦于假设不符
所以不存在这么一个b


作者: 竹林居士    时间: 2012-6-22 21:05
本帖最后由 竹林居士 于 2012-6-22 07:18 编辑

先把问题简化。
先看甲的策略:甲拿K一定CALL,拿J一定FOLD。
关键分析甲拿Q时:
如果甲知道乙的策略,由于乙BET量是相等的,甲CALL的EV=50%*(b+1)-50%*b=0.5
所以甲拿Q一定CALL。
乙的EV=50%*(b+1)-50%*b=0.5
双方EV与b无关,所以我的结论是BET多少都可以。


作者: Howard    时间: 2012-6-22 21:51
本帖最后由 Howard 于 2012-6-22 21:54 编辑

2楼notch的讨论很严密,最后的简化公式我算了算也没错:
乙的EV=1/6*(3+b(y-x-xy)+x(1-y))

但是,最后的结论忽略了一点,就是x和y都不是独立于b的。换句话说,他们都是关于b的函数。因为甲和乙都打optimized策略。所谓optimized,就是说我明告诉你我的策略,你也不能通过改变战术(x,y值)来剥削我。所以,乙的EV是有可能有最大值,或者至少有区域极值的。


作者: Howard    时间: 2012-6-22 21:54
3楼竹林,

乙拿着K肯定bet100%,但是拿着J却只有一定比例bet。为跟2楼一致,

乙拿J bet%= x
甲拿Q call%=y
作者: zdy32167    时间: 2012-6-22 22:13
sqrt(2)-1 ?
作者: 竹林居士    时间: 2012-6-23 00:50
本帖最后由 竹林居士 于 2012-6-22 10:55 编辑

我把题目理解错了,我以为乙每一手都BLUFF了,导致把问题简单化了。

我初步思路是找出一个EV的三元函数,这个函数对甲乙双方都是最佳的,用偏导数等于0时EV取极大值。解出x,y,b。
慢慢来。

作者: Howard    时间: 2012-6-23 01:05
zdy32167 发表于 2012-6-22 22:13
sqrt(2)-1 ?

推理、计算过程?
作者: Howard    时间: 2012-6-23 01:06
竹林居士 发表于 2012-6-23 00:50
我把题目理解错了,我以为乙每一手都BLUFF了,导致把问题简单化了。

我初步思路是找出一个EV的三元函数, ...

跟聪明人说话就是省事儿!竹林太上道了,一下子把方向指的明白儿的。
作者: 伟大的墙    时间: 2012-6-23 01:17
Howard 发表于 2012-6-23 01:06
跟聪明人说话就是省事儿!竹林太上道了,一下子把方向指的明白儿的。

你们先折腾
我只看最后结论
作者: 竹林居士    时间: 2012-6-23 02:25
本帖最后由 竹林居士 于 2012-6-22 13:30 编辑

先看甲的策略:甲拿K一定CALL,拿J一定FOLD。

乙拿J bet%= x
甲拿Q call%=y

对甲分析6种情况
1、K vs Q                        EV1=1
2、K vs J                        EV2=(1+b)x + (1-x)=bx+1
3、Q vs K                        EV3=-yb
4、Q vs J                        EV4=xy(1+b) +(1-x)=1-x+xy+bxy
5、J vs K                        EV5=0
6、J vs Q                        EV6=0

对y求偏导数
-b+x+bx=0
x+bx=b

对乙分析6种情况
1、K vs Q                        EV1=(b+1)y+(1-y)=by+1
2、K vs J                        EV2=1
3、Q vs K                        EV3=0
4、Q vs J                        EV4=1
5、J vs K                        EV5=-bx
6、J vs Q                        EV6=-bxy+x(1-y)=x-xy-bxy

对x求偏导数
1-b-y-by=0
对b求偏导数
y-x-xy=0
y+xy=y

x+bx=b
1-b-y-by=0
x+xy=y

y=b
bb+2b-1=0
(b+1)(b+1)=2
b=sqrt(2)-1
y=sqrt(2)-1
x=b/(1+b)=1-sqrt(2)/2



解得:
b=sqrt(2)-1
y=sqrt(2)-1
x=1-sqrt(2)/2

得乙的最佳bet量b是0.41
拿J时29%时BET
甲拿Q时41% CALL


作者: zdy32167    时间: 2012-6-23 02:45
本帖最后由 zdy32167 于 2012-6-23 02:46 编辑
Howard 发表于 2012-6-23 01:05
推理、计算过程?


这不是填空题么?霍老师还要过程……
高中程度的计算实在不好意思拿出来
我等着吃饭的时候算的,有一些地方没有严格的证明

借用2L的式子(我自己用的是abc)
1/6*(3+b(y-x-xy)+x(1-y))
=1/6*(3+x-bx-y(x+xb-b))
其中b和x是乙决定的,y由甲来选择
固定了x和b后,EV函数是关于y的一次函数,应该在y=0或y=1时取最小值(这里有什么办法直接推出x+xb-b=0?我不会了)
两种情况下的EV函数分别为1/6*(3+x-bx)和1/6*(3+b-2bx)
我们要找出其中较小一个的最大值。
因为两个函数关于x和b的单调性是相反的,因此最大值出现在他们相等的这条线上(仍然很ugly,等达人解答)
由x-bx=b-2bx得x=1-1/(1+b), bx = b-x = b-1+1/(1+b)
1/6*(3+b-2bx) = 1-1/6*[(1+b)+2/(1+b)]<=1-1/3*sqrt(2),当1+b=2/(1+b)即b=sqrt(2)-1~=0.414的时候取等号,对应的bluff频率x=1-1/(1+b)=1-sqrt(2)/2~=0.293,EV为1-1/3*sqrt(2)~=0.528,跟甲call的频率无关。
作者: notch    时间: 2012-6-23 12:47
本帖最后由 notch 于 2012-6-23 13:12 编辑
竹林居士 发表于 2012-6-23 02:25
先看甲的策略:甲拿K一定CALL,拿J一定FOLD。

乙拿J bet%= x


我之前认为乙的ev应该是有个极值
但这个值和x,y相关,和b无关

如果按照optimized game来解释,那就是说乙定了x,b以后,甲无法靠改变y来获利
把公式改一下
y(b-bx-x)+x-bx
那么就是应该使b-bx-x=0,且x-bx有最大值
x=b/(b+1)
x-bx=b/(b+1)-b^2/(b+1)=b(1-b)/(1+b)在b>0的范围内有极大值
求导数不在行,估计竹林的结果是对的

作者: zdy32167    时间: 2012-6-23 13:30
notch 发表于 2012-6-23 12:47
我之前认为乙的ev应该是有个极值
但这个值和x,y相关,和b无关

y(b-bx-x)+x-bx
那么就是应该使b-bx-x=0,且x-bx有最大值

这一步我一直不知道是怎么得出来的,包括以前看霍老师的文章也有过这样的疑问,是不是我的知识里缺了什么内容,能不能帮我详细解释一下?
如果有另一组x1,b1,使得y的系数b1-b1x1-x1不为0,使得甲可以通过改变y来使EV有最小值,但这个最优的EV仍然大于x-bx,那通过让b-bx-x=0得出的不就不是最优策略了么?
比方说,如果EV的表达式正好是y(b-bx-x)+100x-bx怎么办?是说有什么判定的原则什么的么?
作者: notch    时间: 2012-6-23 14:23
zdy32167 发表于 2012-6-23 13:30
y(b-bx-x)+x-bx
那么就是应该使b-bx-x=0,且x-bx有最大值

说实话自己没仔细想过这一点的证明
只是觉得应该如此
试证明如下:

这是一个y的一次函数y: [0,1]
如果b-bx-x>0,那么y取0为极小值,x-bx
b>(b+1)x,所以x<b/(b+1)
代入上式,得极值为x-bx=x(1-b)<b(1-b)/(1+b),后面这个公式在b=sqr(2)-1时最大为3-2sqr(2)
那么当b-bx-x>0时,该值不可能大于3-2sqr(2)

如果b-bx-x<0,那么y取1为极小值,b-bx-x+x-bx=b-2bx
同样得x>b/(b+1),代入得
b-2bx=b(1-2x)<b(1-b)/(1+b)
也和之前的结论相同

所以只有当b-bx-x=0的时候,该式有极值b(1-b)/(1+b)

如果公式变了,意味着题目的条件也变了
按照你写的公式,意味着当你bet的时候,你有一个100的额外收入
这么一来结论当然也不一样了
作者: zdy32167    时间: 2012-6-23 15:27
notch 发表于 2012-6-23 14:23
说实话自己没仔细想过这一点的证明
只是觉得应该如此
试证明如下:

这样的证明好像跟你之前的思路不太一样
你之前好像是一步得出来的,就像是引用了什么定理
比方说f(b,x,y) = y*g(x,y) + h(x, y), 当满足xxx条件时当y=0时有极值……如果这样的话,x的系数是1还是100根本就是一样的。我自己的步骤也像你后面的帖子一样,还不如你严密,而且看上去更像一个偶然,而无法像你前一个帖子一样好像一步得出结果,所以如果你是用了什么我不知道的方法,还望不吝赐教
作者: notch    时间: 2012-6-23 22:50
zdy32167 发表于 2012-6-23 15:27
这样的证明好像跟你之前的思路不太一样
你之前好像是一步得出来的,就像是引用了什么定理
比方说f(b,x,y) ...

当时的思路是因为说要optimized strategies,也就是说无论y怎么变,都不影响结果
所以直接出了那个系数=0
并没有想得很细

看到你的回帖后想说你的说法也好像有道理
于是反过去重新证明了一下
作者: Howard    时间: 2012-6-24 16:40
本帖最后由 Howard 于 2012-6-25 02:48 编辑

我就不说什么了,只有佩服。zdy32167和竹林的回帖我认真学习了,虽然看起来比较吃力,基本上还是看懂了,完全正确!

尤其是竹林的11楼回帖,清晰、明确、思路顺畅。说实话跟Bill Chen书上的计算方法不同,但我认为竹林的方法更清晰,更容易理解,要胜过原书的解答方法。

而zdy兄等吃饭的时间就能计算出来,更是让我叹服不已。两位的数学造诣实在是比我高不少。

竹林兄一举解答出了x y b 三个值。其中y=b=sqrt(2)-1。而题目已经表明,甲是无法靠改变y获利的,也就是说,y是多少其实没有关系。那么为什么y还有固定的值呢?因为如果甲和乙都知道对方策略的话,甲就只能用y=sqrt(2)-1,这样他才可以说自己的策略是GTO的,乙无法靠改变x来获利。如果甲不使用sqrt(2)-1,那么他call的频率或者高,或者低。高了,乙就never bluff J,也就是x=0%;低了,乙就always bluff J,也就是x=100% 。 所以,甲要使用这个固定的y值,才能说自己是GTO

作者: zdy32167    时间: 2012-6-25 01:56
Howard 发表于 2012-6-24 16:40
我就不说什么了,只有佩服。zdy32167和竹林的回帖我认真学习了,虽然看起来比较吃力,基本上还是看懂了,完 ...

关于y的部分学习了,多谢
霍老师的溢美之词让我太惭愧了
运气不好的时候等吃饭是要等很久的……
主要的困难在于没有纸笔,因此答案基本是靠猜的,中间跳过了不少步骤
您要是说我算错了,我还得老老实实回家慢慢算……

作者: Howard    时间: 2012-6-25 02:46
zdy32167 发表于 2012-6-25 01:56
关于y的部分学习了,多谢
霍老师的溢美之词让我太惭愧了
运气不好的时候等吃饭是要等很久的……

你给出根号2减一的正确答案我就吃了一惊,但是没有立刻说正确,因为怕打击后来回答问题的人积极性,同时也确实想看看你是怎么算的。这个我真得承认,我光凭心算是算不出来的
作者: zdy32167    时间: 2012-6-25 04:10
Howard 发表于 2012-6-25 02:46
你给出根号2减一的正确答案我就吃了一惊,但是没有立刻说正确,因为怕打击后来回答问题的人积极性,同时 ...

我贴的不是当初自己用的方法……
我的方法完全是做填空题的思路
首先,相信霍老师,这道题一定有解
其次,假设有解时y的系数为0,这一步是我感到最不安的,我之所以追问notch是因为我其实用了跟他一样的方法,但不知道如何证明其正确性,包括竹林的解法我也没想明白,为什么一定是各个偏导数都是0,万一解出来不是鞍点是极点怎么办,求教。
然后,分情况讨论EV,忽略掉无关的EV和系数中的1/2,我还是用我的abc吧,一看xyz就犯晕
a=Attempt to bluff %
b=Bet size
c=Call %
首先忽略与c无关的部分,得到b-a-ab=0,有ab=b-a和a=1-1/(b+1)
然后忽略与c有关的部分,得到a(-b+1)=a-ab=a-(b-a)=2a-b,求这个式子的极值估计要用到那个著名的不等式,因为a的系数是2,所以最后一定是b+1=sqrt(2)
这么做的话估计大多数人都能心算,我以前就是这么做填空题的,但错一步就2了
作者: 竹林居士    时间: 2012-6-25 09:15
我再把我的解题全过程总结一下:
1、一开始我把题目理解错了,没注意Howard的那句话"此题有一定难度",导致我回了一个让人笑掉大牙的帖子。
2、看了Howard的回贴,才把题目读明白。试探性的说了一个解题思路,并且试探性地解题,看了Howard的又一回贴,在他肯定了我的解题思路后,我才把发表我的解题回贴。就是说我的解题过程是得到了很多提示才解出来的。
3、我对Howard的肯定我欣然接受,但对那些赞扬感到有些不安。我没见过原书的解法,也想学习一下。
4、我的解题过程叙述不是非常详细。我认为,对能看懂解题过程的人没必要写得太详细,对看不懂解题过程的人写详细了他还是看不懂,于是略去一些不关键的步骤。
5、解完题目后,我很自信我的结果。楼上提出的没有证明是不是鞍点的疑虑,我也考虑到了这点,因为这是一道有实际意义的应用题,不是一个纯数学题,证明的意义不大。解题过程b有两个解一个是sqrt(2)-1,另一个是-sqrt(2)-2,不合题意,略去,没必要写出来。
6、解完题目后,我没有考虑b,x,y的具体涵义。看了howard的总结后才明白。Howard对b,x,y的解释太精彩了,佩服佩服!





欢迎光临 智游城 (http://zhiyoucheng.co/) Powered by Discuz! X3.2