智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 8999|回复: 21
打印 上一主题 下一主题

出道题:KQJ 之No Limit局

[复制链接]
跳转到指定楼层
1#
Howard 发表于 2012-6-22 08:55:47 | 只看该作者 回帖奖励 |正序浏览 |阅读模式
本帖最后由 Howard 于 2012-6-22 08:56 编辑

不是NoLimit Holdem,是个玩具对局。
甲乙二人heads up,牌敦中只有三张牌:K、Q、J。大小为:K>Q>J

底锅为1,无盲注。有效筹码足够深。每人随机发一张牌。

乙是进攻者,他可选择check/bet,bet量自定(为讨论方便,回帖请用b代表bet量)。甲是防守者,如果乙check,他只能check;如果乙bet,他只能fold/call。没有raise。

现在假设乙决定value bet量和bluff量相等都是b,
问题:乙的最佳bet量b是多大?

--------------------------
提示:
1) 本问题有一定难度
2)看过我《扑克的本质笔记》一帖的朋友可能对KQJ游戏有印象:乙显然只能bet K (value bet,希望甲拿Q去抓bluff),或者bet J(bluff,希望甲fold Q),绝不能bet Q(甲拿K一定call,拿J一定fold)
3)甲乙都采用Game Theory Optimized策略
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏1
22#
竹林居士 发表于 2012-6-25 09:15:28 来自手机 | 只看该作者
我再把我的解题全过程总结一下:
1、一开始我把题目理解错了,没注意Howard的那句话"此题有一定难度",导致我回了一个让人笑掉大牙的帖子。
2、看了Howard的回贴,才把题目读明白。试探性的说了一个解题思路,并且试探性地解题,看了Howard的又一回贴,在他肯定了我的解题思路后,我才把发表我的解题回贴。就是说我的解题过程是得到了很多提示才解出来的。
3、我对Howard的肯定我欣然接受,但对那些赞扬感到有些不安。我没见过原书的解法,也想学习一下。
4、我的解题过程叙述不是非常详细。我认为,对能看懂解题过程的人没必要写得太详细,对看不懂解题过程的人写详细了他还是看不懂,于是略去一些不关键的步骤。
5、解完题目后,我很自信我的结果。楼上提出的没有证明是不是鞍点的疑虑,我也考虑到了这点,因为这是一道有实际意义的应用题,不是一个纯数学题,证明的意义不大。解题过程b有两个解一个是sqrt(2)-1,另一个是-sqrt(2)-2,不合题意,略去,没必要写出来。
6、解完题目后,我没有考虑b,x,y的具体涵义。看了howard的总结后才明白。Howard对b,x,y的解释太精彩了,佩服佩服!
21#
zdy32167 发表于 2012-6-25 04:10:44 | 只看该作者
Howard 发表于 2012-6-25 02:46
你给出根号2减一的正确答案我就吃了一惊,但是没有立刻说正确,因为怕打击后来回答问题的人积极性,同时 ...

我贴的不是当初自己用的方法……
我的方法完全是做填空题的思路
首先,相信霍老师,这道题一定有解
其次,假设有解时y的系数为0,这一步是我感到最不安的,我之所以追问notch是因为我其实用了跟他一样的方法,但不知道如何证明其正确性,包括竹林的解法我也没想明白,为什么一定是各个偏导数都是0,万一解出来不是鞍点是极点怎么办,求教。
然后,分情况讨论EV,忽略掉无关的EV和系数中的1/2,我还是用我的abc吧,一看xyz就犯晕
a=Attempt to bluff %
b=Bet size
c=Call %
首先忽略与c无关的部分,得到b-a-ab=0,有ab=b-a和a=1-1/(b+1)
然后忽略与c有关的部分,得到a(-b+1)=a-ab=a-(b-a)=2a-b,求这个式子的极值估计要用到那个著名的不等式,因为a的系数是2,所以最后一定是b+1=sqrt(2)
这么做的话估计大多数人都能心算,我以前就是这么做填空题的,但错一步就2了
20#
 楼主| Howard 发表于 2012-6-25 02:46:53 | 只看该作者
zdy32167 发表于 2012-6-25 01:56
关于y的部分学习了,多谢
霍老师的溢美之词让我太惭愧了
运气不好的时候等吃饭是要等很久的……

你给出根号2减一的正确答案我就吃了一惊,但是没有立刻说正确,因为怕打击后来回答问题的人积极性,同时也确实想看看你是怎么算的。这个我真得承认,我光凭心算是算不出来的
19#
zdy32167 发表于 2012-6-25 01:56:27 | 只看该作者
Howard 发表于 2012-6-24 16:40
我就不说什么了,只有佩服。zdy32167和竹林的回帖我认真学习了,虽然看起来比较吃力,基本上还是看懂了,完 ...

关于y的部分学习了,多谢
霍老师的溢美之词让我太惭愧了
运气不好的时候等吃饭是要等很久的……
主要的困难在于没有纸笔,因此答案基本是靠猜的,中间跳过了不少步骤
您要是说我算错了,我还得老老实实回家慢慢算……
18#
 楼主| Howard 发表于 2012-6-24 16:40:57 | 只看该作者
本帖最后由 Howard 于 2012-6-25 02:48 编辑

我就不说什么了,只有佩服。zdy32167和竹林的回帖我认真学习了,虽然看起来比较吃力,基本上还是看懂了,完全正确!

尤其是竹林的11楼回帖,清晰、明确、思路顺畅。说实话跟Bill Chen书上的计算方法不同,但我认为竹林的方法更清晰,更容易理解,要胜过原书的解答方法。

而zdy兄等吃饭的时间就能计算出来,更是让我叹服不已。两位的数学造诣实在是比我高不少。

竹林兄一举解答出了x y b 三个值。其中y=b=sqrt(2)-1。而题目已经表明,甲是无法靠改变y获利的,也就是说,y是多少其实没有关系。那么为什么y还有固定的值呢?因为如果甲和乙都知道对方策略的话,甲就只能用y=sqrt(2)-1,这样他才可以说自己的策略是GTO的,乙无法靠改变x来获利。如果甲不使用sqrt(2)-1,那么他call的频率或者高,或者低。高了,乙就never bluff J,也就是x=0%;低了,乙就always bluff J,也就是x=100% 。 所以,甲要使用这个固定的y值,才能说自己是GTO
17#
notch 发表于 2012-6-23 22:50:24 | 只看该作者
zdy32167 发表于 2012-6-23 15:27
这样的证明好像跟你之前的思路不太一样
你之前好像是一步得出来的,就像是引用了什么定理
比方说f(b,x,y) ...

当时的思路是因为说要optimized strategies,也就是说无论y怎么变,都不影响结果
所以直接出了那个系数=0
并没有想得很细

看到你的回帖后想说你的说法也好像有道理
于是反过去重新证明了一下
16#
zdy32167 发表于 2012-6-23 15:27:59 | 只看该作者
notch 发表于 2012-6-23 14:23
说实话自己没仔细想过这一点的证明
只是觉得应该如此
试证明如下:

这样的证明好像跟你之前的思路不太一样
你之前好像是一步得出来的,就像是引用了什么定理
比方说f(b,x,y) = y*g(x,y) + h(x, y), 当满足xxx条件时当y=0时有极值……如果这样的话,x的系数是1还是100根本就是一样的。我自己的步骤也像你后面的帖子一样,还不如你严密,而且看上去更像一个偶然,而无法像你前一个帖子一样好像一步得出结果,所以如果你是用了什么我不知道的方法,还望不吝赐教
15#
notch 发表于 2012-6-23 14:23:56 | 只看该作者
zdy32167 发表于 2012-6-23 13:30
y(b-bx-x)+x-bx
那么就是应该使b-bx-x=0,且x-bx有最大值

说实话自己没仔细想过这一点的证明
只是觉得应该如此
试证明如下:

这是一个y的一次函数y: [0,1]
如果b-bx-x>0,那么y取0为极小值,x-bx
b>(b+1)x,所以x<b/(b+1)
代入上式,得极值为x-bx=x(1-b)<b(1-b)/(1+b),后面这个公式在b=sqr(2)-1时最大为3-2sqr(2)
那么当b-bx-x>0时,该值不可能大于3-2sqr(2)

如果b-bx-x<0,那么y取1为极小值,b-bx-x+x-bx=b-2bx
同样得x>b/(b+1),代入得
b-2bx=b(1-2x)<b(1-b)/(1+b)
也和之前的结论相同

所以只有当b-bx-x=0的时候,该式有极值b(1-b)/(1+b)

如果公式变了,意味着题目的条件也变了
按照你写的公式,意味着当你bet的时候,你有一个100的额外收入
这么一来结论当然也不一样了
14#
zdy32167 发表于 2012-6-23 13:30:12 | 只看该作者
notch 发表于 2012-6-23 12:47
我之前认为乙的ev应该是有个极值
但这个值和x,y相关,和b无关

y(b-bx-x)+x-bx
那么就是应该使b-bx-x=0,且x-bx有最大值

这一步我一直不知道是怎么得出来的,包括以前看霍老师的文章也有过这样的疑问,是不是我的知识里缺了什么内容,能不能帮我详细解释一下?
如果有另一组x1,b1,使得y的系数b1-b1x1-x1不为0,使得甲可以通过改变y来使EV有最小值,但这个最优的EV仍然大于x-bx,那通过让b-bx-x=0得出的不就不是最优策略了么?
比方说,如果EV的表达式正好是y(b-bx-x)+100x-bx怎么办?是说有什么判定的原则什么的么?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-10-28 23:18 , Processed in 0.052274 second(s), 9 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部