智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

楼主: 三脚架
打印 上一主题 下一主题

三脚架 xx圈 online 日记

[复制链接]
151#
 楼主| 三脚架 发表于 2017-11-30 04:32:04 | 只看该作者
本帖最后由 三脚架 于 2017-11-30 05:14 编辑

Game Theory Optimal (GTO) vs Exploitative play.
出于材料可信度, 我先看的Doug的upswing:
Game Theory Optimal (GTO)=我们实现了让对手无法剥削我们的策略, 无论对手怎么打.
optimal unexploitable equilibrium strategy
GTO 要么我们不输, 要么我们赢. 对手: 要么不赢, 要么输给我们.
但是GTO不会是最好的剥削性策略.

比如在river, Hero 采用了一个GTO的value:bluff的比例,
对手call or fold 变成indiffernet, 对手call or fold 的EV是一样的. (因为fold EV=0, 我们的value:bluff 让对手的call=fold=EV 0).

也就是GTO吊的地方是无论对手怎么打, 我们都不被剥削!

比如river bet pot, A持两极化range, nuts端和air端. B持bluff catch端,输nuts赢air.

A Minimum Fold Equity to Bluff=1/(1+1)=50%. bet pot for bluff, A所需的弃牌率=至少50%.
B Minimum Equity to Call=1/(1+2)=33%. B 抓bluff, A至少3次里有1次咋呼. 3次里赢1次EV=0.

C Optimal Bluffing Frequency=B=33%
D Optimal Value Betting Frequency=1-C.

这里我们下注的bluff比率=对手抓炸的胜率, 这里我们实现了对手call or fold EV=0.
-------------------------------------------------------------------------

实证:
Board=J76JJ. Hero 持AAKKAK55, V 持TT.
Hero bet AAKK55=6*3=18, bluff=6/18=1/3.

V call EV=(1/3)*2+(2/3)*(-1)=0
V fold EV=0.  

Hero river bet pot with balanced range EV=(1/3)*(-1)+(2/3)*(2)=1
Hero bet V fold EV=1

牛逼了, 这里Hero运用自己的value:bluff 实现了无论对手call/fold, Hero都实现了+1 pot的EV.



152#
 楼主| 三脚架 发表于 2017-11-30 05:25:08 | 只看该作者
本帖最后由 三脚架 于 2017-11-30 05:39 编辑

据此, GTO river bluff value:air 比可总结为:

1/3 pot=(1/3)/(1+2/3)=0.2=1/5 一个bluff带4个value
1/2 pot=(1/2)/(1+1)=0.25=1/4 一个bluff带3个value
2/3 pot=(2/3)/(1+4/3)=0.2857=1/3.5 一个bluff带2.5个value
3/4 pot=(3/4)/(1+6/4)=3/10, 3个bluff 带7个value, 1个bluff 带2.33个value

运用以上频率, 对手call了我们的value, 我们不高兴, 抓了我们的炸, 我们气恼, 对手fold, 我们没感觉. 因为我们的EV在我们bet之后就已经定了下来: EV=1 pot. 对手call, fold 和我们一点关系都没有.

但是这里条件是:
我们是极化range, 对手是capper range, 对手的range不能击败我们的nuts端.
比如J76JJ, 如果对手range里存有慢玩的Jx, 我们的我nuts端也会输给对手.
所以这里的GTO, 应该是
Hero的两级化range vs 对手bluff catcher的, 不被剥削策略. 既不考虑对手有Jx, 或者air的情形.
我用我们的两极化range, 主要针对对手TT, 99, 88, 7x 这部分range, 而对手Jx, 6x, 我们则不考虑进去.
所以说GTO应该是现在还没有真正实现的一种策略, AI应该可以进化的更牛逼. 但是人类玩家玩的GTO只是以GTO为基础的伪GTO, 仍然会被对手剥削. 比如这里对手TT 99 全fold了, 直接用Jx抵抗.


153#
 楼主| 三脚架 发表于 2017-11-30 05:41:54 | 只看该作者
本帖最后由 三脚架 于 2017-11-30 05:51 编辑

Game Theory Optimal (GTO)=我们实现了让对手无法剥削我们的策略, 无论对手怎么打.

剥削策略看起来更牛逼, 就是彻底的剥削对手.
简单来说就是猜猜乐.
根据我们的经验, 这里对手会弃牌, 我们bluff.
根据我们的经验, 这里对手不会弃牌, 我们停止bluff.

万一, 猜错了呢?

原本在live日志里更新, 现在决定一起讲了.
就是剥削策略, 一个是要靠猜(当然我们因为猜的准才会打剥削策略), 第二个就是对手势必会调整.

比如对手river cbet Hero bluff raise, 往常对手都尊重fold. 我们觉得这里river bluff raise是个有效的剥削策略,  比如J76JJ, 对手bet fold TT-.
但是这里对手调整之后, 可能开始抵抗TT, 甚至抵抗9988, 我们的策略被对手反击了.

一旦猜错就牺牲大量的筹码. 我们剥削策略一般来自我们的猜想.

换一个情况, 都说不要river bluff calling station.
如果我们猜对了, 我们river只用value hand, 我们获利更好(因为没有bluff了)
如果们猜错了, 我们牺牲掉很多bluff的机会

https://www.upswingpoker.com/gto ... y-optimal-strategy/
http://www.runitonce.com/chatter/gto-simplified/
154#
 楼主| 三脚架 发表于 2017-11-30 05:56:26 | 只看该作者
本帖最后由 三脚架 于 2017-11-30 06:44 编辑

简单来说就是GTO vs 更多对手效果更好
但是你如果看见可剥削的leak而不去剥削也不好.GTO 推导: 假设J76JJ A=AAKK, AK, 55=34 combos B=TT 99 88=18 combos, pot=1, A B 各剩1.

0=B check.A EV=1*(12/34)=0.352, B EV=(22/34)*1=0.6471
这是AB最基本的EV.

1. B check, A all in 100%, B 最大化剥削对手=call 100%,  
A bet EV=(12/34)*(1+1)+(22/34)*(-1)=0.0588
B call EV=(12/34)*(-1)+(22/34)*(2)=0.941
此策略A被B严重剥削. 此策略A jam 100%<A check 100%.


2. A 调整, A jam 100% KK+.
A jam EV=(1+1)=2 B call EV=-1
A EV total=(12/34)*2=0.71, B EV total=(12/34)*(-1)+(22/34)*(+1)=0.2941176470588235
此策略B被A严重剥削. 此策略B x-fold 100%>call 100%

3. B调整, B fold 100%
A EV=1, B all fold=0.
A EV total=0.352, B EV total=0.6471, AB EV 回归check-check 回归最初的equity.

4. A 调整all in AK+, KK+, B 调整 call 100%.
A EV=(12/28)*(1+1)+(16/28)*(-1)=0.28571, B call EV=(12/28)*(-1)+(16/28)*(2)=0.7143
A EV total=(12/34)*(1+1)+(16/34)*(-1)=0.235, B EV total=(12/34)*(-1)+(16/34)*(2)+(6/34)*(1)=0.76471
仍然被剥削

5. A all in AAKK55,
A EV=(12/18)*(1+1)+(6/18)*(-1)=1, B EV=0.
A EV taltal=(12/34)*(1+1)+(6/34)*(-1)+0=0.5294117647058824
B EV toatal=(12/34)*(-1)+(6/34)*(1+1)+(16/34)*1=0.4705882352941176



155#
 楼主| 三脚架 发表于 2017-12-1 04:24:49 | 只看该作者
本帖最后由 三脚架 于 2017-12-1 06:16 编辑

所以GTO其实是不断在剥削对手, (Hero 不断调整value:bluff的比率)
最终结果是达成GTO一方保证了自己不被剥削 (river pot 2:1 value:bluff 对手call or fold EV=0)
双方GTO 保证了双方均衡.

不知道这么理解对不对.
所以实质上GTO不是一个防御策略. 是一个扎实稳定的盈利策略.

以前, 打牌最好的策略就是soul reader. 换成live风格就是 old school. money maker 成名之后, online崛起, 手数增多, 之后在扑克中的数学这本书以前, 德州进入数学时代.

soul reader. 厉害的人还是挺多的, 第一人实属ivey吧, cash里毒王也算巅峰了. 但是soul reader 策略经常容易发生的问题就是:
1.读错
2.你和对手打入深层次level, 你需要猜猜乐.

按照数学方式有一个量化的标准.
比如VS 一个强力对手, river pot, MDF=1/2.

http://www.zhiyoucheng.co/forum. ... 37435&highlight=gto

这里防御50%策略最优.

这里50%策略最优的前提:
对手=V, 我们=Hero, V range 极化=AAKKAK55, Hero=QQTT9988
board=J67JJ.


V视角:
1. V认为自己本身是个优秀玩家.
2. V认为Hero是个优秀玩家.
3. V知道Hero也会肯定V自己是一个优秀玩家 (简单来说V和Hero彼此认定都是优秀玩家, 彼此尊重).

结果:
V知道Hero打的优秀, 因此, 对手采用GTO, 最大化剥削Hero (让Hero无论call or fold EV=0), 其结果等于无论Hero call or fold, V EV+1 pot.
此景情境下, Hero无法通过调整自己的策略(这里指call的频率) 剥削V的EV. 即V的策略在river是无法被剥削的, 无论Hero call 100% 还是fold 100%.


Hero 视角:
1. Hero认为自己本身是个优秀玩家.
2. Hero认为V是个优秀玩家.
3. Hero知道V也会肯定Hero是一个优秀玩家 (简单来说V和Hero彼此认定都是优秀玩家, 彼此尊重).


结果:
Hero知道V打的优秀, 因此采用GTO, 采用call 50% fold 50%的策略让自己EV=0. 但是因此自己的防守频率, 让对手无论bluff 更多还是更少, V的EV都不会>1 pot.
此景情境下, V无法通过调整自己的策略 (bluff 频率) 提升V的EV. 他bluff 更多会牺牲EV,  bluff更少会牺牲EV.



156#
 楼主| 三脚架 发表于 2017-12-1 06:17:22 | 只看该作者
本帖最后由 三脚架 于 2017-12-1 07:17 编辑

在156楼的例子里, 这里最终平衡的前提, 要求V完美的制定, 执行了了自己的value:bluff的比率.
比如V的策略是AAKK 12个带4个AKs, 2个55, value:bluff=12:6=2:1.
假设1. V 12个KK+选择river x-r 两个, 但是仍然咋呼6个 AK, 55, value: bluff=10:6.
假设2. river 怂了, 55 全部check, 只选4个AKs咋呼, value:bluff=12:4

Hero call 50%

原本EV=
V EV=(1/2)*(2)*(2/3)+(1/2)*(-1)*(1/3)=0.5
Hero EV=(1/2)*(-1)*(2/3)+(1/2)*(2)*(1/3)=0

假设1.
V EV=(1/2)*(2)*(10/16)+(1/2)*(-1)*(6/16)=0.4375
Hero EV=(1/2)*(-1)*(10/16)+(1/2)*(2)*(6/16)=0.0625


假设2.
V EV=(1/2)*(2)*(12/16)+(1/2)*(-1)*(4/16)=0.625
Hero EV=(1/2)*(-1)*(12/16)+(1/2)*(2)*(4/16)=-0.125


从Hero角度, V需要完美制定且执行一个自己value和bluff combo. 1020没见过, live也没见过. 因为对手并不处在GTO最终的均衡上, 我们应该采用GTO, 但同样不是最终的均衡上来剥削对手. 需要根据已知信息得出对手value:bluff比制定出一个最大化剥削对手的calling频率就好.
现实中如此凶狠的选手很少的.
https://www.youtube.com/watch?v=mqYgqdN5-HU

live at the bike.
25 50 100 200+100 bb ante.
Garrett (52600) +2  800 open, Ryan Fee (58650) co 2600 3bet, Garrett call.
Flop=Ts9s2c, pot=5575,
这里翻前 Ryan Fee 给了个马脚, 我的解读是非常自信, 我觉得这里Ryan的3bet range=AQs+, JJ+. 有少量的TT, KQs.
Garrett 反给了个马脚, 这个马脚我的解读是老子要看看flop先, 这里range比较capper, JJ-, KQs-, 几乎无存在AQo, QQ+.

Ryan Fee c-bet 3300, Garrett check call.

Turn=3c, pot 12175.
Ryan Fee c-bet 16000, Garrett check call.

River=7h, board=Ts9s2d, 3c, 7h. pot=44175
Ryan Fee all in 39350, Garrett check call 34500.

Garrett=8h8s,
Ryan Fee=KdKc.

157#
 楼主| 三脚架 发表于 2017-12-19 14:36:40 | 只看该作者
自己对GTO理解不深, 水平也有限, 很想开的帖子邀请大家讨论
现在自己日记里更新, 有一定基础了再开帖子.
158#
 楼主| 三脚架 发表于 2017-12-19 14:37:21 | 只看该作者
本帖最后由 三脚架 于 2017-12-19 15:20 编辑

发一个城里和GTO的帖子的总集. 方便自己和和城友学习. 如果违反规定请管理员删除. 如果有遗漏请大家补充.
因为圈的出现, 现在理论讨论越来越少, 进入全民打钱时代, 免费的东西越来越少. 而且GTO本身就不是入门概念, 应该算进阶概念.


RichZhu 朱校长

GTO(所谓的“博弈论最优”)通俗版
http://www.zhiyoucheng.co/forum. ... 23321&fromuid=30887
(出处: 智游城)

--------------------------------------

yyy6 y总

从石头剪刀布说起 -- GTO的概念和应用(1)
http://www.zhiyoucheng.co/forum. ... 46199&fromuid=30887
(出处: 智游城)
完全极化范围的下注和跟注 -- GTO的概念和应用(2)
http://www.zhiyoucheng.co/forum. ... 46200&fromuid=30887
(出处: 智游城)
几乎极化范围的下注和攻防-- GTO的概念和应用(3)
http://www.zhiyoucheng.co/forum. ... 46201&fromuid=30887
(出处: 智游城)

河牌下注/跟注的GTO策略 (2015年)
http://www.zhiyoucheng.co/forum. ... 16130&fromuid=30887
(出处: 智游城)

--------------------------------------

老陈

GTO应用之1: Bluff
http://www.zhiyoucheng.co/forum. ... 37435&fromuid=30887
(出处: 智游城)


GTO应用之2:全进bluff
http://www.zhiyoucheng.co/forum. ... 46112&fromuid=30887
(出处: 智游城)

--------------------------------------
霍师父

GTO长什么样(一):硬币游戏
http://www.zhiyoucheng.co/forum. ... 41288&fromuid=30887
(出处: 智游城)

--------------------------------------
mnsgdhr 南什

戏说GTO
http://www.zhiyoucheng.co/forum. ... 46307&fromuid=30887
(出处: 智游城)

--------------------------------------

benny_xmy

"平衡”真的存在嘛?有没有牌例能说明什么是“平衡”?
http://www.zhiyoucheng.co/forum. ... 45713&fromuid=30887
(出处: 智游城)


关于"range"分析的发展方向和其“顶端”与“底端”的问题
http://www.zhiyoucheng.co/forum. ... 45778&fromuid=30887
(出处: 智游城)


"平衡""偏离""GTO""剥削"到底是啥?
http://www.zhiyoucheng.co/forum. ... 45832&fromuid=30887
(出处: 智游城)


我理解的“最大化剥削在Multi-Option的含义”
http://www.zhiyoucheng.co/forum. ... 46742&fromuid=30887
(出处: 智游城)


--------------------------------------
leisong 雷哥

讨论回答各种gto的问题  (2015年)
http://www.zhiyoucheng.co/forum. ... 3&fromuid=30887
(出处: 智游城)

三个无价的德州公式 (2015年)
http://www.zhiyoucheng.co/forum. ... 19565&fromuid=30887
(出处: 智游城)

159#
 楼主| 三脚架 发表于 2017-12-19 15:42:56 | 只看该作者
本帖最后由 三脚架 于 2017-12-19 16:28 编辑

先说GTO策略的价值.

假设: 两个AI打, 打1亿手单挑, 结果是什么?
无抽水两个AI无盈利, 有抽水同为负盈利.

这1亿手里最后10W手, 两个AI都应该形成了完美的策略, 最优化的策略, 他们的条街的决策都是理论上最好最优的策略. 这时候德州扑克就算解决了, 我们把这个完美的, 最优化的策略称为GTO.

当双方处于这个状态的时候, 双方出于均衡状态. 假设, AI (A) 试图用更加优化的策略去剥削 AI (B) 以获得更好的赢利, 其结果只能降低AI (A)的赢利. 即只要AI (B) 使用这种完美策略, AI (A) 无论做任何调整都无法提高自己EV, 只能降低自己的EV. 只要AI (A) 不使用GTO, 则一定是负盈利.

简单来说, 偏离了GTO的一方会提高使用GTO一方的EV和盈利. GTO就是德州扑克的终极解. 只要获得了GTO, 便可以立于不败之地 (对手使用GTO, 也只能你打个平手, 对手偏离GTO, 对手为你贡献EV). 如此强大的武器是任何一个扑克玩家梦寐以求的.
牌局打到1亿手, 德州可以理解为一个信息对称游戏了. 虽然不知道具体对手的手牌, 但是知道对手的range. 得知对手的range, 那么任何决策可以根据数学解决.
比如board=J76, turn=J, river=J. pot=100.
AI (A) all in 100, 经过无数对局, AI (B) 得知 AI (A)的all in range=AAKK55. 且AI (A) 知道 AI (B)的range=QQTT9988
此时AI (B)的range=QQTT9988, 它的GTO就是call 50%. 为了简化, AI (B) 选择抛硬币去决定是否call (假定硬币为人头, call, 银币不为人头, fold).

AI (A) EV=100*50%+100*50%=100.
1. EV (B call)=(12/18)*(100+100)+(6/18)*(-100)=100.
2. EV (B fold)=100.

AI (B) EV=0*50%+0*50%=0.
1. EV (B call)=(12/18)*(-100)+(6/18)*(200)=0
2. EV (B fold)=0.
这里双方执行了GTO, AI (B)的EV永远处于0以下, AI (A)的EV 永远处于100以下. 双方中的任何一方偏离GTO, 只会降低自己的EV.
这里GTO能实现的原因有几个:

条件1. 两个AI清楚的知道对手的range. 这里信息对称了.
这点很重要, 一旦清楚对手的range (有什么combo, 每个combo有多少个), 即使不用知道对手具体手牌, 在一定样本数的支持下, 双方实现了GTO.

条件2.两个AI需要一定样本数去平衡波动.
这点同样重要. 比如两个AI只打1手.
AI A 持AA, river all in 100. AI BB 手持99, 抛完硬币为人头, call.
结果是AI (A) EV=+200, AI (B) EV-100.
从结果来看, 少数样本无法平衡波动, 即使你使用了GTO, 那么你仍然会得到一个负EV的结果.





160#
 楼主| 三脚架 发表于 2017-12-19 16:29:20 | 只看该作者
本帖最后由 三脚架 于 2017-12-19 17:42 编辑

要实现GTO的两个条件是十分苛刻的.先说条件2 相对较为容易实现.
我以live为例. 9人桌, 小扑克室, 平均每日3桌. 两个常客, 每个月同session时间为100 hours.
假设需要满足平衡波动下限为50K手(包括弃牌, 实际上远远比这个多), 需要的时间=
50000/(12*100*25*0.33)=5年.
由此看来vs常客如此, vs 娱乐玩家几乎更难.
50000/(12*20*25*0.33)=25年.

live 则相对比较容易. 尤其多桌reg vs 多桌reg.

条件1 则更加苛刻.
我们设定一个较为宽松的条件, 即使我们利用HUD捕捉了对手5000手的数据. 我们能准确的说我们完美捕捉到对手的range了么?
对待AI可能可以. 但是对待人, 你不知道他的动态调整.

动态调整是 live game 非常重要的概念, 对手水上水下算一个, 是否被card dead, 是否被bb 也算. 但是对手的打牌前的情绪? 这些变量很容易导致对手range里有一两个奇葩combo.

等下更


您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-13 19:31 , Processed in 0.048812 second(s), 6 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部