智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

楼主: 三脚架
打印 上一主题 下一主题

三脚架 xx圈 online 日记

[复制链接]
161#
 楼主| 三脚架 发表于 2017-12-24 03:16:53 | 只看该作者
本帖最后由 三脚架 于 2017-12-24 04:03 编辑

还是通过例子来理解什么叫均衡(这里不用GTO这个名词)

简单来说就是GTO vs 更多对手效果更好
但是你如果看见可剥削的leak而不去剥削也不好.GTO 推导:
翻前Hero co open, V call. flop, turn Hero cbet 两枪, 对手跟注.
假设board=Jh7d6dJcJs

这里Hero持有的nuts数=AdJd, KdJd, QdJd, JdTd, Jd9d (0.64), KJo=3, QJo=3 (0.43). 这个牌面估计Hero会cbet所有的Jx两枪.
共计=4+0.64+3+3*0.43=8.93 取9个. 这里持有4条是绝对的nuts, 这里我们的顶端range有起码9个.

假如Hero下注一个pot, 应该混合4.5个combo (至少) 来实现均衡. 即在river range中选取最弱的4.5个combos 在river进行pot-size 咋呼.

QdTd, Qd9d (0.43),Td9d (0.64), Kd9d, KdTd, KdQd (0.32) 共计4.5个.


Hero bet, V 100% call=(9/13.5)*(2)+(4.5/13.5)*(-1)=1
Hero bet, V 0% call=1.

这里Hero实现了均衡, 无论对手call还是fold, 我们的EV都不会降低或者提升, 都是1.
对手呢?
如果Hero在river上pot size bet的range是平衡的, 那么
V call=(9/13.5)*(-1)+(4.5/13.5)*(2)=0
V fold=0

因为是0和游戏, 在Hero使用了完美均衡的range之后, V的EV永远等于0, 对手无论call 还是fold, 对手的EV都不会降低或者提升, 都是0.

这里就看出了均衡的本质, 就是当Hero使用了均衡的range之后, 实现了对手无法通过改变决策而改变双方EV的局面.
我们不仅自己均衡了, 对手也均衡了.

如果对手偏离, 我们的EV也不会增加.

所以说什么GTO是完美策略, 双方中不使用GTO的人会吃亏是错误的. 因为一旦Hero均衡, 对手无论是否偏离, Hero的EV仍然是一成不变的.

我们花了大量的实现研究扑克, 研究GTO, 结果让对手轻松实现了中立, 这是我们要的结果吗? 不是.


162#
 楼主| 三脚架 发表于 2017-12-24 04:10:34 | 只看该作者
本帖最后由 三脚架 于 2017-12-24 04:38 编辑

GTO给了我们一个标准, 然后让我们最大化剥削对手.

这里Hero bet, EV=1 不是最高的EV.
假设对手100% call,
最大化剥削策略是永远bet Jx, 放弃咋呼.
那么bet的EV=2. 相对EV=(9/13.5)*(2)+(4.5/13.5)*(0)=1.3333333333333333
对手100% call的EV=-1, 相对EV=(9/13.5)*(-1)+(4.5/13.5)*(1)=-0.3333333333333333

根据经验我们也知道, vs 紧手的river pot size bet, 我们应该defend少一些, 因为他的在river pot size bet的频率不是完美的, 咋呼较少, 我们弃牌更优.
因为对手是不完美的, 相对于让对手获得1.33pot的EV, 我们损失0.33pot的EV, 显然所以我们通过弃牌最大化剥削对手, 对手的EV永远等于1, 我们的EV等于0.

即让对手少赢, 我们少输, 长期来看我们仍然优于对手.

live 很多不一样, 有很多变量, 有的玩家喜欢soul read, 就是“我知道他什么也有没有“ 而call. 这种依赖牌感而作为指导标准其实非常不靠谱的.

那么我们说的GTO有什么作用呢?
假如我们知道对手的策略, 而我们的river的range只有9个nuts和4.5个air.
1.对手100% call. 我们应该100% bet nuts x-f air. EV=1.333
2.对手100% fold, 我们EV=1, 为了最大化剥削对手, 我们在turn上应该bet更多的air, 这样在river可以咋呼更多.
3.对手告诉我们他call与不call的频率是通过抛硬币决定的, 那么我们则只能通过bluff value 1:2的频率实现EV=1.
163#
 楼主| 三脚架 发表于 2017-12-24 04:46:53 | 只看该作者
如上, 实际上我们是需要通过了解GTO, 然后看对手是否偏离, 哪里偏离, 偏离了多少然后进行剥削才实现最大化剥削对手.
如果对手执着的call 100%, 我们为何要牺牲0.33 pot的EV去咋呼呢? 直接100% value就可以获得最大的EV了.
164#
 楼主| 三脚架 发表于 2017-12-25 04:10:24 | 只看该作者
本帖最后由 三脚架 于 2017-12-25 04:58 编辑

这个月打的比较少 以来月初打的不好 二来休息居多 牌局较少 三来就是在思考打牌怎么盈利.
其实还是打的不好游戏打的错误.

先来看看游戏的本质.

首先是这个游戏存在variance. 这个游戏之所以有娱乐玩家存在, 就是波动的存在.
短期内, 一个打的极差的人可能会得到一个极好盈利成绩, 就是波动的存在. 但是如果想长期cash盈利, 只靠运气肯定不行. 足够的样本下, 波动这个因素可以完全排除掉. 但是短期内德州是gamble game的性质是洗不白的.

波动会影响玩家情绪, 人非神, 难免受情绪影响. 好的牌手控制好一点, C-game 少一点, 差的牌手控制差一点.

简单来说盈利玩家打牌最基本的, 需要资金管理和情绪管理, 这个是打牌最最基础的东西.
然后是EV.
期望值. 简单来说为什么不打21点轮盘百家乐, 就是其游戏本质决定了这几个游戏是负EV的. 长期条件下, 波动被平衡之后, 庄家必胜, 玩家必输.

德州是一样的. 假如打免水局.
技术更好的玩家的EV一定为正(这里技术指宏观技术), 技术更差的玩家EV一定负.

如果以盈利为目的, 我们打牌首先避免的情况就是我们是桌上是最弱玩家.
比如单挑桌, 如果没有自信战胜对手, 我们不应该与之对战.
如果是多人桌, 则不应该尝试盲目升级或者打比较艰难的牌局.

以盈利为目的, 我们希望桌上的鱼越多越好. 其下限为更弱玩家的数量>更强玩家的数量.
当然技术无法如此的量化.

最理想情况就是8条鱼. 你技术领先全桌, 在能接受的波动范围内应该cover全桌虐之. 这样的情况少之又少.
比较艰难的局是桌上1条鱼, 剩下7个技术和你差不多, 这样的局其实EV已经不高了(仍然+EV).
如果是8 good reg局, 则完全不需要打, 打也不是play for money. 以为免水的情况这样的局的EV=0.
刚升级的时候, 打牌往往都是-EV的. 因为你上桌, 桌上一定有几个该级别稳定盈利的good reg, 这样的条件下很难桌子上又3条鱼, 同时剩下的3个玩家又是和你水平差不多的. 基本上是3个good reg (强于你), 2条鱼 (弱于你), 3个和你差不多的牌手. 这里我们打牌几乎是play for info, play for 学习, 我们负的那些EV就当交学费了.



165#
 楼主| 三脚架 发表于 2017-12-25 18:08:19 | 只看该作者
帖子现在已经严重歪楼, 自己不知道把这些思考放在online日记还是live日记.
而且思考也是一段一段的, 想到那里是那里. 等有时间编辑。  
现在主打圈, live已经很少打了. EV不高. 级别底, 对手弱但是非常弱, 2017年我已经很少见到纯送鱼了, 喝醉的轮盘老板也少了.
166#
 楼主| 三脚架 发表于 2017-12-25 18:28:39 | 只看该作者
本帖最后由 三脚架 于 2017-12-25 18:34 编辑

回到GTO.
在现实游戏中, 绝对的GTO是不可能存在的.
人类是没有AI那种计算量的.
比如Jh6s7d, turn发出的牌, AI可以简化结果运用GTO策略. 但是人类做不到那种复杂量.
人类只能通过经验积累. 比如打上1M手牌. 这个量其实要求很高. 我PS是断断续续打的, 至今仍然没有达到这个量. 很多Pro跟我说1M应该是基本标准, 所以有时回去打打PS还是有必要的. 但是现在确实是全民刷钱年代, 实在没时间.

那么就说GTO不存在.
那么大部分人打的就是非GTO, 或者趋向GTO的伪GTO.

GTO不被剥削, 反过来理解就是所有非GTO都可以剥削. 简单的例子就是今年的人机大战.
如果人类掌握GTO, 应该不会输给AI, 但是结果却输的那么惨. I从根本上来说:
1. AI计算量比人类更好, AI的伪GTO更接近真GTO, 而人类的伪GTO离真GTO更加遥远. 所以人类不仅没有做到完美防御, 反而被AI剥削.
2. AI调整速度更快.
比赛初期双方执行伪GTO, 来达到近似的完美防御. 但是因为人类计算能力有限, 人类被剥削.
然后人类开始调整,  进攻AI漏洞. AI再次寻找nash均衡, 达到近似完美防御. 当人类出现偏离GTO较打的时候, AI 开始剥削人类的漏洞. 人类被剥削.
3. 为了防御AI的剥削, 人类回到自己的伪GTO, AI也调整会到自己的伪GTO, 双方又达到近似完美防御, 但是人类还是因为计算量有限的问题而被剥削.

排除AI没有情感的优势外(没有好胜, 恐惧, 自负, 谦卑等心理因素的影响), AI在数学上就crush人类了. AI是没学过人类牌谱的, 他根本就自学成材.
以上是脑补. 还有可能就是人类执行的是伪GTO, AI完美执行了完美GTO, 那么就是完美GTO crush任何非完美GTO策略, 也论证了GTO EV=0, GTO不能盈利只是防御策略等错误理解 (GTO EV=0, GTO 不能盈利的条件是博弈双方都执行了完美GTO, 那么德州里就是有位置的一方有优势, 如果位置不断轮转那么双方EV确实就是0, 因为双方都均衡了).   
167#
 楼主| 三脚架 发表于 2017-12-25 18:38:51 | 只看该作者
本帖最后由 三脚架 于 2017-12-25 21:26 编辑

既然完美GTO实现不了, 大家都在打伪GTO, 都在打剥削策略. (也不要用EO这样的词来描述剥削策略).

剥削策略条件:
1. 需要样本观察对手漏洞.
2. 因为我们偏离GTO, 对手也可以剥削我们, 或者其他对手剥削我们.
3. 波动. 即你有十分有可能打错.
我最近打的一手线下, 对视是紧弱直白型.
1/1-2 无anti.
limp pot 3 way. flop=Q67r. Hero bb 持45s 带后门花 leading 5bb to 7bb, V call HU.
Turn=2r, Hero x, V bet 10BB, Hero x-r 35BB, V call.
River=2r, Hero x, V x. V=KQo (pre ep open limp in)

这个面上对手EP limp in+call flop leading, 然后float turn的range=77. 66. (此人不会limp AAKK). AK*50%=6. K9s+.KJo, 76s=44
我们pot=7+5+5+10. Hero x-r 35需要的弃牌率=35/(7+5+5+10+35)=0.56 对手需要防御0.44=19.36 取19=6677 AK (0.5)+, 76s, KQs, KQo (0.33)
实际上对手防御了KQo+=24个combo, 我们x-r EV 比较负甚至可能出现对手用66 77 all in 而导致我们无法看到river的情况.
以上都是GTO告诉我们的, 这里如果对手100% defend any KQo, 则我们不应该咋呼.

而我原本的愿望是希望对手fold 除AK以外的any Kx, 仅最大化剥削对手.

x-f EV=0
x-r, V call 100%, EV=(37/45)*(-35)+(8/45)*(7+5+5+35)=-19.53, 我们需要river至少打出20BB的额外价值实现正EV (且这里设定对手set不all in只是call)
x-r, V defend 76s+ AKo)=(14/44)*(-19.53)+(30/44)*(7+5+5+10)=12.195 EV很足.
x-r, V defend KQo+=(26/44)*(-19.53)+(18/44)*(7+5+5+10)=-0.495

如果Hero x-call, EV=(37/45)*(-10)+(8/45)*(7+5+5+10)=-3.422

这里因为隐含问题所以EV比较复杂, 咋看x-r EV 弱于x-r, 但是x-c 之后如果击中对手还是很大概率支付20BB的. 所以相对来说x-call 确实不错, x-r 需要对手fold 很多的KQo.
我当时觉得x-r 对手还是会fold很多甚至全部KQo的, 然而事实上对手也算over defend. 这里就是剥削策略的弊端:

1. 你需要样本知道对手会不会defend KQo. 他是defend 100%还是只defend一部分? (GTO的话对手defend 33% KQo, 这里即使对手亮牌, 我们还是不知道对手KQo会以一个什么频率防御.
2.对手没想那么深来剥削我们, 他们只是在玩自己的牌.
3. 波动。剥削策略就是猜错即犯错的策略. 猜对强无敌, 猜错蠢如狗. 猜错还会带来情绪上的影响比如我好鱼我好蠢等沮丧心理.
这手牌的对手是红鼻子紧弱老头, 是个常客弱鱼, 我当时是有信心踢走他的Kx, 但是还是猜错.

vs一个有信息的对手尚且如此, vs一个unknow, 还是GTO或者伪GTO策略更优秀. 想防御不被剥削在剥削别人. online的数据, 线下的读人(年龄衣着谈吐举止)都只能提供一个大概信息, 以这个信息做判断, 尤其翻后决策其实非常不靠谱.

168#
 楼主| 三脚架 发表于 2018-1-11 06:04:11 | 只看该作者
更新下.
12月没有盈利. 惨的很. 我这个ID其实混各个论坛很久了, 然而打了这么长时间还是比较鱼. 一个是因为这几年真正钻研扑克的时候其实不多. 现在live转线上, 又把很多问题重新带会到线上, 打的诸多问题.

对于德州, 我其实一直抱着是作为一名grinder而不是pro的心态在玩. 因为我觉得低级别live的盈利几乎只能让你满足温饱, 没什么太大意义. 10月份接触圈之后发现真的是黄金期, 不多打牌确实浪费机会. 然后12月打牌中我又发现了自己的诸多问题, 开始报班请教练, 学习希望提高. 虽然12月0收入, 但是感觉比以前的思路更加更好一点吧.

说真的我有时不更新是觉得这么傻逼的问题需要问么, 但是我觉得不提出自己存疑的问题, 这么做的EV负的更厉害. 即使没人讨论, 自己给自己看也是好的, 毕竟我的帖子也主要是以日记为目的.
169#
 楼主| 三脚架 发表于 2018-1-11 06:06:29 | 只看该作者
17年整体收入200K rmb, 圈占了1/2, 我投资的小孩打live约有10K rmb的额外收入, 基本用来请教练了, 不请教练确实不行了. 目前感觉价格很公道. 学习的主要内容还是GTO, 说白了就是学基础.
170#
 楼主| 三脚架 发表于 2018-1-11 06:10:25 | 只看该作者
本帖最后由 三脚架 于 2018-1-11 07:34 编辑

从简单的就是翻前的range. 我在ps 微额级别打的是紧凶风格, 起手很原始和标准, 且初期根本无两极化range, 3bet 出去的全是强牌, 慢慢到了NL10才两极化.

后来打了live, 越打越深, 起手越来越两极化, 平均强度越来越弱, 1个原因就是对手实现equity的能力没有我高, 其次就是深度的问题. 这点是德州的基础. 在回到510的时候我一开始是特别不习惯的, 到了1020几乎被打傻了.

为此特地回snowie重新学习. 一个好的翻前range是新手必备, 但是我自己在偏离的路上越走越远.

我打的两个级别, 510 1, 1020 5, 其实结构差距很大.
按照100BB 游戏, 位置从BB SB BTN CO HJ LJ +2 +1 UTG 9人桌排序.
snowie 建议的是开36.3%, upswing 建议开45.4%. ps因为有数据, 可以根据对手调整, 但是多数是按45.4%这个频率来的, 原因之一就是2.5bb steal.
成功率=2.5/(2.5+1.5)=0.625, 需要平均弃牌率=0.790. 如果两个对手ft steal在85以上, 几乎steal any.
SB赔率=(2.5-0.5)/(2.5+2.5+1)=0.33
BB赔率=(2.5-1)/(2.5+2.5+0.5)=0.27
BB赔率 if SB call=(2.5-1)/(2.5+2.5+2.5)=0.2

对比:
510=32/(32+9+5+10)=0.57,
SB 赔率=(32-5)/(32+32+9+10)=0.325,
BB 赔率=(32-10)/(32+32+9+5)=0.282, (call any, 27o 满足赔率if check down)
BB 赔率if SB call=(32-10)/(32+32+32+9)=0.210 (74o 63o 满足赔率if check down)

1020=80/(80+10+20+45)=0.516,
SB 赔率=(80-10)/(80+80+20+45)=0.311.
BB 赔率=(80-20)/(80+80+45)=0.293
BB 赔率if SB call=(80-20)/(80+80+80+45)=0.210 (74o 63o 满足赔率if check down)

对手赔率近似, 我们赔率更便宜, 实际上我们应该偷更多. 假如对手fold更多, 我们EV更多. 唯一不同是翻后SPR不同了.
这里讨论的是
online
SPR 1人call=(100-2.5)/(2.5+2.5+0.75)=16.97
SPR 2人call=(100-2.5)/(2.5+2.5+2.5)=13


1020.
SPR 1人call=(2000-80)/(80+80+45+15)=8.72,
SPR 2人call=(2000-80)/(80+80+80+45)=6.74.

这种SPR极大削弱了位置的优势.
(100-x)/(2x)=8.72, x=5.4bb
(100-x)/(2x)=6.74. x=6.9bb

也就是我们要避免对手用过紧的range vs我们一个过弱的range+我们无法发挥位置优势.
所以snowie给的range 频率其实挺好的. 剩下就是具体combo 选择了.
首先就100% open的range=A2s+, 44+, 任何两张9以上非同花和任何7以上的同花牌. 共计444 combos, 33.5%. (这是我们steal的下限, 如果对手抵抗较凶我们减少至这些range)
剩下的增加K3s+, Q5s+, 65s, 76s, 87s (额外42 combos, 共计480 combo 36.2% 这是常规steal 范围)
剩下的75s, 54s, 64s, 22, A2o, A3o (额外 42 combos 共计522 combos, 39.4%如果对手防御较少我们增添这些range)

在圈里是没有nit的, 所以在偷的多没什么意义.

主要snowie的range非常mix, 人类几乎打不到那种均衡, 且记忆花色确实麻烦, 不如简便. 这个range其实是常用的range (自用range更松一点), 以后需要注意控制.

您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-12-26 09:24 , Processed in 0.061136 second(s), 6 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部