|
本帖最后由 三脚架 于 2017-12-19 16:28 编辑
先说GTO策略的价值.
假设: 两个AI打, 打1亿手单挑, 结果是什么?
无抽水两个AI无盈利, 有抽水同为负盈利.
这1亿手里最后10W手, 两个AI都应该形成了完美的策略, 最优化的策略, 他们的条街的决策都是理论上最好最优的策略. 这时候德州扑克就算解决了, 我们把这个完美的, 最优化的策略称为GTO.
当双方处于这个状态的时候, 双方出于均衡状态. 假设, AI (A) 试图用更加优化的策略去剥削 AI (B) 以获得更好的赢利, 其结果只能降低AI (A)的赢利. 即只要AI (B) 使用这种完美策略, AI (A) 无论做任何调整都无法提高自己EV, 只能降低自己的EV. 只要AI (A) 不使用GTO, 则一定是负盈利.
简单来说, 偏离了GTO的一方会提高使用GTO一方的EV和盈利. GTO就是德州扑克的终极解. 只要获得了GTO, 便可以立于不败之地 (对手使用GTO, 也只能你打个平手, 对手偏离GTO, 对手为你贡献EV). 如此强大的武器是任何一个扑克玩家梦寐以求的.
牌局打到1亿手, 德州可以理解为一个信息对称游戏了. 虽然不知道具体对手的手牌, 但是知道对手的range. 得知对手的range, 那么任何决策可以根据数学解决.
比如board=J76, turn=J, river=J. pot=100.
AI (A) all in 100, 经过无数对局, AI (B) 得知 AI (A)的all in range=AAKK55. 且AI (A) 知道 AI (B)的range=QQTT9988
此时AI (B)的range=QQTT9988, 它的GTO就是call 50%. 为了简化, AI (B) 选择抛硬币去决定是否call (假定硬币为人头, call, 银币不为人头, fold).
AI (A) EV=100*50%+100*50%=100.
1. EV (B call)=(12/18)*(100+100)+(6/18)*(-100)=100.
2. EV (B fold)=100.
AI (B) EV=0*50%+0*50%=0.
1. EV (B call)=(12/18)*(-100)+(6/18)*(200)=0
2. EV (B fold)=0.
这里双方执行了GTO, AI (B)的EV永远处于0以下, AI (A)的EV 永远处于100以下. 双方中的任何一方偏离GTO, 只会降低自己的EV.
这里GTO能实现的原因有几个:
条件1. 两个AI清楚的知道对手的range. 这里信息对称了.
这点很重要, 一旦清楚对手的range (有什么combo, 每个combo有多少个), 即使不用知道对手具体手牌, 在一定样本数的支持下, 双方实现了GTO.
条件2.两个AI需要一定样本数去平衡波动.
这点同样重要. 比如两个AI只打1手.
AI A 持AA, river all in 100. AI BB 手持99, 抛完硬币为人头, call.
结果是AI (A) EV=+200, AI (B) EV-100.
从结果来看, 少数样本无法平衡波动, 即使你使用了GTO, 那么你仍然会得到一个负EV的结果.
|
|