智游城
标题: 人机大战:人类选手回天乏术 [打印本页]
作者: 扑克新闻 时间: 2017-1-24 21:45
标题: 人机大战:人类选手回天乏术
[attach]6312[/attach]
本周一的比赛打完后,2017人机大战赛程也已经过半,这天,四位人类选手为自己挖了一个“天坑”。
打完6.4万手牌后(共12万手),Jason Les、Dong Kim、Jimmy Chou和David McAulay现在水下近80万,共8000个大盲注。
上周,人类选手有过反败为胜的迹象,当时一天就打回了三分之二的亏损,可惜之后又遭遇了滑铁卢。
“机器人每天都在变得更强,”Chou说:“它就像是我们人类更难对付的版本。刚开始几天,我们有很大的希望,可每当我们发现一个它的弱点,它就会迅速从我们身上学习,然后第二天这些缺点就不见了。“
Libratus是计算机科学专家Tuomas Sandholm和他的学生Noam Brown一起发明的,他们师徒俩最近几年推出过多款成功的扑克机器人。
人类选手表示,Libratus河牌的处理能力比其它扑克机器人要强很多。它经常在河牌超底池全押诈唬或拿价值,非常具有迷惑性。
每天比赛结束后,Libratus都会在匹兹堡超级计算机Center’s Bridges的帮助下进一步提高策略,特别是打到河牌的情况下。
作者: 四条三最大 时间: 2017-1-29 16:14
最强大脑里,人类也输给机器人。
作者: 输神 时间: 2017-1-30 15:25
你确定这是德州不是围棋?
棋类的计算是静态的,计算范围永远只能在固定的棋盘内,这样只要随着科技的进步,到电脑的计算力能穷举出棋盘内所有的变化那一天,电脑最终就能战胜人类。
而德州是动态的,电脑只能从前面玩牌的数据计算出最优的决策,没有人类的创造思维。要是有新的数据样本加入,就相当于棋盘发生了变化,原来最优的决策不再是最优,而谁也无法预知棋盘接下来又会变成什么样。
所以我认为电脑适应了那几个高手的套路,能稳定的战胜他们以后,这时候换几个菜鸟上去玩,电脑马上就会被干翻。而等到电脑再稳定干翻了菜鸟的时候,因为统计的样本又发生了变化,再让那几个高手回去玩,又能开始赢电脑了。
可能这就是那个软件没有接受全网公测的原因吧。
作者: Jimihandrix 时间: 2017-1-30 22:45
虽然计算机没有穷举围棋的所有变化,alphaGO/Master也已经击败了人类。
换人就能击败AI是很荒唐的。计算机只需要打好自己的牌(不管对手倾向如何),人类就束守无策了。
作者: Howard 时间: 2017-1-30 23:07
本帖最后由 Howard 于 2017-1-30 09:10 编辑
每次看到这个战绩图就很蛋疼,因为它是反直觉的。
总成绩是左边人类,右边AI,下面4行是分别的成绩。
那详细成绩显然直觉应该是左边四行是四个人类,右边四行是四个AI,每一行是一个对决
就像这样:
人类总成绩:(xxxx) | AI总成绩:xxxx |
人类1:a | AI:-a |
人类2:b | AI: -b |
人类3:c | AI:-c |
人类4:d | AI:-d |
没想到丫给分了四个象限。
你非得分四个象限也行,至少这四个象限的颜色稍微区分开一点,至少的至少你把边框弄粗一点间距弄大一点,丫不,用非常统一的大红色,且基本无边框分割。
作者: gulugulubing 时间: 2017-1-31 00:29
Howard 发表于 2017-1-30 23:07
每次看到这个战绩图就很蛋疼,因为它是反直觉的。
总成绩是左边人类,右边AI,下面4行是分别的成绩。
那详 ...
额 同感 开始我都没看懂
作者: gulugulubing 时间: 2017-1-31 00:38
输神 发表于 2017-1-30 15:25
你确定这是德州不是围棋?
棋类的计算是静态的,计算范围永远只能在固定的棋盘内,这样只要随着科技的进步 ...
比赛开始之前电脑就已经经过大量数据锻炼了吧 这样电脑就可以区分出高手和菜鸟 有针对性的应对
作者: 001596 时间: 2017-1-31 00:49
要我猜的话,就是电脑初始策略是GTO,然后根据对局历史加入exploitive play。德州扑克的搜索状态太少了,比围棋少多了,能赢人类一点不稀奇。
作者: 输神 时间: 2017-1-31 15:26
你说的很正确,因为人类分析以往数据去平衡GTO的能力永远不及电脑,一定会有弱点,在实战中必须长期游戏的前提下,电脑最终战胜人类。
但是你混淆了一点,就是alphaGO和这个德州扑克AI击败人类的方式完全不相同。因为围棋是有常量的,就是那固定19X19的棋盘,是一定有一个计算的终点。哪怕是alphaGO通过现有的棋局库穷举精简了分支,但战胜人类最终靠的还是强大的静态计算能力,等到围棋完全被破解的那一天,alphaGO穷举精简了分支的做法反而是不完美会有漏洞的。
而德州扑克没有常量,如果有那也只能是底池赔率和出牌概率,学完了基础知识,静态的计算就直接就到了终点。
剩下的计算,比如通过范围和其它对手的数据找GTO,这个穷举也是没有极限的,哪怕你给所有对手都分类了,你也永远无法涵盖人与人不同的特点,这完全是一个动态,不能做到像围棋一样以穷举出所有变化作为目的进行计算。
说的简单一点就跟猜剪刀石头布一样,这个德州扑克AI就和那个网上号称无敌的Veteran猜拳AI是一模一样的。
为什么我说只要换人就可以击败电脑,因为GTO无法改变上一次胜负的结果,也永远只能根据以往的数据做出决策。
所以只要保证永远都是对电脑AI进行第一次的squeeze剥削,等电脑在吸取了教训找到应对策略想squeeze剥削平衡回来的时候,突然换了一个人,以前的经验不适用了,这样又相当于第一次了,不断重复这种“第一次”从概念上来讲就可以打败电脑。
而为什么我说的是换人,而不是让一个人变换风格,那是因为从心理学的角度深层面的习惯人自己无法发觉,会随着跟电脑长时间游戏被电脑给统计进去,自己却浑然不知,除非人格分裂了能完全变成两人。
更进一步来讲,就算电脑把世界上每个人都统计了,可以单独战胜每一个人,但是这时候用快速的轮换的方式,同时保证换上的人是随机决定的,电脑不知道换了的人是谁,人却知道电脑的数据(就算不知道也不一定输,但可能会出现你瞎蒙出了一个剪刀,刚好前面那几位也出的是剪刀电脑早就准备好石头了,导致这一次未能squeeze剥削成功还蚀把米),电脑照样还是会被干翻。
前提是人别犯基础知识的低级错误,比如把赔率胜率和出牌算错,剩下什么时候该squeeze,就跟你觉得什么时候出剪刀石头布一样。
我数学很烂,只能用上面比较冗长的说法了,希望你能明白。
作者: Callyourbet 时间: 2017-1-31 16:51
我只问一句
这种 Heads up有赌场的抽水没有 ,按照 pot 抽 。
我不觉得 有抽水的时候 机器人能盈利。
而且 这种 人类可以带shortstack 比如 15bb 上桌吗?
要是可以 ,我不觉得在 有抽水 ,短码下 机器能把人类干翻 ,大不了一起输
house take rake, house always win.
作者: gulugulubing 时间: 2017-1-31 21:16
应该是100bb买入吧 人家也是正规大学搞研究 15bb买入还有啥好研究的 网站上应该又详细介绍 懒得找了
作者: yyy6 时间: 2017-1-31 22:06
输神 发表于 2017-1-31 15:26
你说的很正确,因为人类分析以往数据去平衡GTO的能力永远不及电脑,一定会有弱点,在实战中必须长期游戏 ...
电脑根本就不在乎你换不换人 我估计电脑根本就没采用任何exploit的策略 电脑只需要play比人类更接近gto就够赢飞了
作者: Jimihandrix 时间: 2017-1-31 23:38
本帖最后由 Jimihandrix 于 2017-1-31 23:43 编辑
根据我掌握的知识似乎并不是这样,人类的倾向是可以量化的,大概是这样的。
1.动作组合
假设筹码深度100BB,那么一次动作有这么多的可能
过牌
下注1BB
下注2BB
...
下注100BB
第二次在原有筹码深度减去第一次下注量的基础上计算,同时增加一个弃牌的动作
以此类推,直到本条街结束(双方过牌,一方跟注,一方弃牌,allin)可以计算出一条街的所有动作组合
以此类推,可以计算出所有全部四条街的动作组合
2.公牌&手牌
计算出所有可能的公牌和手牌的组合
例如,AsAd或者15%,在JJJJ2s
将手牌公牌组合结合下注组合,计算所有手牌在所有公牌(4条街)的所有可能的下注组合,得到所有可能的策略,换句话说就是就是所有倾向
这是一个天文数字,具体多大我完全没概念。但是,只要筹码深度不是无穷大,混合策略中的step不是无穷小(比如每一个特定的范围或手牌的精确度=1%,AA 99%allin+1%过牌,事实上这已经足够定性了,再小对EV的影响忽略不计),那么这个结果肯定是一个有限的数字
GTO研究的就是面对所有这些可能的策略而不被剥削的策略(对上所有可能的策略得到的EV的加权平均数)
如果真的已解决这个问题,那么换人或者换策略都不能改变电脑的优势。
作者: keybattle 时间: 2017-2-1 04:29
- -同样搞数据挖掘的给你一答。。
围棋是穷举不了的。。。。计算量太大了。前期也是靠神经网络训练出来的模型去下, 到了后期棋盘格子越少,计算机优势越大, 可以适当放入穷举。
德扑也是机器学习去训练的。 发的文章还没看, 以我的菜鸡水平,应该可以看懂点皮毛, 有空去拜读一下细节。。。 再说一下,机器无限接近GTO的话,根本不需要偏离就可以保证稳赢。 调整剥削打法也是GTO使用一段时间之后的调整
作者: 输神 时间: 2017-2-1 11:41
这......太复杂了,我数学是个渣我们还是讨论猜拳的逻辑吧
我对GTO的理解,就是AI在没有记录人类样本的情况下出剪刀石头布的概率都是1/3,很平均,相当于REG标准的打法。
因为人类会有倾向,比如开始放宽范围挤压了变成LAG,好比出剪刀的频率变高了。
这时候电脑的GTO,就是也改变倾向来应对,从剪刀石头布的概率都是1/3,变成出石头次数增加来保持平衡立于不败。
看上去好像人类打得再好再懂得平衡,也只能跟电脑打个平手,可是真的是这样吗?
答案是否定的,因为人有先手的优势,就是创造性思维,而电脑记录的数据永远只能跟在人后面吃灰。
比如AI现在倾向于出石头,人刚好针对性的出一个布赢了,这时候人突然不玩了,保证这个比分1:0,就相当于是人类赢了。
也许你会问在AI身经百战见得多了以后,会不会在有自知之明知道自己倾向出石头的情况下,故意给人类下套出个剪刀,那是必须的。
就像在德州扑克里面就是,对手有什么牌>>对手认为我有什么牌>>对手认为我读出他有什么牌......>>对手有什么牌,这样一个循环的思维。
而德州分析起来太复杂了,换成猜拳就是 对手可能出石头>>对手认为我会因此出布而出剪刀>>对手认为我看穿他出剪刀决定出布>>对手认为我也是这么想的会反过来出剪刀,于是还是回到出石头。
无论计算机的思维层面通过计算变得如何深不见底,无论怎样去“人类的倾向是可以量化的”,最终选择的策略也只能是以上三个的其中一个。
因为计算机不可能又出剪刀又出石头,自然也证明了”得到所有可能的策略,换句话说就是就是所有倾向“是不存在的,所有跟GTO有关博弈游戏同样也无法脱离上面这个循环。
于是,就会出现你的思维层面明明落后电脑好几级,但是选择的策略刚好处在克制电脑的那一级,就这样赢了电脑。
至于那先手的优势在玩德州的时候体现在哪里?就是GTO在面对先手第一次SQUEEZE挤压的时候永远都是要先被削一次的,上面那些高手在初期赢了电脑恰恰证明了这一点。
而GTO的优势是在被削之后更好的削回来,针对人类高手自己也难以察觉的并且已经体现在数据上了的弱点进行行动,于是后面那些高手也想用GTO来平衡,但无奈电脑已经将他们出剪刀石头布的规律弄清楚了,包括他们自己都不知道的规律,而他们自己却还认为自己是在变换讨论没有任何规律。
这时候,应该赶快上菜鸟,来个返璞归真,电脑马上又SB了。
作者: snowsnow 时间: 2017-2-1 17:14
人类把电脑打成SB的可能基本没有。
剪刀石头布的游戏, 电脑随机出, 你赢的可能没有, 跟猜硬币正反一样。
至于人工智能(AI), 我是大学教历史的, 我的理解是任何人工智能软件是该方面专家和IT人员合作开发的。
剪刀石头布的人工智能软件应该是扯淡, 那有玩剪刀石头布的专家?
最多人类行为学可以沾边。
至于扑克, 电脑的基础是起手牌, 赢率, 赔率。
因为电脑的计算力, 把它打成SB不可能。
“应该赶快上菜鸟,来个返璞归真,电脑马上又SB了。”
人针对人打, 要看谁。
即使电脑针对人打, 对手ID不同, 它会用打ID1(鱼)的方法打ID2(鲨鱼)吗?
作者: 输神 时间: 2017-2-1 17:23
纽约时报曾做了一个小猜拳机器人跟你玩,计算机分成两个难度模式:初学者(Novice)只会根据你的出拳习惯来猜你下一个会出什么,而高难度(Veteran)等级则会从收集了超过二十万场剪刀、石头、布的数据库中,猜你的下一步会出什么。(下图)
网上搜,有FLASH,再拿去慢慢研究
作者: 超速生活 时间: 2017-2-2 14:00
阿尔法也是模拟人类行为,在德州扑克里,人类的行为偏好应该比围棋更简化,咱们人类REG不也是把鱼和其它REG轻松分类了吗?而基础的GTO,各种概率计算,咱们电脑里一个几兆B的软件都可以瞬间计算完成。所以个人 认为,德州扑克的机器人研发难度要远远低于阿尔法狗,线上德州尤其高额线上德州将来必定完蛋。
作者: ggyy1414 时间: 2017-2-6 21:13
是200bb的深度。 我觉得这次人机大战并不完全公平
希望能看到AI跟目前顶级的HU高手对战
作者: Callyourbet 时间: 2017-2-9 06:35
本帖最后由 Callyourbet 于 2017-2-9 06:38 编辑
那 这样电脑打败 人类有什么意义
我看了 ,比赛都是电脑上打 ,又没有实战发牌 。
然后 ,电脑不就是欺负 ,人类最聪明的脑袋没在扑克上 开发出 100BB+的 GTO吗 。
而且还是没抽水的 扑克 。
然后 人类 要 想大家都输 玩 1BB cap reset chips every hand, HU with 20% rake.既然是挑战 ,反正扑克是这样 ,规则 游戏 我不喜欢 ,我可以不玩 ,不找鲨鱼玩 。 电脑要是 1000K hands能赢 ,我算你狠 。
PS:我上cash tabled都是不过 30BB,除非有确定的鱼才加满 。要是电脑愿意挑战 ,30BB我 确定cash game HU能在5%的抽水下 ,大不了一起输 。
作者: gulugulubing 时间: 2017-2-9 07:04
Callyourbet 发表于 2017-2-9 06:35
那 这样电脑打败 人类有什么意义
我看了 ,比赛都是电脑上打 ,又没有实战发牌 。
哥们 你的回复是啥意思啊?是在问开发这个Ai的意义么?
我看了下介绍 应该还蛮有意义的吧 这套算法可以推广到无人驾驶 医疗诊断 网络安全等许多现实应用领域。
如果只会打打牌 那是没啥意义吧
作者: Callyourbet 时间: 2017-2-9 09:05
poker player 的要求是赚钱
选择 对 自己有利的 比赛对手 。
我的意思是 ,如果 没有抽水 和 AI 打,除非有 pay 那 打起来 没有任何意思
那都不是 扑克牌手
这套算法 如果那么有意义 ,应该拿去 医院 ,网络安全去实战,等 beat掉什么 25年 的名医再来说 好了 ,开发一个安全网络能多少天不被全球黑客攻陷 。
就事论事
这种 新闻一点意义都没有。 人类没权利选条件 ,还没有抽水 ,网络发牌 。
PS: 我真的不明白 这几个 有名的牌手难道不懂 ,扑克应该和 比自己水平低的 干架 ,他们是真不懂 ,还是假不懂 ?
开始一看 AI 打败人类 。
结果 什么都没说
就好比 一个牌手说 我这把 AA 输了 150BB 给鱼
结果 有效筹码,买入 ,数据 ,tell很么都没有 。有意义吗 ?
作者: gulugulubing 时间: 2017-2-9 13:19
Callyourbet 发表于 2017-2-9 09:05
poker player 的要求是赚钱
选择 对 自己有利的 比赛对手 。
这次比赛如果人类赢了是有奖金吧
另外我觉得无限德州算是不完全信息博弈里一个比较典型且相对较抽象的例子 解决了它 对解决更具体的现实应用有很大的指导意义吧。
作者: 青岛纯生 时间: 2017-2-9 13:53
输了人类牌手不用给钱啊 赢了有20万美金 这种FREEROLL难道不去打??
作者: snowsnow 时间: 2017-2-9 13:55
本帖最后由 snowsnow 于 2017-2-9 14:45 编辑
那几个牌手应该是按时间发工资的。
1+1=2都有人研究。
根本没用的事都有人研究。
何况扑克市场这莫大。
作者: 我是Jsli 时间: 2017-2-9 14:11
扑克机器人
应该是最简单的一类了
弄二个外挂软件
多数人类就被干趴下了
感觉跟围棋AI完全不是一个层次
作者: 我是Jsli 时间: 2017-2-9 14:14
就4条街
Check-bet-raise-fold-call这几个actions
对AI来说啥也不是
作者: sexrange 时间: 2017-2-10 11:18
ai是网络神经和大数据分析的结合。和人类比最大的优势是不出错,不会情绪化。
欢迎光临 智游城 (http://zhiyoucheng.co/) |
Powered by Discuz! X3.2 |