智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

查看: 3266|回复: 6
打印 上一主题 下一主题

Noam Brown:扑克AI将很快战胜六人桌游戏

[复制链接]
跳转到指定楼层
1#
扑克新闻 发表于 2017-2-15 14:13:55 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式
由卡耐基梅隆大学教授Tuomas Sandholm和他的学生Noam Brown共同研发的扑克人工智能(AI)Libratus,在无限注德州单挑游戏中大胜四位顶尖人类选手。与Libratus交手12万手牌后,四位人类选手全部水下,总共输掉了170万筹码,也就是1.7万个大盲注,每百手亏损近14个大盲注。Brown表示,Libratus还有很大的改进空间,他预测下一代AI将轻松打爆Libratus,甚至可以达到每百手50个大盲注的赢利。

最近接受CardPlayer采访时,Brown谈到了刚刚过去的人机大战,以及扑克AI未来的发展。

采访内容如下:

CardPlayer(CP):你对这次AI大胜人类的结果感到惊讶吗?
Noam Brown(NB):是的,挺惊讶。它对上之前的版本Claudico,可以每百手赢利10到12个大盲注,比人类在2015年对上Claudico时要赢得多,所以我觉得Libratus会有微弱的优势。它的表现真的很了不起。

CP:所以你并不觉得Libratus对上人类时可以每百手赢利14个大盲注?
NB:第一次人机大战时,人类选手其实胜之不武,因为他们当时找到了Claudico的弱点,并一直在利用,比如不断加注Claudico的平跟,这是他们最终获胜的主要原因。而Libratus并不会利用对手的弱点,但它还是可以每百手赢Claudico 10到12个大盲注,所以这表明Libratus其实在单挑游戏中比人类强不少。

CP:人类某个阶段差点就完成了反超,你当时有没有觉得Libratus的弱点被找到了?
NB:是的,第一周比赛快结束时,人类确实有反超的迹象,当时他们都在猜测Libratus的打法,进行数据分析,试图找出可以利用的漏洞,不过没有告诉我分析结果,但从其它渠道听到的有关他们得出的结论,我认为大部分不靠谱。比如,有一天,他们拿80%的牌3-Bet,因为通过数据分析,发现AI在面对特定3-Bet尺寸时很弱,我不觉得这是一个弱点,是数据让他们产生了错觉。但他们有些分析是准确的,比如,他们注意到AI在面对特定翻牌前加注尺寸时表现不佳,我们研发的时候认为这些都不是什么大问题,结果在实战中确实可以被对手利用,不过幸运的是,当人类选手晚上睡觉时,AI可以一直学习,并迅速填补这些漏洞,这就是Libratus第二周会变得更强的原因。

CP:每个session后都会对AI的策略进行调整,这很重要?是不是这样才公平?因为毕竟人类选手赛后也会在一起讨论。
NB:这里有很多误解。并不是我们对AI进行调整,我们并不会告诉它更多的4-Bet或弃牌,事实上,人类会在翻牌前或翻牌进行不同尺寸的下注,我们事先已经为AI植入了很多下注尺寸,所以它知道怎么应对2倍、2.5倍或3倍的翻牌前加注,但如果人类加注2.75倍,AI就会把它近似为3倍。到了晚上,AI会基于算法自己模拟对手下注2.75倍时该如何行动。这种算法的关键就在于,它可以帮助AI不断地适应人类的打法。Libratus并不会向他们猜测的那样利用对手的弱点,它只是单纯地学习如何更好地应对人类选手各种尺寸的下注。

CP:那是不是对AI来说,转牌和河牌怎么行动不那么重要了?
NB:转牌和河牌阶段,AI通常要花些时间才行动。它真的需要时间来验算,不过还是有很多人没有注意到,针对人类选手在转牌或河牌的每次下注,AI都会花时间来验算自己的策略,而且都是在打牌过程中实时计算的。

CP:Claudico没有这种实时计算的能力吗?还是有,但不够完美?
NB:Claudico确实可以在河牌实时计算,但功能很弱。首先,它不会考虑阻断牌,当它手中有As,而公共牌有三张黑桃时,他的策略会和手中有Ac,公共牌有三张黑桃时一样。其次,Claudico不会验算。我认为验算能力是Libratus这次大胜的关键所在。还有,我们让它在转牌就拥有了这种能力。

CP:Libratus何时会完美使用GTO
NB:没有人知道AI什么时候会学会GTO,我们其实有办法做到,但费用太高了,不过下一步应该会尝试,我预测完美使用GTO的 AI对上Libratus,可以每百手赢利15个大盲注,这是我的粗略估算,当然也可能是5个或50个。

CP:哇,扑克AI还有这么大的提升空间?
NB:很难说。以前的扑克AI最大的弱点是在转牌和河牌不考虑阻断牌,这在高级别的游戏中很重要,但Libratus没有这个问题,这是Libratus和Claudico相比最大的进步之处。目前,在处理阻断牌方面已经没有提升空间了,但也许在下注尺寸方面作出改进后,可以提升15%左右的优势。

CP:很多人说Libratus在转牌和河牌非常激进,经常超底池下注。你认为AI的这种打法是完美的吗?
NB:超底池下注确实让我们很惊讶,我们并没有用人类的数据来训练Libratus,它从来没有看过一手人类的牌局,它在使用独一无二、自认为的最佳策略,和人类认为的最佳策略不一样。而大的超底池下注正是它的策略之一,还有反主动下注,这真的难以置信。之前laudico也会这样,经常在底池很小的情况下全押,我认为这是不对的,没有达到平衡,但Libratus做到了平衡,这是它成功的关键。

CP:很多人关心AI对线上扑克未来的发展意味着什么。
NB:我至少可以向人们保证,我们没有让Libratus打线上,也没有计划这样做。当然,我们不能阻止其他人使用我们的技术发明机器人。我不会过多的猜测AI会怎样影响线上扑克,因为我也不是很清楚,我知道扑克机器人已经在被使用了,各大扑克室也在想办法清除它们,我不知道最终哪边会获胜。

CP:随着比赛的进行,筹码量减少了或增加了怎么办?这对结果有影响吗?AI可以玩500到1000个大盲注的深筹码吗?
NB:200个大盲注被选择是因为这个筹码量被用在每年的机器人扑克大赛中,AI研究者们每年都会拿自己的作品和其他人比赛。200大盲注的深度其实对AI来说是一个挑战,因为筹码越深,选择更多,难度也越大。以我的理解,200个大盲注也是人类玩家每次打牌的最大买入量,所以这是一个很合适的尺寸,对大家都公平。如果是100个大盲注,AI可以很好的应对,也有可能表现更好。问题是如果增加到500或1000个大盲注会怎样,说实话,我认为情况会一样。并不是因为这对AI来说变得简单,而是对人类选手来说变得更困难,我并不认为有人经常玩500或1000个大盲注这么深的现金游戏。在这个筹码深度,像AI经常做出的超底池下注变得更重要,我不知道人类选手有没有胆量这么做。

CP:AI现在可以战胜多人游戏了吗?
NB:已经有团队在研究三人桌了,一般而言,Libratus的技术在应对多人游戏时效果也会不错,但问题不在技术,而在如何评估结果。因为三人局中,即使你完美的使用GTO策略,但还是输钱的,因为另两位对手可能打伙牌。所以如果举办一场AI和五位人类选手参加的比赛,最后会很难评估AI是不是比人类更优秀。这就是为什么人机大战都是单挑游戏,在单挑游戏中,比赛的结果更有意义。我认为六人桌游戏目前超出了Libratus或类似AI的能力。不过机器人扑克大赛最近增加了六人桌游戏,所以现在针对六人桌的研究正在进行,我认为很快会出成果。如果对Libratus做点小改进,它在未来两年内就可以在六人桌游戏中打败人类。当面对多个对手的时候,我们不清楚使用GTO策略,或专注于剥削弱玩家,哪个更好。我们和扑克玩家们讨论过这件事,还没得出结论。人类选手在利用对手漏洞,和剥削弱玩家方面还是比AI有优势。

更多有关德州扑克新闻的精彩内容请关注扑克新闻,加入扑克新闻有惊喜

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?注册

x
分享到:  QQ好友和群QQ好友和群 QQ空间QQ空间 腾讯微博腾讯微博 腾讯朋友腾讯朋友 微信微信
收藏收藏1
2#
pengyunsong 发表于 2017-2-15 14:34:12 | 只看该作者
线上扑克将死,扑克的发展从线下走到线上,现在又将回归到线下了
3#
输神 发表于 2017-2-15 18:03:29 | 只看该作者
能战胜高手,但是战胜不了博雅上面的推推乐玩家。
4#
Howard 发表于 2017-2-15 23:14:26 | 只看该作者
标记一下:

1. “我预测完美使用GTO的 AI对上Libratus,可以每百手赢利15个大盲注,这是我的粗略估算,当然也可能是5个或50个”

Libratus居然还不够完美,而完美GTO的AI可以这么强大。

2. “转牌和河牌阶段,AI通常要花些时间才行动。它真的需要时间来验算,不过还是有很多人没有注意到,针对人类选手在转牌或河牌的每次下注,AI都会花时间来验算自己的策略,而且都是在打牌过程中实时计算的。”

“验算”难以理解,跟“计算”有什么差异?找到了原文:

For the turn and the river, you noticed that the AI would take some time to think when it reached the turn. It would actually take some time to think on subsequent actions on the turn and the river. Some people didn’t notice because it went so quickly, but it was actually recomputing its strategy every time the humans made a bet on the turn and the river. The reason for this was that it was able to compute a strategy that perfectly responds to whatever bet size the humans used on the turn and the river. So, this issue of having to pre-compute a bunch of different bet sizes to put in the game tree was just not an issue for the turn and the river because it was computing those strategies in real time.
5#
keybattle 发表于 2017-2-15 23:36:13 | 只看该作者
Howard 发表于 2017-2-15 23:14
标记一下:

1. “我预测完美使用GTO的 AI对上Libratus,可以每百手赢利15个大盲注,这是我的粗略估算,当 ...

2. libratus用的counterfactual regret minimization 计算EV最高的action
6#
snowsnow 发表于 2017-2-16 00:31:13 | 只看该作者
第一次人机大战时,人类选手其实胜之不武,因为他们当时找到了Claudico的弱点,并一直在利用,比如不断加注Claudico的平跟,这是他们最终获胜的主要原因。
--------------------------------------------------------------------------------------------------------------------

这句是胡话。
7#
moriarty 发表于 2017-2-18 07:47:57 来自手机 | 只看该作者
一个问题 gto不是indifferent对手的action ev为0的策略吗?为什么会有这么大的盈利?
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-28 03:03 , Processed in 0.122634 second(s), 9 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部