颤抖吧，人类连德州扑克都玩不过电脑了

星辰德鲁伊 · 发表于 2015-4-29 22:14:57

这是来自果壳网上的一个文章，我现在就去和那个人工智能打打看。

原文地址你们自己搜

原文 ---------------------------

半个多世纪以来，各类游戏一直是人工智能（Artificial Intelligence, AI）发展创新的温床，而人工智能技术也不负众望地取得了各种突破——著名的深蓝（Deep Blue）在国际象棋比赛中击败了卡斯帕罗夫，IBM开发的超级计算机沃森（Watson）也在《危险边缘》（Jeopardy!）节目中战胜了该节目的两名总冠军詹宁斯和鲁特尔。然而，能击败人类的顶尖选手并不代表能将游戏破解。而现在，来自加拿大阿尔伯塔大学理学院计算机-扑克研究小组的研究者们首次破解了双人限注德州扑克（heads-up limit Texas hold'em poker）的决胜法门。

所谓游戏的破解，是指当游戏双方都以最优策略进行博弈时，能够在任一阶段准确预测博弈结果——胜、负或平局。游戏的破解分为几个不同的层次，比如井字棋就属于已被“强解决”的游戏，在任何阶段，我们都知道玩家的最优策略。而这一次，阿尔伯塔大学的迈克尔·鲍林（Michael Bowling）教授和同事对双人德州扑克进行了“弱解决”——他们能得知在起始情况下，怎么样能保证必不败。“40年多来，扑克类游戏一直是人工智能领域的挑战课题，直到今天为止，双人德州扑克问题才得到破解。”鲍林说。以他为第一作者发表的论文今天发表在《科学》杂志上。

以正常人玩牌的速度，一个人类跟鲍林的程序单挑限注式德州扑克，就算花一辈子也无法得到统计学上显著的胜利。图片来源：Science

德州扑克（Texas Hold'em Poker）是目前扑克游戏中最受欢迎的一种。游戏使用52张牌，没有大小王。每位牌手得到2张牌面朝下的“底牌”，荷官则陆续发出5张牌面朝上的“公共牌”。在限注式德州扑克的两人局中，先手玩家可以根据场上局面选择投注或者盖牌认输，而后手可以选择跟注、加注或者盖牌。如果最后一轮喊注后仍胜负未分，游戏将进入“斗牌”阶段：每名牌手从自己的底牌加上桌面的公共牌共7张牌中，选出最大的5张牌组合决定胜负。

由于在德州扑克中，玩家们无法获取已发生事件的全部信息，诸如对手的底牌，因此这个游戏属于“不完美信息”（Imperfect Information）类游戏。虽然德州扑克的缺失信息比西洋跳棋少，但是这种不完美信息的特质使得双人德州扑克成为难度远远更高的人工智能挑战项目。研究者表示，要破解这样的游戏，势必需要更大的计算机记忆和计算能力。

然而更重要的是算法。鲍林和同事开发了一个叫CFR+的算法，这种算法是CFR算法（counterfactual regret minimization，虚拟遗憾最小化）的一个变体，从使遗憾最小化的角度学习最优的博弈策略。鲍林表示：“我们工作的主要突破是基础算法的改良。这意味着，在任意形式的大规模模型里，基于博弈论的推理将变得更加容易。”

这个算法的表现怎么样？鲍林解释说：“想象一下一个人每小时玩200局扑克，每天玩12小时，70年从未有一天间断。进一步假设他时刻考虑最差的情形，争取最大程度的胜利，采取针对性的策略，并永远不出现一次失误。”他们的程序每秒进行24万亿局，连续操作两个月，结果提示他们基本破解了这个游戏。现在，网友们可以在阿尔伯塔大学的网页上与这个叫Cepheus（仙王座）的程序交手。

虽然听起来很好玩，博弈论其实一直被寄望于处理一些严肃的问题——在安全领域，博弈论的应用已掀起热潮，例如机场检查点的设置、飞机起落的次序和警卫的巡逻中都有博弈论的身影。在真实世界中，我们往往需要在信息不足或不确定时做出决定，有了更好的博弈论算法，我们才能更好地解决未来的实际问题，正如鲍林试图解决德州扑克问题一样。（编辑：Calo）