有人有兴趣聊聊AlphaGo、机器学习、以及它对扑克的影响吗？

sexrange · 发表于 2016-2-17 11:48:20

首先，据说ai在ps上测试过，无法再NL100以上级别稳定盈利，当然赢是肯定的，只是平衡不了反水。但是PLO是基本沦陷了。plo400轻松盈利。

sexrange · 发表于 2016-2-17 11:53:01

我觉得对德州扑克ai的研究投入一定不小，另ai的自学习能力在德州扑克中遇到的瓶颈与围棋的有比较大的区别。ai是的自学习能力和大数据结合，表现在通过历史经验的成败比例和一定程度的对对手的解读。当然最大的优势是稳定，永不上头。这个恐怖啊！

RichZhu · 发表于 2016-2-18 05:33:20

跟围棋ai相比，扑克ai的研究只能算是连一挺歪把子机枪都没有的区小队。google跟facebook的ai竞赛，岂是这些扛着三八大盖数着还剩几颗子弹的民兵所能比？

sexrange · 发表于 2016-2-18 16:43:42

RichZhu 发表于 2016-2-18 05:33
跟围棋ai相比，扑克ai的研究只能算是连一挺歪把子机枪都没有的区小队。google跟facebook的ai竞赛，岂是这些 ...

听过google团队的核心人员表示，之前参与过的项目包括poker和星际争霸。从理论上来说这两个项目属于失败，但是对于围棋项目来说也有不少的帮助。所谓的自学习能力一定能从不同的项目中得到共通的人类智慧的特点。围棋和星际最相似的是复杂局面的形势判断，和多个局部对整体全局的影响，从而找出局面的要点。扑克中的难度应该也在判断方面吧，从围棋网站的介绍来看，阿尔发狗根据图库中搜索中寻找不同的可能落子点，然后通过推演来排除（也就是模仿人类思维）如果这一特点也运用在扑克AI上，估计也将是质的飞跃。
很有幸这三个项目我都略有涉猎，自我感觉这三个项目可以代表人类智慧的最高水平。

sexrange · 发表于 2016-2-19 17:01:11

在DeepQ中，他们将深度神经网络与所有动物都有的通过大脑多巴胺驱动奖励机制的‘强化学习’结合了起来。而在AlphaGo中，他们更进一步又增加了另一种更深度水平的强化学习以处理长期计划。接下来，他们将整合例如记忆功能等等——直到理论上达成每一个智能的里程牌。Hassabis说：‘我们在存在多少这些能力的路线图上有一个想法。将所有这些不同领域结合起来是其中关键，因为我们对那些可以在一个领域内学习又能将知识应用到新领域的算法很感兴趣。’

　　这听起来有一点他的个性。乍一看他的简历，可以发现他颇为业余的好奇心包含了从棋盘游戏到视频游戏到计算机编程到认知神经科学等一切，更别提人工智能了。事实上，他今日成就的取得是聚焦的结果：将自己在同代人少见的强大智力与他一生专研过的学科等各方面有意识地合成在一起。（简单点出他人生的亮点：8岁写出自己的电脑游戏；13岁收获国际象棋大师地位；17岁创造了第一款包含人工智能的视频游戏《主题公园》；20岁以两科优等成绩获得剑桥大学计算机科学学位；不久之后就成立了开创性的视频游戏公司Elixir；之后他在海马体和情景记忆上的开创性学术研究成为了他的‘最后一块拼图’；2011年成立DeepMind。）

　　他承认：‘我非常容易感到无聊，而世界又如此有趣，有太多炫酷的事情可做。’（他还保持着五次获得智力奥林匹克运动会（Mind Sports Olympiad）精英赛Pentamind冠军的世界纪录，在该比赛中，挑战者需要在多个项目中互相挑战。）‘如果我是一个体育运动员，我就会一直想成为一个十项全能选手。’

　　不过体育的荣耀再也没有希望了。Hassabis是一位忠实的利物浦球迷，喜欢观看各种体育赛事，四岁那年他开始下国际象棋，不到一年就开始了全国比赛，不久之后又开始角逐于国际赛场。现在可以很明显地推测出，他的一生都将与心智有关。

　　1976年，他出生于伦敦北部，他有一位希腊-塞浦路斯混血的父亲和一位新加坡-中国混血的母亲，他是三个兄弟姐妹中最大的一个。他的父母都是教师，曾经还拥有过一家玩具店。他的妹妹是一位作曲家和钢琴家；他的弟弟研究创意写作。他的家庭并没有太多的科技色彩。‘显然我是家里另类的害群之马，’他开着玩笑，回忆起当他还是一个小男孩时将自己的下棋奖金花在了一台ZX Spectrum 48K计算机上，然后又买了Commodore Amiga，他立即拆开了它并搞清楚了怎么编程。‘我父母有点技术恐惧。他们真的不喜欢计算机。他们是那种随性的人。我的妹妹和弟弟也都走了艺术路线。他们没人真正深入学习过数学或科学。’他耸耸肩表示抱歉，‘所以，是的，这很怪异，我也不知道这一切都由何而来。’

　　他的公司在被谷歌收购时有50多人，现在的员工人数快到接近200，他们来自45个国家，占据了一整栋位于国王十字路的六层建筑。尽管有让他将公司搬往别处（可以推测肯定包括硅谷的山景城）的压力，但Hassabis决心他的公司应该保持在离他的根很近的地方。

　　‘我是在北伦敦出生长大，’他提醒我，‘我当然爱这座城市。这就是我要坚持留在这里的原因：我觉得没有任何理由说伦敦不能拥有一个世界级的人工智能研究所。而我也对我们现处的位置感到自豪。’这栋建筑所有房间都是以知识巨人：特斯拉、拉马努金、柏拉图、费曼、亚里士多德、玛丽·雪莱（他是她的粉丝？‘当然，’他再次向我确认，‘我读过好几遍《弗兰肯斯坦》。把这些东西铭记心中很重要。’）。

　　建筑的第一层是一间咖啡厅，装配着裸露的砖墙和装有客用椰子水的冰箱，还能见到在世界上大部分雄心勃勃的科技公司里都能看到的桌上足球机和沙包。楼上则对原来的建筑进行过装修，是一个现代的开放式结构，楼上办公室带有一个阳台，在上面能够欣赏到伦敦屋顶的壮丽景色。

　　DeepMinder会在星期五晚上聚会畅饮。一位员工热情洋溢地将这个活动描述为‘用HIGH来结束一周’的方式。社交是生活中不可或缺的一部分：我被告知DeepMind有俱乐部、足球队、棋类游戏俱乐部。（‘这一个相当有竞争力。’）一张可更换照片的挂图表明这里每一个人每一天都是办公桌轮用的。这是极其开放式的。我经过走道时看到这里的工程师——男性居多——打破了人们认为的这一类人在角落里书呆子式工作的刻板印象：这些家伙看起来健康、快乐又很酷。不得不说这里有一种智力的魅力在空气中回荡。这不奇怪。这个星球上最聪明的人正排着队想来这里工作；而到目前为止，这里的员工留存率是惊人的100%，尽管谷歌的最大竞争对手们对人工智能的关注正在加速，更不要说同样求贤如渴的世界各地的一流大学了。

　　‘我们实在是很幸运，’Hassabis说，他将他的公司比作阿波罗计划与曼哈顿计划，因为该公司的雄心壮志以及其所招募的人员的水平都在以前所未有的速度攀升。‘每年我们能从每个国家获得最好的科学家。例如，我们将拥有赢得波兰物理奥林匹克竞赛的人，获得今年法国年度最佳数学博士的人。我们得到的想法比我们获得的研究人员还多，但与此同时，还有更多优秀人才前来，我们已应接不暇。所以我们正处在一个非常幸运的位置。唯一的限制是在不破坏这种文化氛围的基础上我们能吸纳多少人。’

　　这种公司文化要比豆沙袋（用来踢的那种）、免费午餐、天台上的啤酒等表面上的公司活动要更加深入。Hassabis坚信，谷歌的收购完全没有让其偏离自己的研究路径，他说他花在DeepMind公司运作效率方面的时间一点也不比花在算法上的时间少，他认为他的公司‘完美结合了最好的学术和最令人激动的创业，因此，公司充满着惊人的能量，催生了无数创造力与进步。’他屡次提到‘创造力’，虽然他接受都是正规的科学训练，但他是‘天生就富有创造力和敏锐直觉’的天才。他斩钉截铁地说：‘从某种意义上来说，我不是一个标准的科学家。’DeepMind组织架构中至关重要的是被他称之为‘粘合思维（glue minds）’的东西：充分掌握各个科学领域知识的学者们能‘以别出心裁的方式快速找出有前途的跨学科交叉点。’应用正确的基准，这些粘合者能以小组的形式每几周就碰一次面，快速、灵活的将各种资源和工程师匹配到需要的地方。‘因此，你将拥有一个令人难以置信的天才研究者，而且3-4名其他领域的研究者可以直接接过同一任务，基于自己的专业进行补充，这与学术界十分不同，’他描述道，‘这样所带来的结果就是能很快地产生一些惊人的结果。’仅仅启动了18个月的AlphaGo项目就是这一理念的完美例证。

　　每天晚上，Hassabis都会乘坐北线巴士准时回家，与家人共进晚餐。他们居住在伦敦北部的海格特，距离他长大的地方不远。他的妻子是一名意大利分子生物学家，研究阿尔茨海默症。他们有两个儿子，一个7岁，一个9岁。Hassabis会和他们一起看书玩游戏，或者辅导他们的家庭作业。（‘他们都很优秀，但他们在科学和创新方面更像是我的对立面。’）

　　像每个父亲一样，他会哄他们睡觉。然后在11点左右，大多数人都上床睡觉时，Hassabis会开始他称之为的‘第二天’。每天和美国团队的电话会一般会持续到凌晨1点，之后就进入他一直持续到凌晨3、4点的‘纯粹思考时间’：他会考虑公司的研究工作和接下来的挑战，或者写一份算法设计文档。

　　他承认，实际上没有太多人工智能编程工作。‘因为我现在的数学太生疏了。更多的是直觉式的思考。或者是关于公司战略的思考：如何将其规模化，如何管理，等等。或者是想一些当天在文章和新闻中看到的东西，思考我们的研究如何和那些东西结合起来。’

　　这让我想到了AlphaGo，，它就在令人很难想象的拥有庞大计算能力的谷歌云端不停的练习、练习、再练习，每一秒、每一天都在进步，因为它学习的唯一方法就是永不停歇。

　　‘它会休息吗？’我问到。

　　‘不，它不会休息。即便在圣诞节期间也没有。’

　　我有些犹豫：‘它真的永远不需要休息吗？’

　　‘可能它就喜欢这样（永不停歇）’，他回复道，眼睛闪闪发亮。

sexrange · 发表于 2016-2-19 17:02:50

我觉得，阿狗要搞定德州扑克是一件轻松愉快的事情。

monox0 · 发表于 2016-2-19 21:59:51

对诸位大神的评论表示认同-- 机器超过人只是时间的问题，如果不是已经。
而且这个时间是很短的。

我学过一些R，会简单的建模包括各种神经网络，random forest 还有什么回归，只能说理解这个原理，绝非高手，但我觉得这将是非常快速的事情。

问题是，扑克室越来越迫切的需要加强这方面的监管，他们需要足够强大的anti bot 监控团队和技术。

这就是一场猫捉老鼠的游戏，道理和黑客与反病毒是类似的：

bot不仅掌握了unbeatable 的快速算法，而且需要模拟人的行为（比如一些随机的鼠标路径）等来骗过检测。

这可能比起得到那些扑克最优解的算法来说，太容易不过。

接下来扑克室方一个可能的方案会是：　加上视频控制，即你打牌的时候需要视频联网。
这同样会带来问题，　这样只能限制你需要和你的bot同时物理存在，　一样难以限制利用屏幕捕捉技术来进行最优算法的bot 对你进行人为的提示。比如你可以想想这样一个bot是一个手机的app，利用蓝牙监控你的屏幕，然后对你的行动进行提示的模式。

归根到底，网络扑克室对玩家的行为监控不可能细致到和现场反作弊一样强大，否则，那将是整个实体扑克动荡的开始和结束。

所以，无论扑克室采取激进或者保守的对策，他们面临的最大的问题是：
大数据对扑克环境的冲击是必然的，但他们用什么去保卫自己的蛋糕？

RichZhu · 发表于 2016-2-20 06:43:10

sexrange 发表于 2016-2-18 16:43
听过google团队的核心人员表示，之前参与过的项目包括poker和星际争霸。从理论上来说这两个项目属于失败 ...

没有看到这一段，有链接吗？作为AI研究者，接触各类游戏项目是正常的，不过扑克项目对围棋项目的帮助有多少，是个有趣的话题。

传统算法中，机器围棋和机器扑克走的是完全不同的路。围棋是典型的完美信息博弈，采用各种形式的树状搜索；而扑克则是不完全信息博弈的代表，博弈论是它的基石。

人工智能专家一直偏爱围棋AI，研究的力度和投入的资源远非扑克能比。最早的围棋程序出现在上世纪60年代，到了80年代末就已经有不少人关注了。我记得90年前后，好像是应氏围棋基金还是哪个组织就50万美元悬赏计算机程序：击败一个11岁的小孩就可以。91年出现网络围棋，机器围棋也进入一个发展阶段。说来也巧，AlphaGo使用的数据来自KGS，而KGS的前身就是第一家网络围棋IGS。

相比之下，扑克机器的研究时间和规模就差得多了，都是本世纪的事。有代表性的成果也就是阿尔伯塔大学的Polaris和卡内基梅隆大学的Claudico，再加上一个商业性质的snowie。这个跟谷歌公开AlphaGo的前一天，facebook老板扎克伯格在脸书上大谈他自己的AI团队及围棋程序Darkforest形成鲜明的对比。

不过在alphago的混合算法获得突破性成果之后，机器围棋和机器扑克可能殊途同归，想想也是自然的进程。

RichZhu · 发表于 2016-2-20 06:58:31

monox0 发表于 2016-2-19 21:59
对诸位大神的评论表示认同-- 机器超过人只是时间的问题，如果不是已经。
而且这个时间是很短的。

最终的结果，只能依靠法律。

就像你无法用任何技术手段阻止偷窃不发生一样，惩罚性法规和可执行性，才是把偷窃降低到社会可容忍限度内的基本办法。

技术的进步产生了网络扑克，反过来，对网络扑克的根本威胁也来自于技术的进步。靠技术的进步来阻止技术带来的破坏是不现实的/违反逻辑的。

sexrange · 发表于 2016-2-21 20:10:49

RichZhu 发表于 2016-2-20 06:43
没有看到这一段，有链接吗？作为AI研究者，接触各类游戏项目是正常的，不过扑克项目对围棋项目的帮助有多 ...

这是翻译的内容，在围棋TV的论坛。是英国杂志采访的部分内容。说白了，阿狗的学习方法是无限模仿人类的学习方法，只是他是不会疲倦的。但在创造性方面还是不可知，另学习中也会有错误，但在扑克中会通过自身的获胜概率来排除。而且他可以自己和自己来进行经验积累。

		自动登录	找回密码
密码			注册

有人有兴趣聊聊AlphaGo、机器学习、以及它对扑克的影响吗？

客服中心

投诉建议