智游城

 找回密码
 注册

QQ登录

只需一步,快速开始

扫一扫,访问微社区

楼主: RichZhu
打印 上一主题 下一主题

GTO(所谓的“博弈论最优”)通俗版

[复制链接]
51#
我是Jsli 发表于 2015-12-1 07:44:36 | 只看该作者
taiji18 发表于 2015-12-1 07:41
不能快意随行,或纵马奔驰,或登高一呼,也是醉了。

太级这么大感触干啥
不就是一个gto吗
52#
lililili11 发表于 2015-12-1 11:31:39 | 只看该作者
RichZhu 发表于 2015-12-1 02:07
(四)GTO的困境

两年前,我在yy语音开免费公开课。在我回答学员提问时说:GTO这个概念还是要知道的,而且 ...

这5点太赞了。
53#
youngtercel 发表于 2015-12-1 13:26:49 | 只看该作者
我是Jsli 发表于 2015-11-29 15:43
刚才在路上把扑克中有关对gto认识的一个现象想明白了

再回到这个例子

这个例子是纳什均衡的一个通俗的例子,但我认为是一个不好的例子。尽管逻辑上似乎无懈可击。但我们有必要从源头上分析,是否本身的条件设置即指向了这个结果。

首先,我们必须假设博弈规则制定者(这里算是警方)制定的规则有合理性和一致性。可以被理解的出发点是,第一,警方至少需要一份供词才能定罪,第二,如果有人主动招供的话,警方必须给予优待。第三,如果主动招供的人多的话,根据市场的稀缺性原则,优待条件将贬值。
在这种规则下,我们假定基准刑期为10年。
如果均不招供,只能都释放
如果有一个人招供,则此人减为两年,另一人10年。
如果两人都招供,则两人都判5年。

容易看出,这种情况下就没有直观的平衡点。但如果双方都是理性的人(单一追求自己的利益最大),是容易达到共赢点的。
因为设想行动有先后的话,如果一方不招,那他明白对方必然会选择不招。如果他招,他也明白对方必然会选择招供。所以策略是大家都不招。

而原例子中,不合理地地把优待条件调到极致(无罪释放),而以后不合理地将不能定罪的情形(都不招供)加上半年刑期。这种对系统的OVERTUNE导致了一个所谓的(非最佳)平衡点,从而给人造成一种有简单共赢却无法达成的悖论景象。





54#
taiji18 发表于 2015-12-1 16:17:26 | 只看该作者
我是Jsli 发表于 2015-12-1 07:44
太级这么大感触干啥
不就是一个gto吗

主要看到无解这个词,触动浮想联翩,人生很多难题啊
55#
taiji18 发表于 2015-12-1 16:20:54 | 只看该作者
我是Jsli 发表于 2015-12-1 07:41
都有解了也就不会有耶稣释迦牟尼默罕默德

据载,释祖对于宇宙是有限还是无限的之类的问题也是不回答的
56#
我是Jsli 发表于 2015-12-2 05:41:06 | 只看该作者
扑克是门科学
扑克不是艺术
57#
 楼主| RichZhu 发表于 2015-12-2 06:50:30 | 只看该作者
youngtercel 发表于 2015-12-1 13:26
这个例子是纳什均衡的一个通俗的例子,但我认为是一个不好的例子。尽管逻辑上似乎无懈可击。但我们有必要 ...

囚徒困境是一个模型,自然模型参数的变化对结果会有影响,但参数提取是否合理跟模型是否有效不是一回事情。

囚徒困境本身也有很多版本。比如说,你跟火花在北京公车上合伙偷朝阳大妈精装大闸蟹一盒被发现扭送到派出所,按规定要拘留半个月,可是机智的民警联想到前两天隔壁居委会光天化日之下被盗现金2万,两案手法惊人相识,严重怀疑是你们两个干的。事实上也确实是你们两个干的,只不过警察没有证据。于是警察就跟你们两个分别挑明:给你坦白从宽的机会,你要是坦白并检举火花而火花没坦白,你有重大立功表现,从宽处理,立刻释放,火花拒不认罪劳改2年。如果你不坦白,被火花举报,他立刻释放,你劳教2年。如果你们两个都坦白了,那就从宽处理,但因为不能算检举立功,所以各劳教3个月。当然,警察也很实在,跟你们明着说,你们要是都不坦白,我也没有证据,就按偷大闸蟹算,每人拘留半个月。

听上去这第一反应肯定是不坦白啊,可是一琢磨:我要是不坦白,火花这小子检举了我,我得劳改2年啊,而这孙子却逍遥快活,一天罪也没受,我不是太冤枉了?

退一步说,火花就是不坦白,我也应该坦白啊。他不坦白我坦白,我不直接就出来了吗?那傻子到底是关3个月还是2年,关我屁事?反正我们也就是刚见面的网友,以后不见了就是。

想来想去,不管火花选择坦白还是不坦白,你都是坦白比不坦白好,对吧?

不用说,火花的思维过程跟你一样,于是你们两个就都坦白了,各蹲3个月,尽管你们两个都不坦白只需要各蹲半个月。


58#
t54352 发表于 2015-12-2 09:20:13 来自手机 | 只看该作者
如果能举一个例子说明GTO,就更好了。最好是牌例,或具有一定可操作性的深入浅出的说明就更好了,反正我是看不懂太深的理论,就是懂了点点,也联系不到实践。
59#
youngtercel 发表于 2015-12-2 09:41:59 | 只看该作者
RichZhu 发表于 2015-12-2 06:50
囚徒困境是一个模型,自然模型参数的变化对结果会有影响,但参数提取是否合理跟模型是否有效不是一回事情 ...


这个例子好一些,为了达到明确均衡点而引入另外一个变量,也就是大案+小案,这个例子具有现实意义。
我们再构想另外一个例子,假如两个人乘车,遇到了劫匪。假设,

如果你反抗,而同伴没有反抗,你被劫X万元,而同伴被劫Y万元;
如果你们都反抗了,劫匪将被制服;
如果你们都不反抗,每人将被劫5万元。

是否存在明确的均衡点,将严重依赖于X、Y的设置。








60#
luckypanda 发表于 2015-12-2 10:05:08 | 只看该作者
RichZhu 发表于 2015-12-1 17:50
囚徒困境是一个模型,自然模型参数的变化对结果会有影响,但参数提取是否合理跟模型是否有效不是一回事情 ...

一天没看,赫然发现GTO已经延伸到Howard去蹲牢房了。
您需要登录后才可以回帖 登录 | 注册

本版积分规则

手机版|Archiver|智游城论坛

GMT+8, 2024-11-20 23:27 , Processed in 0.045639 second(s), 7 queries , Redis On.

Powered by Discuz! X3.2

© 2001-2012 Comsenz Inc.

返回顶部