就“风险”系列文章对dfu2012兄的回复

Howard · 发表于 2012-5-1 02:20:29

dfu2012兄，才如泉涌，下笔如飞。兼具发散性思维和朦胧派诗人之特长，我端的佩服。

好好看了一下仁兄最近几天的帖子，虽然发散，但好像也总结出来一点，可能是你的主旨，我转述如下

问题4：德州扑克真正的风险在哪里？
德州扑克的真正风险在于你的对手

把对风险的理解构建在历史的统计数据而得出的方差的结果之上，而不是对自己的了解或者对手的了解，这不是最大的风险是什么？

简单说，老霍从历史数据经过统计分析后的方差来了解自己的风险度，而我以为，我对我自己以及我的对手是否了解的透彻才是最大的风险。

我想说明如下：

我提出方差，是为了衡量风险，而不是说“风险来自于方差”。方差只是衡量手段。

您说，“风险来自于对手”。这是显然的，我当然也同意。不光最大的风险来自于对手，最大的利润，一般的风险，一般的利润，全都来自于对手。没有对手，就没有一切。

张国荣摔死了，他的风险，直接来自于40米的高度，间接来自于他的抑郁症和感情波折。但是，米作为长度单位，不能算作他的风险。

鞍山钢厂的工人被烫伤了，他们的风险，直接来自于钢水的1600C高温，间接来自于不安全操作和忽略的规范。但是，归咎于帕斯卡（还是其他人？）发明的温度单位，似乎不合适。

我当然也不是那个认为米和C是风险的人。

但是，仍然可以用米和C做预测。下一个高空坠落者，如果从1米，我估计他没什么事，除了要扭脚；3米，就要有残疾的危险但还要不了命；20米以上，除非奇迹否则性命难保。

方差就是个客观衡量单位。有了历史数据，它就是客观的存在。使用方差测量风险就跟使用米去衡量高度一样，量对了就有意义，量错了当然是有害的。

比如，100米的高空，你用了一把错误的尺子，说只有1米。跳下去，当然杯具。

你举得扑克例子，说我跟墙到了澳门，波动如此之大，远远超出以往的若干西格玛。这是当然的，对手换了，方差能不换吗？属于用了错误的尺子。以此归咎于长度本身，似乎逻辑不通。

如果在澳门，我们跟这个“危险的对手”交战了1年，那么这1年的历史数据，就足够提供风险衡量所需要的精度。只要对手不变，资金不变，大环境也差不多，完全有可能预测，下一个session的输赢有68%在一个西格玛内，95%在两个西格玛内。

所以咱们有点各说各话的意思。风险主要来自于对手，方差是衡量风险的手段。你说前一句，我说后一句。两句都对，但是前面的不否定后面的。

但还是有点区别。

你那一句，风险主要来自于对手，一个牌手即使了解了（也不太可能不了解这大白话），不能给现实提供什么应对手段，因为这难以量化，难以转变成对资金管理，甚至技术层面的有效指导。

方差是衡量风险的手段，却可以量化，算出准备多少资金和破产率的关系。不完全准不要紧，要的是尽量准。

dengxianqi · 发表于 2012-5-3 22:54:54

dfu2012 发表于 2012-5-3 22:41
历史数据计算出来的方差，其正态分布一定会覆盖所有的历史数据。
我犯了很明显的逻辑错误。

我喜欢你的这种讨论态度！哈~

犯错谁都会有啊，不讨论怎么知道自己犯了错？老霍肯定也犯错，下次你来揪出来，哈

dfu2012 · 发表于 2012-5-3 22:41:47

Howard 发表于 2012-5-3 21:05
赞同楼上maomaobiao的话。简单道理足够了。

德芙兄的51楼回复，重点加粗了一句话“西格玛这个东西会带来极 ...

历史数据计算出来的方差，其正态分布一定会覆盖所有的历史数据。
我犯了很明显的逻辑错误。

也可见，我之前的很多地方必定有类似的逻辑错误，所以不仅仅是思维点不同造成彼此的交流困难，某种程度也是我的无知和逻辑混乱造成这种状况。

本不想回这贴了，想想论坛高人无数，发现这个问题的很可能不只你一个，特回帖，感谢你的指正。

Howard · 发表于 2012-5-3 21:05:12

赞同楼上maomaobiao的话。简单道理足够了。

德芙兄的51楼回复，重点加粗了一句话“西格玛这个东西会带来极大的风险错觉”。我还是那句话：西格玛是个度量单位而已，怎么会带来错觉？你只说会带来，但怎么带来？

而且德芙兄用dengxianqi的数据本身，就得出西格玛带来风险错觉的结论，我也看不懂。请问您是怎么根据这个图形算出西格玛，以至于说他偏离中心的程度偏高的？

如果根据这些数据，构造一个正态分布函数的话，那么西格玛的值就是能保证大约“3个西格玛外千分之三”的那个值。这是西格玛的定义。您的话，等于是说：邓的数据中，发生概率千分之三的事件发生了远超千分之三。这岂不荒谬？

就好象在没有通用长度单位时，有人定义了米。米的定义是，北极到赤道的一千万分之一。结果定义完了，有人说，米这个概念不行，容易产生长度错觉，北极到赤道长度远超一千万米。我只能说，请这位提问者看一看手里的是不是米尺？

maomaobiao · 发表于 2012-5-3 15:08:58

本帖最后由 maomaobiao 于 2012-5-3 17:13 编辑

dfu2012 发表于 2012-5-2 22:08
图很早就看到了，这贴写的也吃力，本不想再续，想想再啰嗦几句大白话。

从图看，我觉得不是正态分布的形 ...

今天才看到这个回复。应该是精化了。

只是我在想，传达这个概念真的需要这么长的讨论吗？直需一句话：

任何模型都不能完美地表述数据的全貌。

至于使用某个关于风险的模型，是不是本身就带来了“巨大的”风险，我保留。

坐飞机有出意外的风险，但是不能因为风险的后果严重，就说这个风险比开车在高速上行驶出意外的风险要大。

你说的LTCM的例子，姑且不论他们使用的模型是否恰当：但是，不能因为它们损失惨重，就说风险大，说白了就是小概率事件的必然发生，而已。

dfu2012 · 发表于 2012-5-2 20:08:31

本帖最后由 dfu2012 于 2012-5-2 22:55 编辑

dengxianqi 发表于 2012-5-2 00:52
“至少从现象看，德州扑克的盈利结果更像是指数分布。”

我自己记录了自己125个session的输赢结果，刚才 ...

图很早就看到了，这贴写的也吃力，本不想再续，想想再啰嗦几句大白话。

从图看，我觉得不是正态分布的形态。正态分布的精华我想是西格玛的概念，西格玛用来度量风险，离中心偏离的越远，事件发生的几率越低，比如3个西格玛外是（1-99.73%）即千分3。
当然没有真实的正态分布，所以又有了分布中心漂移，不管怎么说，远离中心区域的地方发生几率是非常低的。

我个人认为，如果远离中心区域4个西格玛还有1%的发生几率，那么西格玛对风险的度量就要打个问号，如果远离中心区域6个西格玛还能有1%的发生几率，可以说这个模型是无用的。

注意你图中的远离中心区域的突起，如果样本足够多，会发现很多这样的突起，按西格玛的计算发生几率都会相当低的（很可能比现实有一个甚至几个数量级的差异，这就会低估风险），但却实实在在的发生了，反映在现实里，就是有时候你的下风会输掉40个BUYIN，如果你的西格玛是4个BUYIN的话，那么按正态模型算出来发生的几率是天文数字，但发生了，虽然很少，但还是发生了。

你图中还有很多地方可以值得思考，偏离中心区域左边发生的事件明显多于右边，但右边的事件（注意38那个位置）给你带来12000的收入，这是个低概率事件，但权重不低，而你最大中心值的利润才2万7左右。另外51那个位置还有个2500的收入，权重也不低。

如果把这个方差算出来，然后再算回发生12000收入的事件概率，我相信会远远低于你这图里真实事件本身发生的概率。

这个图有说法的地方还会有，比如样本数量，级别差异等等，但已经很能说明问题。

这个主题讨论了很久，怎么都没个说法，大家各说各的，那么我的主题究竟是什么？

其实从一开始到后来，反复啰嗦的是：西格玛这个东西会带来极大的风险错觉。

资金管理等当然要，简单的原则已经管用，用西格玛的害处是低估风险，

什么是西格玛的低估风险？偏离中心区域5个西格玛，理论上是PPM级别的几率，但是在德州扑克中见不见到？我觉得并不少见，比如连续五十个BUYIN的输赢（假如西格玛是5个BUYIN以下）

DAVID4FUN兄在我那贴关于这个主题回复，我也这里一并说了，LTCM用杠杠是输的原因之一，但不是根本原因，他们用的就是基于西格玛度量的风险模型，比如西格玛告诉他们这个事件发生的机会是亿万分之一，算算期望，OK，投入，他在全球做海量的交易，正是这种由西格玛度量的几乎不可能发生的风险发生了，于是崩溃了，以前也发生过这种小概率，但损失还不伤筋动骨，所以不重视，最后俄罗斯崩溃几十个亿。

低估风险永远比高估风险要危险的多的多，有了西格玛这种复杂的工具，对离散度很高的数据，进行数学加工，便觉得对风险有了更好的认识，可以避免风险。这种风险才是更大的风险。

在很多贴，都反复说这句话：处在巨大的风险之中，还没意识到风险，这才是最大的风险。我这么说更多是从自己的角度出发，未必有什么针对，更可能就是说给自己听的，这话其实有益无害，任何行业任何经历都可以套的上去，说没有用一点用没有，说有用用处很大，关键在时机吧。

一般来说，骄傲的人听不进这句话，没有沉痛经历的也不容易听的进。

补充内容 (2012-5-3 22:20):
惭愧，由历史数据算出来的方差，其正态分布一定能覆盖所有的历史数据。
明显的逻辑错误，唉，没啥说了。

dengxianqi · 发表于 2012-5-2 00:52:10

dfu2012 发表于 2012-5-1 14:10
离散型随机变量模型的应用范围，经济学争论一直很多，这个论题争论下来，将会非常浩大。

我确实没这个能 ...

“至少从现象看，德州扑克的盈利结果更像是指数分布。”

我自己记录了自己125个session的输赢结果，刚才做了个简单图形，
按照500元作为区间，统计每个区间出现的个数，得到附件的图。
这个结果，貌似更像是正态分布。

注：所有数据来源，来自我在北京、上海、广州，澳门的34个不同的场子，
盲注大小涵盖1-2, 2-5, 5-10，10-25, 25-25，25-50，时间跨度将近11个月，
面对的对手千差万别。

Howard · 发表于 2012-5-1 22:28:29

maomaobiao 发表于 2012-5-1 20:47
仅从我获取的有限的信息来看，幂律，也是一种规律和模型，从数据与模型的关系的角度看，幂律和正态分布模 ...

对呀，我说了半天，没有你一句话扎在尾椎骨那么深刻。

既然德芙兄说，风险不可度量，那还幂律干嘛？你把幂律搞出来，且不说我根本不同意它符合什么杨幂绿，你的目的不还是为了度量风险？

到底现在是杨幂 vs 正太，还是可度量 vs 不可度量？

Howard · 发表于 2012-5-1 22:17:51

我得妈妈呀，一觉起来，十几楼盖到了快50楼。maomaobiao兄谢谢你的帖子，你说的仍然基本是我要表达的意思。

我想说的是，德芙兄不必担心你我之间是为了争辩而争辩，咱说的都是就事论事，客观事实，不是争任何主观的东西。更不是前段时间有的争辩贴，到最后都演变成双方都急吼吼的要证明“我牛逼，你傻逼”。我感觉你我之间的这个系列，顶多会稀里糊涂不了了之，不会变成二逼之争的那个样子。这里我必须得夸赞一下德芙的辩品。

这些帖子中，我还是捡着我能看懂（至少自认为看懂）的您的片段来说事。这次我看到您反复强调的一个观点：

牌手的每个SESSION（每手牌）的盈利分布可能是符合幂律分布的，。。。而不是正态分布

（注意上文并不是完全直接引用，经我的改写简化，如曲解了您的意思，请指出）

幂这个字，不跟“杨”连在一起，还真引不起我的兴趣。。。。好吧，假定我们研究每手牌的盈利分布。（其实fullring的每圈牌的盈利分布更合适，因为不同位置的盈利分布显然是不同的）幂律不就指数分布吗？指数分布接近零时无穷大，接近正无穷时则无穷小。而每圈牌的盈利，大部分是很小的输赢，比如丢了个盲注；只有少数，才是清了别人翻倍或者3倍；或者被别人清，一下变0。这样中间大，两头小的形状，更像正态分布的钟型图，而不是一头大一头小单调递减的指数分布。

当然，这个分布跟正态分布的差异也很大。那么它到底是什么分布呢？数学上恐怕没有一个专有名词来描述它。不过，无法描述、我们知之甚少的分布并不代表着我们无法研究它。事实上，正态分布正是研究它的利器。且听我慢慢将来。

我们想一想，我们最关心的扑克的风险到底是什么？一手牌（一圈牌）的输赢吗？不是，是连续的这些手（圈）牌的盈利之和。所谓下风期，上风期，不就是连输、连赢吗？我们就是要找出这些小概率的连赢、连输事件的发生频率，以及到底能连赢、连输多少钱（更关心连输，因为涉及破产）。

那么，既然一圈牌的盈利是一个我们没有充分了解的奇怪分布（非幂律、非正太、非均匀、非一切数学书中的专有名词），很多圈牌之和，它们的分布，岂不是更神秘，更多变量，我们更无法研究了吗？

解决问题的关键就在所谓“中心极限定理”。定理内容是：“独立同分布、且数学期望和方差有限的随机变量序列的标准化和以标准正态分布为极限”。

翻译成人类的语言，是说：大量随机变量之和近似服从正态分布，甭管你这些变量本身是什么分布的。幂律也好，均匀也好，还是自己就已经正态了也好，他们加起来，就是正态分布。实验次数越多，近似程度越高。

中心极限定理的发现，最初是因为人们研究二项分布。所谓二项分布，就是抛硬币。硬币未必是公正的，正面向上的次数为p，抛的次数为n。则参数为n, p的二项分布以np为均值、np(1-p)为方差的正态分布为极限。n越大，越近似正态分布。n超过20，其分布已经很像正态了，超过几千几万，那简直就是像得不得了。

换句话说，你抛1000次，如果硬币均匀，那正面出现的次数是以500次为中心，西格玛为16左右的一个钟形曲线。其完美程度，会让你觉得，这本身就是标准正态分布。

再后来，人们发现，不光是二项分布，任何的分布，只要是试验次数多了，它们的和都接近于正态分布。

比如，60岁以上的人，每年内平均死亡概率大概是3%。人寿保险公司给1百万个这样的人上了保险，它要关心的是：明年死亡的人总数是多少？因为1百万足够大，所以这个死亡总数，也是个完美正态分布，高度可预测。西格玛又粉墨登场。你说，61岁死亡可能1%, 78岁却高达10%，90岁高达20%，你那个平均3%都没考虑到人年龄的不同，更何况人还有抽烟喝酒得癌症的，还有天天泡妞跑马拉松的，最大的风险来自于个人习惯，用西格玛是错误的。。。。。。这都没事儿，只要我有100万人就行，它就中心极限了，就正太了。

举个扑克的例子，某人一小时的扑克成绩，是这样的一个分布：20%的情况赢100，30%的情况在（-50，50）之间均匀分布，50%的情况输（-1000，-800）之间的指数分布。这是个奇形怪状的，不可用数学语言来描述的怪异分布。但即使这样的分布，也没关系，只要每个小时的分布都是这个样子，此人打1000个小时后的分布，就非常接近于正态分布，且均值、方差均可得知：1000u, sqrt(1000)*sigma

中心极限定理是已经证明的数学定理。（顺便说一下，数学定理是可证明的；物理定理只能区分为两类：已经找到反证和尚未找到反证的，不能证明。）证明过程虽然不长，但要用到比较高的数学技巧，我就不贴公式了。链接：http://en.wikipedia.org/wiki/Central_limit_theorem

中心极限定理的完美之处就在于，你不必再拘泥小随机变量的分布的形状，只要这些小变量都是同分布的，甚至近似同分布的，则他们的和就是正态，概莫能外。

如果打扑克，考虑对手的不同，心态的变化，致使每手牌、每个小时、每天等不能再看成完美的同分布随机变量。但正态分布和中心极限定理仍然有巨大的实用度：我过去一年，大概是赢2/3的session，平均每session盈利400，session标准差900；那么明天对同样的一波对手，在同样的赌场，我差不多的心态，我仍然可以做出如下预期：我有2/3的可能是赢家，盈利是以400为中心，大概有68%的可能是（400-900，400+900)，有95%的可能是（400-1800，400+1800）

maomaobiao · 发表于 2012-5-1 20:56:12

maomaobiao 发表于 2012-5-1 22:47
仅从我获取的有限的信息来看，幂律，也是一种规律和模型，从数据与模型的关系的角度看，幂律和正态分布模 ...

补上数据和观测尺度的关系，以及观测尺度对于概率应用范围的影响。注意图中坐标轴的变化，三个图用的是同一组数据，Excel自带的随机生成函数，姑且认为是“随机数”。

对于这样的数据，你认为它是一个点，一团杂乱无章的点，还是一个有规律的pattern，完全取决于你的高度。

希望对大家理解我的话有一个直观的帮助和感性的认识。

		自动登录	找回密码
密码			注册

就“风险”系列文章对dfu2012兄的回复

本帖子中包含更多资源

本帖子中包含更多资源

客服中心

投诉建议