智游城

标题: 恒星距离引发的疑案 [打印本页]

作者: Howard    时间: 2015-6-5 02:43
标题: 恒星距离引发的疑案
今天中午正在吃午饭,不知为什么,我突然想起恒星距离的话题。仅在银河系,就有一千亿颗以上的恒星,而最近的恒星到我们也有4光年多,算成英里那得数不清多少零了。

由此又想到,在晴朗的夜空随便指一颗恒星,其跟地球的距离大概是高度随机的,因为恒星距离地球横跨若干个数量级,最近的几光年,而银河系有十万光年尺度。就算不理会其河外星系,这随机度也足够了,至少够我下面这个实验:

这实验测定该恒星和地球距离,用英里来表述,则此数字的最高位,感觉应该是个纯随机数,在1-9之间均匀分布。 这结论应该没什么问题,你凭啥说3百亿多英里就多于或者少于6百亿多英里的

或者,再加一个前提,假设宇宙所有恒星均可见,这样就避免了“可视范围太窄”这样的非数学因素捣乱。

这结论出来后,再把这星地距离从英里换算为公里,就很有意思。

英里乘以1.6得到公里数,这大家都知道。

最高为9/8/7和部分6开头的英里数,换算为公里之后,其最高为都变成了1
比如,7亿英里变成11.2亿公里。

如果英里数的最高位(以下简称m)是1-9均匀分布,那么公里数的最高为(以下简称k)就不是均匀分布了,而且差别很大。
k是1的概率,远高于是其他任意一个数字的概率

这显然是荒谬的。因为英里和公里在这里是人工随便选择的,并不具有特殊意义,按照上述逻辑,如果我一上来就用公里测量的话,k就是应该符合1-9均匀分布的哪一个。

问题出在哪里?

后来我找到了本福特定律也叫首位数定律


作者: 蓝色的海龟    时间: 2015-6-5 06:51
很有意思。问题出在哪呢?怎么就收敛了呢?直觉上这是智商140 的分界线。和霍爷开个玩笑,该不是题做多了,自己给自己出题了,当然下意识的还要有完美的解答。
作者: muyir    时间: 2015-6-5 08:41
看到第一段,莫名想到了big bang里各种食堂的镜头,恩,里面也有一个howard
作者: snowsnow    时间: 2015-6-5 18:09
本帖最后由 snowsnow 于 2015-6-5 18:22 编辑
蓝色的海龟 发表于 2015-6-5 06:51
很有意思。问题出在哪呢?怎么就收敛了呢?直觉上这是智商140 的分界线。和霍爷开个玩笑,该不是题做多了, ...

很有意思。问题出在哪呢?怎么就收敛了呢?直觉上这是智商140 的分界线。
----------------------------------------
IQ 130, 3/1000
IQ 140, 3/10,000
...
IQ 180, 3/100,000,000




美国2000个连环杀人犯, IQ 70-  -- 180+。
有好几个IQ 140 -- 180+的。
2000个普通人大约1个智力140。
IQ 180, 一亿人中只有3个

能解这题的人智力140
妥妥的

有SB说日本人平均智力130, 那是外星人吧,



作者: Howard    时间: 2015-6-5 23:40
问题就出在 “高位1-9均匀分布”这个假定上。事实上并不是均匀分布的

所有恒星到地球距离,用英里来表示,其高位分布大概是这样的:
[attach]5036[/attach]

1打头的最多,2打头次之,直到9打头的最少。

这个分布叫做本福特定律。符合本福特定律的分布牛逼在这么几个地方:

1. 单位无关。 无论你把英里换成公里、里、毫米、英尺、码、英寸、光年、一乍、一步、一根黄瓜、一头发丝,它都不会改变。

2. 不光恒星距离符合本福特分布,很多(但不是全部)现实生活中的数据的首位,都符合本福特分布。比如:纽约股市内所有股票价格,所有国家人口、所有人钱包里的钱数、人体内细菌数、商场内所有销售金额、一本科技杂志里面出现的所有数字,等等

符合本福特定律的数据,要求要跨至少几个数量级。如果就绝大部分都集中在一个数量级,那就不行。
比如成年人身高,用米的话基本都是1,用英尺基本都是4到6
再比如智商,一半的人都是1
再比如考试分数,100满分的话,绝大多数人都是两位数,首位会集中在5-9

3. 符合本福特定律的数据,貌似他们并不需要有特定的分布,比如恒地距离,你说它是什么分布,也不均匀也不指数,还成团的,一个星系在的地方会有大量恒星,星系之间则大范围空白

4. 本福特定律可以用于测定一组数据是否造假。因为人类造“随机数”的能力很差,你让他随机编造一组理应符合本福特定律的数据,他会倾向于把首位数弄的类似均匀分布,就像我在1楼自己直觉想象的那样。如果你观察到高位为1居然只有10%,那这组数据多半为人造

作者: yoking    时间: 2015-6-6 06:00
那么好的科普贴,版主还不出精。
作者: donot    时间: 2015-6-6 06:04
首位数不是随机分布的,末位数是。如果是十进制,首位数与单位无关。
作者: 小胖    时间: 2015-6-6 08:00
老霍打个酱油都这么高深。
作者: Howard    时间: 2015-6-10 00:53
本福特定律的数学表达是:

一堆符合本福特定律的数字,其最高为数字为d,则d出现的概率满足:
P(d) = log(d+1) - log (d)
注:log 以10为底

这什么意思呢?也就是说,最高位的概率满足对数尺度的均匀分布。或者再说开了,也就是说所有的数据都满足对数尺度的均匀分布。

什么叫对数尺度?可能大家看股市走向是接触最多。下面道琼斯近30年来的图形。第一个是正常尺度,第二个是对数尺度:
[attach]5044[/attach][attach]5045[/attach]

在正常尺度下,显示的是绝对数值的变化,所以前期股市的波动都变得无限小,后面的波动现得很大。
而对数尺度下,股市从100点到150点,其变化看起来跟10000点到15000点一样的规模。

对数尺度在数轴上的表示是这样的:
[attach]5046[/attach]

如果把恒地距离、股市指数等数据标注在这个数轴上,应该是大致均匀分布的。

作者: Howard    时间: 2015-6-10 01:00
本帖最后由 Howard 于 2015-6-9 21:58 编辑

本福特定律不仅可以预测最高为,还可以预测第二位。

上贴的式子提到,一堆符合本福特定律的数字,其最高为数字为d,则d出现的概率满足:
P(d) = log(d+1) - log (d)
注:log 以10为底

其实,把最高位d换成数字本身n,一样成立。
P(n) = log(n+1) - log (n)

这样,我们就可以计算第二位数字的出现频率。

比如,“2”出现在首位的概率是17.6%,那么2出现在次位的概率是多少?
2出现在次位,首位可以是1到9
所以只需计算前两位是12、22、32.。。。。。92的概率,加起来就行了

log(13)-log(12)  + log(23)-log(22)  + .....  + log(93) - log(92) = 0.109

第二位可以取0,所以有10种可能,如果平均分布是0.1

可见次位的分布就均匀的多了。到了末位,基本就跟7楼说的一样,均匀分布了。
作者: haoqianruhaose    时间: 2015-6-10 11:46
跪拜数学大神
作者: wzq    时间: 2015-6-10 14:58
如果陈景润全职打扑克,那会是啥样,还不得搞出个德州布拉夫猜想。
作者: snowsnow    时间: 2015-6-12 01:33
本帖最后由 snowsnow 于 2015-6-12 01:37 编辑
wzq 发表于 2015-6-10 14:58
如果陈景润全职打扑克,那会是啥样,还不得搞出个德州布拉夫猜想。

从不知道他研究的那个猜想有啥NB的。

数学大师丘成桐: 没谁认为哥德巴赫猜想是皇冠上的明珠。


作者: snowsnow    时间: 2015-6-12 01:50
本帖最后由 snowsnow 于 2015-6-12 01:52 编辑
snowsnow 发表于 2015-6-12 01:33
从不知道他研究的那个猜想有啥NB的。

数学大师丘成桐: 没谁认为哥德巴赫猜想是皇冠上的明珠。

当然他水平很高,
好比我们就知道常用几千个汉字,
据砖家说汉字有30万个(?),好些只有专家认得,

作者: ulala    时间: 2015-6-13 00:33
donot 发表于 2015-6-6 06:04
首位数不是随机分布的,末位数是。如果是十进制,首位数与单位无关。

末位数也不是随机分布的

作者: ulala    时间: 2015-6-13 01:13
Howard 发表于 2015-6-10 01:00
本福特定律不仅可以预测最高为,还可以预测第二位。

上贴的式子提到,一堆符合本福特定律的数字,其最高为 ...

挑个骨头,可以推论第n位数字为某个数的概率随着n的增大会变得越来越符合均匀分布,但是不能说末尾数位某个数字的概率也是符合均匀分布的。末位数所在的位数不是固定的啊。

比如说末尾数为1的概率应该是 Pn(1) * Pd(1, 1) + Pn(2) * Pd(2, 1) + Pn(3, 1) * Pd(3) + Pn(4) * Pd(4, 1)... + Pn(x) * Pd(x, 1),其中Pn(n) 是一个数的位数为n的概率,Pd(m, n)指的是一个数第m位为n的概率,x是所考虑的数的最大位数。


如果所考虑的数的位数非常大,那各个数字在末位的概率可能差别还不是很大,否则的话,其差别可能还是很明显的(未经验证)。


从另一个角度说,Howard提出的对首位数的悖论对末位数也一样成立不是?




欢迎光临 智游城 (http://zhiyoucheng.co/) Powered by Discuz! X3.2