智游城

标题: 概率题 [打印本页]

作者: 昆仑苍狼    时间: 2015-6-19 08:35
标题: 概率题
本帖最后由 昆仑苍狼 于 2015-6-19 08:40 编辑

这个题 以前发的 谁会做啊 帮帮忙
这类题我一直不知道怎么做

-------------------------------------------------------------------

有一种彩票 发行量100万枚 我想知道他的中奖概率
我买了 1万张 中了300张
体感概率3%

这个3%的可信度为多少

如果我想测定一个信赖度90%的值
那我至少买多少彩票




作者: 昆仑苍狼    时间: 2015-6-25 14:53
没人会?
作者: Howard    时间: 2015-6-26 00:29
苍狼兄,老汉承诺了好几回都没兑现,惭愧啊

你先给定义一下 可信度/信赖度

作者: Howard    时间: 2015-6-26 00:43
样本数量10000。样本中奖数300

样本标准差:sqrt(10000*0.03*0.97) = 17.06

根据68-95-99.7 经验原则,真实中奖概率的分布如下:

68%的时间里,中奖概率在(300-17.06)/10000, (300+17.06)/10000之间,也就是2.83% - 3.17%

95%的时间里,中奖概率在(300-2×17.06)/10000, (300+2×17.06)/10000之间,也就是2.66% - 3.34%

99.7%的时间里,中奖概率在(300-3×17.06)/10000, (300+3×17.06)/10000之间,也就是2.49% - 3.51%

作者: 昆仑苍狼    时间: 2015-6-26 08:29
本帖最后由 昆仑苍狼 于 2015-6-26 08:38 编辑
Howard 发表于 2015-6-26 00:29
苍狼兄,老汉承诺了好几回都没兑现,惭愧啊

你先给定义一下 可信度/信赖度


够意思!

你这么一说 我也不知道我所谓的可信度是啥了

可信度=95%的时间了 3%的+-10%  2.7%--3.3%(自己定义一个)

看了你的公式 感觉此题简单了许多
不愧是大拿




作者: maomaobiao    时间: 2015-7-16 18:03
本帖最后由 maomaobiao 于 2015-7-16 20:38 编辑

利物浦来到布里斯班,我们休赛一周。翻起以前的教科书,想起这道题。

1. 可信度这个,不知道怎么定义。

2. 置信度90%,大概要从confidence interval入手。


我之前提到,这个区间和实际的中奖率是关联的。举个极端的例子,如果100%中奖,那么你只需要买一张彩票,那么你预测的中奖概率总是100%正确的。可以凭直觉预测,中奖概率越小,想要获得高置信率(小的confidence interval)的统计结果,所需要统计的数量就越大。


那么,是不是说未知中奖概率,就无法知道confidence interval与样本数量的关系呢?也不是,我想了一个笨方法,可以变通一下。把取一组样本数量为2n的统计结果,变成两组样本数量为n的统计结果。这样就可以用到null hypothesis了。以下:


3. 已知一组不连续函数,包含100万个数据,f(y) = {(1,中奖),(0,不中)},那么中奖率就是y的平均值ymean。


第一组5000个(任意一组)认为是真实的反映了这100万个数据,那么其平均值u1=ymean
第二组5000个,假设和第一组是同一组数据中的随机抽取,则u2=u1。这就是null hypothesis。
同时两组的标准差也可以计算出来。用Excel就可以计算对应confidence interval (比如95%,则对应Excel中的alpha = 0.05)下null hypothesis是否成立。

作者: maomaobiao    时间: 2015-7-16 19:46
作了几个简单的模拟,然后又套了几个公式,做了几个替换,发现要使置信度大于95%,至少要数量级相同。好像很可怕啊。
作者: 昆仑苍狼    时间: 2015-7-17 08:27
maomaobiao 发表于 2015-7-16 19:46
作了几个简单的模拟,然后又套了几个公式,做了几个替换,发现要使置信度大于95%,至少要数量级相同。好像 ...

》利物浦来到布里斯班,我们休赛一周


毛毛兄是运动员么

谢谢 毛兄的计算 此题我已经放弃
关于那个 可信度 我自己都不知道我在说什么
作者: maomaobiao    时间: 2015-7-17 08:42
晚上夜班,现在继续。
先用数学描述,简化问题。


有1e6个数,其中n个等于1,其他等于0,则中奖率为这组数的平均值y1=n*e-6。规定0<y<0.05

这1e6个数的平均值(也就是实际中奖率)的数值期望为u1=P(y1)=1,

现在从中取出m个数,m<n,从这m个数观测到的中奖率为这m个数的平均值y2,
这m个数的平均值(也就是观测中奖率)的数值期望为u2=P(y2)。

使用null hypothesis,H: u1=u2
Z=(y1-y2)/sqr(S1^2*1e-6+S2^2/m)
S1和S2分别为中奖率的方差
当置信度为90%,也就是confidence interval 0.9的时候,Z<1.3

求解过程省略一些不太重要的,u2 = P(y2) = y1^(m*y2) * (1-y1)^(m*(1-y2))

停在这里了。方差S1=0好办,方差S2要根据u2的公式推导一下,歇会。

作者: maomaobiao    时间: 2015-7-17 08:43
昆仑苍狼 发表于 2015-7-17 10:27
》利物浦来到布里斯班,我们休赛一周

看火花跑步的帖子,利物浦来了没人踢球了,都去当球迷了。老头们找个借口休息一下阿。

作者: 昆仑苍狼    时间: 2015-7-17 08:50
maomaobiao 发表于 2015-7-17 08:43
看火花跑步的帖子,利物浦来了没人踢球了,都去当球迷了。老头们找个借口休息一下阿。
...

不错不错 加油!



作者: maomaobiao    时间: 2015-7-19 22:15
maomaobiao 发表于 2015-7-16 21:46
作了几个简单的模拟,然后又套了几个公式,做了几个替换,发现要使置信度大于95%,至少要数量级相同。好像 ...

把我做的模拟说明一下。由于数字太大,Excel算不了,要用matlab(也不一定能算),我简化成为
10000个数,300个等于1,其他等于0,取一百个的样本。这里假设了实际中奖率就是3%

那么一百个都为0的概率约为4.76%
一百个中有一个1的概率为14.86%
一百个中有两个1的概率为22.90%
一百个中有三个1的概率为23.22%
一百个中有四个1的概率为17.41%
一百个中有五个1的概率为10.30%
一百个中有六个1的概率为5.01%
一百个中有七个1的概率为2.06%
一百个中有八个1的概率为0.73%
......

那么你取样,只有约23.22%的可能落在“真实”的中奖率(3%)上。测得中奖率为2%-4%的可能性也只不到64%。这说明,当实际中奖率是一个小概率(<5%)事件时,要靠取样测得实际中奖率是多么不靠谱的一件事。

但是,当实际奖池和取样的样本数量都同比增加的时候,命中率却开始上升了。

20000个数,600个等于1,其他等于0,取200个样本
恰好6个中奖的概率为16.91%,貌似是降低了。但是测量为2%-4%中奖率的情况(也就是有4个到8个中奖)可能性上升到了73%左右。

所以,这么看来,也许100万里取1万个,测量中奖率(+/-1%)的可靠性有可能是非常高的。





欢迎光临 智游城 (http://zhiyoucheng.co/) Powered by Discuz! X3.2