本小节将通俗的讲解一下什么叫做分布,它能干什么?还会讲解离散数据常见的几种分布,以及它们能做什么!
本文来自于:猴子:一文读懂概率分布
1.分布
1.1 分布的概念
一组数据在统计图中的形状,叫做它的分布。
1.2 概率分布
概率分布 = 数据类型+其分布
通俗一点:概率分布就是在统计图中表示概率,横轴是数据的值,纵轴是横轴上对应数据值的概率。
我们主要是关心不同的数据类型:根据数据类型的不同,概率分布分为两种:离散概率分布,连续概率分布。
那么,问题就来了。为什么你要关心数据类型呢?
因为数据类型会影响求概率的方法。
对于离散概率分布,我们关心的是取得一个特定数值的概率。例如抛硬币正面向上的概率为:\(P(x=正面)=\frac{1}{2}\)
而对于连续概率分布来说,我们无法给出每一个数值的概率,因为我们不可能列举每一个精确数值,我们只能例举一个区间。
例如,你在咖啡馆约女神出来,为了给女神留下好印象,你提前到了。你估计女神会在5分钟之内出现,有可能是在4分钟10秒以后出现,或者在4分钟10.5秒以后出现,你不可能数清楚所有的可能时间,你更关心的是在女神出现前的1-5分钟内(范围)。如果你知道了女神大概在这个时间内出现,你就可以把发型重新整理下(虽然你因为加班头发 已经秃顶了,但是发型不能乱),从而给女神留个好印象。所以,对于像时间这样的连续型数据,你更关心的是一个特定范围的概率是多少。
1.3 概率分布的作用
当统计学家们开始研究概率分布时,他们看到,有几种形状反复出现,于是就研究他们的规律,根据这些规律来解决特定条件下的问题。那么记住概率里这些特殊分布的好处就是:下次遇到类似的问题,你就可以直接套用“模板”(这些特殊分布的规律)来解决问题了。
举个例子:假如你当年为了备战高考,你为自己准备了一个自己的“万能模板”。那么当任何作文题目过来,你都可以套用该模板,快速解决作文这个难题。
2.离散数据常见的几种分布
2.1 二项分布
(a)二项分布的作用
当你遇到一个事情,如果该事情发生次数固定,而你感兴趣的是成功的次数,那么就可以用二项分布的公式快速计算出概率来。
比如:你买了五张彩票,那么每张彩票的结果就两种,一个是中奖一个是不中奖对吧,如果你现在想知道这五张彩票能中奖三张的概率是多大,那就可以用二项分布来解决!
(b)如何判断是不是二项分布?
做某件事的次数(也叫试验次数)是固定的,用n表示。
每一次事件都有两个可能的结果(成功,或者失败)
每一次成功的概率都是相等的,成功的概率用p表示
你感兴趣的是:成功x次的概率是多少
(c)公式
\[p(x) = C_{n}^{x} p^x(1-p)^{n-x}\](d)举个例子
还是上面的假设:你买了五张彩票,那么每张彩票的结果就两种,一个是中奖一个是不中奖,每张彩票的中奖概率都为0.1,则你买的五张彩票里面中奖三张的概率为:\(C_{5}^{3}(0.1)^3(1-0.1)^2 = 0.0081\)
哈哈哈,可以看到,概率已经非常小了,所以买彩票要慎重哦!
这里想在提一嘴关于“信息量”的概念,信息量的大小是和概率有关系的。某件事儿发生的概率越大,如果它发生了,那么其信息量越小。某件事儿发生的概率小,且它发生了,那么信息量就很大。还是上面的例子,我们已经知道你买5张彩票中奖三张的概率非常小,但是假如,你小子中奖了!那这件事情的背后就会有非常大的信息量,比如“你是个彩票老手、日以继夜观察彩票的走势、你内部有人(狗头)” ,这些东西就是所谓的信息量。(当然,目前信息量这个东西你还用不到,后续机器学习会有这种概念!)
(e)期望和标准差
二项分布的期望:\(E(x) = np\) 比如,你已经知道了每张彩票中奖的概率是0.1,然后你买了5张,则期望值为0.5的意思是说:如果你买了五张彩票,大概会有0.5张能中奖!哈哈哈哈
二项分布的标准差:\(\sigma(x) = (np(1-p))^{\frac{1}{2}}\) 标准差的含义是:偏离期望的波动,比如:上面的例子计算的标准差应该为0.67082,那么代表说如果你买了五张彩票,大概会有0.5\(\pm0.67082\)张能中奖
2.2 几何分布
(a)几何分布的作用
几何分布和二项分布非常像,具体来说:如果你需要知道尝试多次能取得第一次成功的概率,那就需要几何分布。注意它与二项分布的区别,二项分布是尝试n次成功x次的概率,几何分布是第x次是第一次成功的概率。
(b)如何判断是不是几何分布?
做某件事的次数(也叫试验次数)是固定的,用n表示。
每一次事件都有两个可能的结果(成功,或者失败)
每一次成功的概率都是相等的,成功的概率用p表示
你感兴趣的是,进行x次尝试这个事情,取得第1次成功的概率是多大
(c)公式
\[p(x) = p(1-p)^{x-1}\](d)举个例子
你表白你的暗恋对象,你希望知道要表白3次,心仪对象答应和你手牵手的概率多大。
比如:你每次成功的概率是0.5,然后你想看看第三次表白女神和你牵手的概率有多大:那就是\(p(x) = 0.5(1-0.5)^2 = 0.125\)。从这个例子可以看出,如果你第一次表白人家还没答应你,后面答应你的概率就越来越小了哦!!!
(e)期望和标准差
几何分布的期望:\(E(x) = \frac{1}{p}\) 比如,你已经知道了每次表白成功的概率是是0.5,那么期望值为:2,代表的意思是说,你大概要表白两次可能女神会答应和你牵手手哈哈哈。所以你可以期望自己表白于2次会成功。这样的期望让你信息倍增,起码你不需要努力上100次才能成功,2次还是能做到的,有必要尝试下。
几何分布的标准差:\(\sigma(x) = \frac{1-p}{p^2}\)
2.2 泊松分布
(a)泊松分布的作用
如果你想知道某个时间范围内,发生某件事情x次的概率是多大。这时候就可以用泊松分布轻松搞定。
(b)如何判断是不是泊松分布?
事件是独立事件(即每件事情发生的概率互相不影响)
在任意相同的时间范围内,事件发的概率相同
你想知道某个时间范围内,发生某件事情x次的概率是多大
(c)公式
\[p(x) = \frac{u^x e^{-u}}{x!}\]u代表给定时间范围内事情发生的平均次数
(d)举个例子
例如你搞了个促销抽奖活动,只知道1天内中奖的平均个数为5个,你想知道1天内恰巧中奖次数为7的概率是多少?
此时x=7,u=5(区间内发生的平均次数),代入公式求出概率为0.1044 , 这个活动还有搞头,不至于赔钱!
(e)期望和标准差
泊松分布的期望:\(E(x) = u\)
泊松分布的标准差:\(\sigma(x) = u\)
3.下节预告
- 分布函数是什么鬼?有什么用?
- 概率密度函数是什么?如何通俗理解?