本文想通俗的告诉大家,什么叫做离散型数据,什么叫做连续型数据以及随机变量的本质到底是什么!
本文参考如下:
1.数据类型
1.1 离散数据类型
离散数据根据名称很好理解,就是数据的取值是不连续的。例如掷硬币就是一个典型的离散数据,因为抛硬币的就2种数值(也就是2种结果,要么是正面,要么是反面)。那么抽象成数学语言如下Define1:
- Define1:如果一个随机试验样本空间\(S\)中的元素为有限个或者为可列个(与自然数集N有一个一一对应关系,这是实分析的内容),则这些元素就是离散的.
那么为了更好的理解离散数据,我们可以举一个小例子:可以把离散数据想象成一块一块垫脚石,你可以从一个数值调到另一个数值,同时每个数值之间都有明确的间隔。如下图
1.2 连续数据类型
连续数据与离散数据正好相反,它能取任意的数值。例如时间就是一个典型的连续数据1.25分钟、1.251分钟,1.2512分钟,它能无限分割。连续数据就像一条平滑的、连绵不断的道路,你可以沿着这条道路一直走下去。
2.随机变量
随机变量的本质是一个实值函数,它是样本空间到实数R的一个映射,它可以随机获取任何值,并且获取到的值都有对应的一个概率。我们用X来表示随机变量,x表示随机变量的取值,P(X=x) = p(x)表示随机变量X取x时的概率值
《概率导论》中讲到:“对于样本空间中每一个可能的结果,都关联着一个特定的数,这种试验结果与数的对应关系形成一个随机变量。”所以随机变量是试验的样本空间映射到实数域的一个实值函数。
2.1 一个小例子
如果我们掷5个硬币,请回答以下问题:
- 问题1:获得3个正面的概率是多少?
- 问题2:获得少于4个正面的概率是多少?
- 问题3:获得超过1个正面的概率是多少?
我们求解上述问题概率的一般方式是: P(抛硬币5次时恰好获得3个正面的概率) P(抛硬币5次时少于4个正面的概率) P(抛硬币5次时获得超过1个正面的概率)
现在我们使用随机变量来表示上述问题,那么我们将编写:
\[P(X=3) , P(X<4) , P(X>1)\]其中X 表示 抛硬币获得正面的次数。
正如我们在上面看到的,随机变量使我们更容易量化任何随机过程的结果,并将结果应用于数学并执行进一步的数值计算,毕竟如果不量化,“硬币正面” 这样的描述是无法进行科学计算的。
2.2 随机变量X和代数中的变量x有何区别?
假设代数中使用的变量为x,y,z。在这里,x可以是手机的数量,y = 正面的数量 或z =学生数。变量只是代表未知数字的字母字符。
例如: x + 5 = 10 x是其值未知的变量,我们正在尝试查找其值。 评估后,x = 5。
随机变量不同于代数中的变量,因为它具有一组完整的值,并且可以随机获取任何值。代数中使用的变量一次不能具有多个值。
如果随机变量X = {0,1,2,3} 那么X可以是随机的0、1、2或3,其中每个都有不同的概率。
3.下节预告
- 通俗理解分布的概念以及三种常见离散型随机变量的分布
文档信息
- 本文作者:Zimo Li
- 本文链接:https://lizimo-n.github.io///2024/04/11/%E6%A6%82%E7%8E%87%E8%AE%BA-%E9%9A%8F%E6%9C%BA%E5%8F%98%E9%87%8F/
- 版权声明:自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)