【数理统计】2-随机变量及其概率分布


一、随机变量的定义和分类

定义:随机变量是指在随机试验中取不同数值的变量。

  1. 类别型随机变量(Nominal)

    • 例子:性别(男、女),职业(公务员、企业员工、学生、退休、失业),检验结果(阴性、阳性)
  2. 有序类别型随机变量(Ordered)

    • 例子:态度(非常赞同、赞同、中立、反对、非常反对),使用频率(每周一次、每两周一次、每半年一次、几乎不、从未)
  3. 数值型随机变量

    • 例子:年龄(13、14、15、16……),收入(可以填任何值)

二、离散概率分布

2.1 二项分布 (Binomial Distribution)

  • 定义:描述在 n n n 次独立试验中成功 k k k 次的概率,每次试验成功的概率为 p p p
  • 公式 X ∼ Bin ( n , p ) X \sim \text{Bin}(n, p) XBin(n,p)
  • 概率质量函数 (PMF) P ( X = k ) = ( n k ) p k ( 1 − p ) n − k P(X = k) = \binom{n}{k} p^k (1-p)^{n-k} P(X=k)=(kn)pk(1p)nk
  • 累积分布函数 (CDF) F ( X = k ) = ∑ i = 0 k ( n i ) p i ( 1 − p ) n − i F(X = k) = \sum_{i=0}^{k} \binom{n}{i} p^i (1-p)^{n-i} F(X=k)=i=0k(in)pi(1p)ni

2.2 伯努利分布 (Bernoulli Distribution)

  • 定义:描述一次试验中成功(或失败)的概率,成功的概率为 p p p
  • 公式 X ∼ Bern ( p ) X \sim \text{Bern}(p) XBern(p)
  • 概率质量函数 (PMF) P ( X = x ) = { p if  x = 1 1 − p if  x = 0 P(X = x) = \begin{cases} p & \text{if } x = 1 \\ 1 - p & \text{if } x = 0 \end{cases} P(X=x)={p1pif x=1if x=0
  • 累积分布函数 (CDF) F ( X = x ) = { 0 if  x < 0 1 − p if  0 ≤ x < 1 1 if  x ≥ 1 F(X = x) = \begin{cases} 0 & \text{if } x < 0 \\ 1 - p & \text{if } 0 \leq x < 1 \\ 1 & \text{if } x \geq 1 \end{cases} F(X=x)= 01p1if x<0if 0x<1if x1

2.3 几何分布 (Geometric Distribution)

  • 定义:描述第一次成功前失败次数的概率,每次试验成功的概率为 p p p
  • 公式 X ∼ Geom ( p ) X \sim \text{Geom}(p) XGeom(p)
  • 概率质量函数 (PMF) P ( X = k ) = ( 1 − p ) k p P(X = k) = (1-p)^k p P(X=k)=(1p)kp
  • 累积分布函数 (CDF) F ( X = k ) = 1 − ( 1 − p ) k + 1 F(X = k) = 1 - (1-p)^{k+1} F(X=k)=1(1p)k+1

2.4 负二项分布 (Negative Binomial Distribution)

  • 定义:描述达到第 r 次成功之前失败的次数,每次试验成功的概率为 p p p
  • 公式 X ∼ NegBin ( r , p ) X \sim \text{NegBin}(r, p) XNegBin(r,p)
  • 概率质量函数 (PMF) P ( X = k ) = ( k + r − 1 k ) p r ( 1 − p ) k P(X = k) = \binom{k + r - 1}{k} p^r (1-p)^k P(X=k)=(kk+r1)pr(1p)k
  • 累积分布函数 (CDF) F ( X = k ) = ∑ i = 0 k ( i + r − 1 i ) p r ( 1 − p ) i F(X = k) = \sum_{i=0}^{k} \binom{i + r - 1}{i} p^r (1-p)^i F(X=k)=i=0k(ii+r1)pr(1p)i

2.5 超几何分布 (Hypergeometric Distribution)

  • 定义:描述在不放回抽样的情况下,从有限总体中抽取 n n n 次,成功 k k k 次的概率。
  • 公式 X ∼ Hypergeom ( N , K , n ) X \sim \text{Hypergeom}(N, K, n) XHypergeom(N,K,n)
  • 概率质量函数 (PMF) P ( X = k ) = ( K k ) ( N − K n − k ) ( N n ) P(X = k) = \frac{\binom{K}{k} \binom{N-K}{n-k}}{\binom{N}{n}} P(X=k)=(nN)(kK)(nkNK)
  • 累积分布函数 (CDF) F ( X = k ) = ∑ i = 0 k ( K i ) ( N − K n − i ) ( N n ) F(X = k) = \sum_{i=0}^{k} \frac{\binom{K}{i} \binom{N-K}{n-i}}{\binom{N}{n}} F(X=k)=i=0k(nN)(iK)(niNK)

2.6 泊松分布 (Poisson Distribution)

  • 定义:描述在单位时间内发生 k k k 次事件的概率,事件发生的平均速率为 λ。
  • 公式 X ∼ Poisson ( λ ) X \sim \text{Poisson}(\lambda) XPoisson(λ)
  • 概率质量函数 (PMF) P ( X = k ) = λ k e − λ k ! P(X = k) = \frac{\lambda^k e^{-\lambda}}{k!} P(X=k)=k!λkeλ
  • 累积分布函数 (CDF) F ( X = k ) = e − λ ∑ i = 0 k λ i i ! F(X = k) = e^{-\lambda} \sum_{i=0}^{k} \frac{\lambda^i}{i!} F(X=k)=eλi=0ki!λi

2.7 它们之间的关系

  • 伯努利分布是一个特殊的二项分布,当 n = 1 n = 1 n=1 时。
  • 几何分布是第一个成功之前所需试验次数的分布,可以看作是二项分布的延伸。
  • 负二项分布可以看作是几何分布的推广,用于描述进行r次成功前需要的失败次数。
  • 超几何分布类似于二项分布,但适用于有限总体和不放回抽样。
  • 泊松分布二项分布的极限情况,当 n n n 很大且 p p p 很小时,并且 λ = n p \lambda = np λ=np 保持恒定。

三、连续概率分布

3.1 指数分布 (Exponential Distribution)

  • 定义:指数分布是一种连续概率分布,通常用于描述独立事件发生的时间间隔。

  • 公式 X ∼ Exponential ( λ ) X \sim \text{Exponential}(\lambda) XExponential(λ),其中 λ > 0 \lambda>0 λ>0 是速率参数

  • 概率密度函数 (PDF) f ( x ; λ ) = λ e − λ x for  x ≥ 0 f(x; \lambda) = \lambda e^{-\lambda x} \quad \text{for } x \geq 0 f(x;λ)=λeλxfor x0

  • 累积分布函数 (CDF) F ( x ; λ ) = 1 − e − λ x for  x ≥ 0 F(x; \lambda) = 1 - e^{-\lambda x} \quad \text{for } x \geq 0 F(x;λ)=1eλxfor x0

3.2 伽马分布 (Gamma Distribution)

  • 定义:描述等待时间的累积,是指数分布和χ²分布的推广。

  • 公式 X ∼ Gamma ( k , θ ) X \sim \text{Gamma}(k, \theta) XGamma(k,θ),其中 k > 0 k>0 k>0 是形状参数, θ > 0 \theta>0 θ>0 是尺度参数

  • 概率密度函数 (PDF) f ( x ; k , θ ) = x k − 1 e − x / θ θ k Γ ( k ) for  x ≥ 0 f(x; k, \theta) = \frac{x^{k-1}e^{-x/\theta}}{\theta^k \Gamma(k)} \quad \text{for } x \geq 0 f(x;k,θ)=θkΓ(k)xk1ex/θfor x0,其中 Γ ( k ) \Gamma(k) Γ(k) 是伽马函数

  • 累积分布函数 (CDF) F ( x ; k , θ ) = γ ( k , x / θ ) Γ ( k ) F(x; k, \theta) = \frac{\gamma(k, x/\theta)}{\Gamma(k)} F(x;k,θ)=Γ(k)γ(k,x/θ),其中 γ ( k , x / θ ) \gamma(k, x/\theta) γ(k,x/θ) 是不完全伽马函数。

3.3 正态分布 (Normal Distribution)

  • 定义:描述大量独立随机变量之和的分布,广泛应用于自然科学和社会科学中。

  • 公式 X ∼ N ( μ , σ 2 ) X \sim \mathcal{N}(\mu, \sigma^2) XN(μ,σ2),其中, μ \mu μ 是均值, σ 2 \sigma^2 σ2 是方差

  • 概率密度函数 (PDF) f ( x ; μ , σ 2 ) = 1 2 π σ 2 e − ( x − μ ) 2 2 σ 2 f(x; \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}} f(x;μ,σ2)=2πσ2 1e2σ2(xμ)2

  • 累积分布函数 (CDF) F ( x ; μ , σ 2 ) = 1 2 [ 1 + erf ⁡ ( x − μ 2 σ 2 ) ] F(x; \mu, \sigma^2) = \frac{1}{2}\left[1 + \operatorname{erf}\left(\frac{x-\mu}{\sqrt{2\sigma^2}}\right)\right] F(x;μ,σ2)=21[1+erf(2σ2 xμ)],其中,erf 是误差函数。

3.4 t分布 (t-Distribution)

  • 定义:用于小样本情况下的假设检验和置信区间估计。

  • 公式 X ∼ t ( ν ) X \sim t(\nu) Xt(ν),其中, ν \nu ν 是自由度

  • 概率密度函数 (PDF) f ( t ; ν ) = Γ ( ν + 1 2 ) ν π Γ ( ν 2 ) ( 1 + t 2 ν ) − ν + 1 2 f(t; \nu) = \frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\nu\pi} \Gamma\left(\frac{\nu}{2}\right)} \left(1 + \frac{t^2}{\nu}\right)^{-\frac{\nu+1}{2}} f(t;ν)=νπ Γ(2ν)Γ(2ν+1)(1+νt2)2ν+1

  • 累积分布函数 (CDF) F ( t ; ν ) = 1 2 + t Γ ( ν + 1 2 ) π ν Γ ( ν 2 ) ∫ 0 t ( 1 + u 2 ν ) − ν + 1 2 d u F(t; \nu) = \frac{1}{2} + t\frac{\Gamma\left(\frac{\nu+1}{2}\right)}{\sqrt{\pi \nu} \Gamma\left(\frac{\nu}{2}\right)} \int_0^{t} \left(1 + \frac{u^2}{\nu}\right)^{-\frac{\nu+1}{2}} du F(t;ν)=21+tπν Γ(2ν)Γ(2ν+1)0t(1+νu2)2ν+1du

3.5 卡方分布 (Chi-Square Distribution)

  • 定义:通常用于假设检验和方差分析。

  • 公式 X ∼ χ 2 ( k ) X \sim \chi^2(k) Xχ2(k),其中 k k k 是自由度

  • 概率密度函数 (PDF) f ( x ; k ) = 1 2 k / 2 Γ ( k / 2 ) x k / 2 − 1 e − x / 2 for  x ≥ 0 f(x; k) = \frac{1}{2^{k/2} \Gamma(k/2)} x^{k/2-1} e^{-x/2} \quad \text{for } x \geq 0 f(x;k)=2k/2Γ(k/2)1xk/21ex/2for x0

  • 累积分布函数 (CDF) F ( x ; k ) = γ ( k 2 , x 2 ) Γ ( k 2 ) F(x; k) = \frac{\gamma\left(\frac{k}{2}, \frac{x}{2}\right)}{\Gamma\left(\frac{k}{2}\right)} F(x;k)=Γ(2k)γ(2k,2x)

3.6 F分布 (F-Distribution)

  • 定义:用于比较两个样本的方差。

  • 公式 X ∼ F ( d 1 , d 2 ) X \sim F(d_1, d_2) XF(d1,d2),其中 d 1 d_1 d1 d 2 d_2 d2 是自由度

  • 概率密度函数 (PDF) f ( x ; d 1 , d 2 ) = ( d 1 x ) d 1 d 2 d 2 ( d 1 x + d 2 ) d 1 + d 2 x B ( d 1 2 , d 2 2 ) for  x ≥ 0 f(x; d_1, d_2) = \frac{\sqrt{\frac{(d_1 x)^{d_1} d_2^{d_2}}{(d_1 x + d_2)^{d_1 + d_2}}}}{x B\left(\frac{d_1}{2}, \frac{d_2}{2}\right)} \quad \text{for } x \geq 0 f(x;d1,d2)=xB(2d1,2d2)(d1x+d2)d1+d2(d1x)d1d2d2 for x0,其中 B B B 是贝塔函数

  • 累积分布函数 (CDF) F ( x ; d 1 , d 2 ) = I d 1 x d 1 x + d 2 ( d 1 2 , d 2 2 ) F(x; d_1, d_2) = I_{\frac{d_1 x}{d_1 x + d_2}}\left(\frac{d_1}{2}, \frac{d_2}{2}\right) F(x;d1,d2)=Id1x+d2d1x(2d1,2d2),其中 I I I 是不完全贝塔函数

3.7 它们之间的关系

  • 卡方分布是正态分布的平方和。例如, k k k 个独立标准正态变量的平方和服从自由度为 k k k 的卡方分布。
  • t分布 是在标准正态分布和卡方分布的基础上构造的。具体来说,t分布可以通过将标准正态变量除以其独立卡方分布变量的平方根来得到。
  • F分布 是两个独立卡方分布变量比值的扩展。F分布用于比较两个方差,通过将两个卡方分布变量的比值来构造。

最近更新

  1. docker php8.1+nginx base 镜像 dockerfile 配置

    2024-07-12 02:52:02       67 阅读
  2. Could not load dynamic library ‘cudart64_100.dll‘

    2024-07-12 02:52:02       71 阅读
  3. 在Django里面运行非项目文件

    2024-07-12 02:52:02       58 阅读
  4. Python语言-面向对象

    2024-07-12 02:52:02       69 阅读

热门阅读

  1. python在区块链领域中的应用

    2024-07-12 02:52:02       17 阅读
  2. AI全新应用设想:畅想智能体和应用软件的结合

    2024-07-12 02:52:02       19 阅读
  3. Android Bitmap

    2024-07-12 02:52:02       20 阅读
  4. C++list的模拟实现

    2024-07-12 02:52:02       25 阅读
  5. Zookeeper-数据结构

    2024-07-12 02:52:02       23 阅读
  6. c++ learn five five day

    2024-07-12 02:52:02       22 阅读
  7. 自定义激活函数:Mojo模型的动态选择之道

    2024-07-12 02:52:02       22 阅读
  8. Docker-12 Docker常用命令

    2024-07-12 02:52:02       17 阅读
  9. HJ2 计算某字符出现次数 、 HJ3 明明的随机数

    2024-07-12 02:52:02       22 阅读
  10. 什么是Stream流

    2024-07-12 02:52:02       21 阅读
  11. playwright下载文件如何不被删除

    2024-07-12 02:52:02       17 阅读