均匀分布

均匀分布(Uniform Distribution)是概率论中最简单且常见的概率分布之一,它描述了一个随机变量在一定区间内取值的概率是均匀的,均匀分布可以是离散的,也可以是连续的
连续均匀分布的概率密度函数
连续均匀分布定义在一个区间 [a,b] 中,随机变量在该区间内取值的概率密度是常数
f(x)=⎩⎪⎨⎪⎧b−a10如果x∈[a,b]其他
- a 是区间下限, b 是区间上限, b>a
性质
- 期望值为 E[X]=2a+b
- 方差 Var(X)=12(b−a)2
- 累积分布函数 F(x)=⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧0b−ax−a1x<ax∈[a,b]x>b
- 形状:概率密度在 [a,b] 区间上是平坦的,区间外为 0
卡方分布

定义
设 x1,…xn∼N(0,1) ,令 X=∑inxi2 ,则称 X 是自由度为 n 的 χ2 分布,记作 X∼χ2
对于随机变量 X∼χ2 ,其概率密度函数如下
gn(x)=⎩⎪⎪⎨⎪⎪⎧22nΓ(2n)x2n−1e−2x0x>0x≤0
其中 Γ(x)=∫0∞tx−1e−tdt(x>0)
性质
- 卡方分布的定义域为 x>0 ,卡方随机变量总是非负的
- 期望值为 E[X]=n
- 方差为 Var(X)=2n
- 当自由度 n 较小时,卡方分布右偏,随着 n 增大,分布逐渐对称并接近正态分布
- 对于随机变量 X∼χn2 有 E(X)=n,Var(X)=2n
- 对于两个随机变量 Z1∼χn12 和 Z2∼χn22 ,并且两个随机变量相互独立,则 Z1+Z2∼χn1+n22
- 当 n→∞ 时,卡方分布趋近于正态分布 N(n,2n)
t 分布

定义
设随机变量 X∼N(0,1) 和 Y∼χn2 ,且 X 和 Y 独立,则称
T=nYX
为自由度 n 的 t 变量,其分布称为自由为 n 的 t 分布,记作 T∼tn
对于随机变量 T∼tn ,其密度函数如下
pn(t)=Γ(2n)nπΓ(2n+1)(1+nt2)−2n+1t∈(−∞,+∞)
性质
- 期望值为 E[T]=0n>1
- 方差为 Var(T)=n−2nn>2 ,否则方差不存在
- 对于随机变量 T∼tn ,则当 n≥2 时,均值 E(T)=0 。当 n≥3 时,方差 Var(T)=n−2n
- 当 n→∞ 时,t 变量的极线分布为 N(0,1)
F 分布

定义
对于两个随机变量 X∼χm2 和 Y∼χn2 ,并且两个变量相互独立,则称
F=Y/nX/m
为自由度分别是 m 和 n 的 F 变量,其分布称为自由度分别是 m 和 n 的 F 分布,记作 F∼Fm,n
对于随机变量 X∼Fm,n 其概率密度函数如下
fm,n(x)=⎩⎪⎪⎨⎪⎪⎧Γ(2n)Γ(2m)Γ(2m+n)m2mn2nx2m−1(n+mx)−2m+n0x>0x≤0
性质
- 期望值为 E[F]=n−2nn>2
- 方差为 Var(F)=m(n−2)2(n−4)2n2(m+n−2)n>4
- 若 X∼Fm,n 则 X1∼Fn,m
- 若 X∼tn 则 X2∼F1,n
- Fm,n(1−α)=Fn,m(α)1
- 当 m 和 n 较小时,分布偏右,随着逐渐增大,分布逐渐对称
二项分布

二项分布(Binomial Distribution)是一种离散概率分布,用于描述在 n 次独立实验中,某事件正好发生 k 次的概率。对于一个随机变量 X ,如果其满足二项分布,则称其 X∼Binomial(n,p)
概率质量函数
P(X=k)=(nk)pk(1−p)n−kk=0,1,....n
- X 是随机变量,表示事件发生的次数
- k 是事件发生的具体次数
- n 是试验的总次数
- p 是每次实验中事件发生的概率
- (nk) 是组合数,表示从 n 次试验中选出 k 次成功的方式数 (nk)=k!(n−k)!n!
性质
- 期望值为 E[X]=np
- 方差为 Var(X)=np(1−p)
- 矩生成函数 MX(t)=(1−p+pet)n
- 特征函数为 ΦX(t)=(1−p+peit)n 其中 i 是虚数单位
- 可加性:对于两个独立的二项随机变量 X1∼Binomial(n1,p) 和 X2∼Binomial(n2,p) ,则它们的和也满足二项分布 X1+X2∼Binomial(n1+n2,p)
负二项分布

负二项分布(Negative Binomial Distribution)是一种离散概率分布,用于描述在一系列独立伯努利试验中,达到指定次数的成功所需的试验次数
负二项分布的概率质量函数
-
根据试验次数定义:随机变量 X 表示达到 r 次成功所需要的总实验次数,包括成功的
P(X=k)=(k−1r−1)pr(1−p)k−rk=0,1...
-
根据失败次数定义:随机变量 Y 表示达到 r 次成功前的失败次数
P(Y=k)=(k+r−1r−1)pr(1−p)k−rk=0,1...
其中
- k 是试验次数或者失败次数
- r≥1 是成功次数
- p 是每次试验的成功概率
- 1−p 是每次试验中失败的概率
- (nk) 是组合数,表示从 n 次试验中选出 k 次成功的方式数 (nk)=k!(n−k)!n!
性质
- 期望值为 E[X]=prE[Y]=pr(1−p)
- 方差为 Var(X)=p2r(1−p)Var(Y)=p2r(1−p)
- 矩生成函数为 MX(t)=(1−(1−p)etpet)rMY(t)=(1−(1−p)etpet)rt<−ln(1−p)
- 可加性:对于两个独立的负二项随机变量 X1∼NegativeBinomial(r1,p) 和 X2∼NegativeBinomial(r2,p) ,则它们的和也满足二项分布 X1+X2∼NegativeBinomial(r1+r2,p)
- 当 r=1 时退化为几何分布,几何分布描述第一次成功所需的试验次数,而负二项分布描述第 r 次成功所需的试验次数
- 当 r→∞,p→1 时,负二项分布可近似为泊松分布
- 二项分布描述固定试验次数中的成功次数,而负二项分布描述固定成功次数所需的试验次数
泊松分布

泊松分布(Poisson Distribution)是一种离散概率分布,用于描述在固定时间或空间内某事件发生的次数的概率分布。对于一个随机变量 X ,如果其满足泊松分布,则称其 X∼Poisson(λ)
概率质量函数
泊松分布的概率质量函数为
P(X=k)=k!λke−λk=0,1,....n
- X 是随机变量,表示事件发生的次数
- k 是事件发生的具体次数
- λ 是分布的参数,示在固定时间或空间内事件发生的平均次数
- e 是自然对数的底
性质
-
期望值为 E[X]=λ
-
方差为 Var(X)=λ
-
矩生成函数为 MX(t)=exp(λ(et−1))
-
特征函数 ΦX(t)=exp(λ(eit−1)) ,其中 i 是虚数单位
-
可加性:对于两个独立的泊松随机变量 X1∼Poisson(λ1) 和 X2∼Poisson(λ2) ,则它们的和也满足泊松分布 X1+X2∼Poisson(λ1+λ2)
-
泊松分布可以看作是二项分布的极限情况,当二项分布的试验次数 n 很大时,并且单次成功概率很小,并且 λ=np 保持常数时,二项分布近似于泊松分布
Binomial(n,p)≈Poisson(λ=np)n→∞,p→0
几何分布

几何分布(Geometric Distribution)是一种离散概率分布,用于描述在一系列独立伯努利试验中,第一次成功所需的试验次数
几何分布的概率质量函数
-
对于第一次成功所需要的试验次数
P(X=k)=(1−p)k−1pk=1,2,....
-
对于第一次成功前的失败次数
P(Y=k)=(1−p)kpk=1,2,....
其中
- k 是失败的次数或者试验次数
- p 是每次试验中成功的概率
性质
-
期望值为 E[X]=p1E[Y]=p1−p
-
方差为 Var(X)=p21−pVar(Y)=p21−p
-
矩生成函数为 MX(t)=1−(1−p)etpetMY(t)=1−(1−p)etpett<−ln(1−p)
-
无记忆性:几何分布是唯一具有无记忆性的离散分布,过去的失败对未来成功的概率没有影响
P(X>k+n∣X>k)=P(x>n)k,n>0
-
几何分布是负二项分布的特例,当负二项分布的成功次数 r=1 时,负二项分布退化为几何分布
指数分布

指数分布(Exponential Distribution)是一种连续概率分布,通常用于描述事件之间的时间间隔或等待时间,是唯一具有无记忆性(Memoryless Property)的连续分布
指数分布的概率密度函数
f(x∣λ)=λe−λxx≥0
- x 是随机变量,表示事件之间的事件间隔或等待时间
- λ>0 是速率参数,表示单位时间内事件发生的平均次数
也可以用尺度参数 θ=λ1 来表示
f(x∣θ)=θ1e−x/θ
- θ 是尺度参数,表示事件之间的平均时间间隔
性质
-
期望值为 E[X]=λ1=θ
-
方差为 Var(X)=λ21=θ2
-
矩生成函数为 MX(t)=λ−tλt<λ
-
特征函数为 MX(t)=λ−itλ
-
无记忆性:过去的事件对未来事件的概率没有影响
P(X>s+t∣X>s)=P(X>t)s,t>0
-
如果事件在单位时间内发生的次数服从泊松分布 Poisson(λ) ,则事件之间的时间间隔服从指数分布 EXP(λ)
-
指数分布是伽马分布的特例,当伽马分布的形状参数 k=1 时伽马分布退化为指数分布
-
指数分布是几何分布的连续版本
伽马分布

伽马分布是一种连续概率分布,用于建模正实数值的随机变量,如果一个随机变量服从于伽马分布,记作 X∼Γp(α,β)
概率密度函数
f(x∣α,β)=Γ(α)βαxα−1e−βxx>0
- x>0 是随机变量
- α>0 是形状参数
- β>0 是尺度参数
- Γ(α)=∫0∞xα−1e−xdx 是伽马参数
性质
- 期望值为 E[X]=βα
- 方差值为 Var(X)=β2α
- 当 α=1 时,伽马分布退化为指数分布
- 当 α=2n 并且 β=21 时,伽马分布就是自由度为 n 的卡方分布
- 可加性,对于两个独立的随机变量 X∼Γp(a,β) 和 Y∼Γp(b,β) ,则 Z=X+Y∼Γp(a+b,β)
- 特征函数 ΦX(t)=(1−i⋅θt)−k ,其中 i 是虚数单位
- 矩生成函数 MX(t)=(1−θt)−kt<θ1
逆伽马分布

逆伽马分布是伽马分布的逆分布,通常用于建模正实数值的随机变量,如果一个随机变量服从于逆伽马分布,记作 X∼Γp−1(α,β)
概率密度函数
f(x∣α,β)=Γ(α)βαx−α−1e−βxx>0
- α>0 是形状参数
- β>0 是尺度参数
性质
- 如果 X∼Γp(α,β) ,则 Y=X1∼Γp−1(α,β)
- 期望值为 E[X]=α−1βα>1
- 方差为 Var(X)=(α−1)2(α−2)β2α>2
威沙特分布
威沙特分布是多元高斯分布的协方差矩阵的分布,通常用于建模正定对称矩阵
定义
对于 X∈Rn×p 的随机矩阵,其列向量独立同分布于 Np(M,Σ) ,则 W=XTX 服从自由度为 n ,非中心参数矩阵 Ω=MTΣ−1M 的非中心威沙特分布,记作 W∼Wp(n,Σ,Ω)
- p 维度
- n≥p 自由度
- Σ∈Rp×p 协方差矩阵
- Ω∈Rp×p 的非中心参数矩阵
特别的,当 M=0 时 W=XTX 服从于自由度为 n 的中心威沙特分布,记作 W∼Wp(n,Σ)
性质
- 非中心威沙特分布的期望值为 E[W]=nΣ+MTM
- 中心威沙特分布的期望值为 E[W]=nΣ
- 协方差为 Cov(Wij,Wkl)=n(ΣikΣjl+ΣilΣjk)
- 非中心威沙特分布特征函数为 ΦW(T)=∣Ip−2iΣT∣−n/2exp(i⋅tr(T(Ip−2iΣT)−1Ω)) 其中 i 是虚数单位
- 非中心威沙特分布特征函数为 ΦW(T)=∣Ip−2iΣT∣−n/2
逆威沙特分布
逆威沙特分布是威沙特分布的逆分布,通常用于建模正定对称矩阵的逆矩阵,如果一个随机变量服从于逆伽马分布,记作 X∼Wp−1(v,Ψ)
概率密度函数
f(X∣v,Ψ)=2vd/2Γd(v/2)∣Ψ∣v/2∣X∣−(v+d+1)/2exp(−21tr(ΨX−1))
- X∈Rp×p 是正定矩阵
- Ψ∈Rp×p 是正定矩阵
- Γd 是多变量伽马分布
- tr 表示矩阵的迹
性质
-
如果一个正定矩阵 W 的逆矩阵遵从自由度为 v 的威沙特分布 W−1∼Wp(v,Σ) 的话,那么该矩阵遵从逆威沙特分布 W∼Wp−1(v,Σ−1)
-
期望 E[X]=v−p−1Ψv>p+1
-
协方差,对于 X 的元素 Xij,Xkl ,协方差为
Cov(Xij,Xkl=(v−p)(v−p−1)(v−p−3)(v−p−1)ΨikΨjl+(v−p−1)ΨilΨjkv>p+3
-
逆的期望 E[X−1]=vΨ−1
高斯分布

高斯分布(Gaussian Distribution)又称为正态分布(Normal Distribution)
概率密度函数
f(x)=2πσ21exp(−2σ2(x−μ)2)
- μ 是均值,决定分布的中心值
- σ2 是方差
性质
- 对称性:关于均值对称
- 钟形曲线:呈单峰钟形,峰值在 x=μ 处
- 有 68% 在 μ±σ 内
- 有 95% 在 μ±2σ 内
- 有 99.7% 在 μ±3σ 内
- 线性变换:若 x∼N(μ,σ2) 则 aX+b∼N(aμ+b,a2σ2)
标准正态分布
当 μ=0 且 σ=1 时称为标准正态分布,概率密度函数为
f(x)=2π1exp(−2x2)
混合高斯分布

混合高斯分布(Gaussian Mixture Model, GMM)是由多个高斯分布线性组合而成的概率分布,常用于对复杂数据分布的建模
概率密度函数
p(x)=k∑KπkN(x∣μk,Σk)
- K 是高斯分布的数量
- πk 是第 k 个高斯分布的混合系数(权重),满足 ∑kKπk=1,πk≥0
- N(x∣μk,Σk) 是第 k 个高斯分布的概率密度函数, μk 是均值, Σk 是协方差
性质
- 期望值为 E[X]=∑kKπkμk
- 协方差矩阵为 Cov(X)=∑kKπk(Σk+(μk−E[X])(μk−E[X])T)
- 灵活性:通过调整高斯分布的数量 K 和参数,可以模拟各种复杂分布
- 多峰性:混合高斯分布可以描述多峰数据,而单一高斯分布只能描述单峰数据
狄利克雷分布
狄利克雷分布(Dirichlet Distribution)是概率论中的一种连续多元概率分布,常用于贝叶斯统计和多元数据分析,它是贝塔分布(Beta Distribution)在高维空间中的推广
定义
对于一个 K 维随机向量 X={x1,…xk} ,如果其满足如下条件
- 对于任意 i 都满足 xi≥0
- ∑iKxi=1
并且其概率密度函数为
f(X∣α)=B(α)1i∏Kxiαi−1
- α=(α1,…αK) 是一个正实数,称为浓度参数(concentration parameters)
- B(α)=Γ(∑iKαi)∏iKΓ(αi) 是多元贝塔函数,其中 Γ 是伽马函数
性质
- 期望值为 E[xi]=∑jKαjαi
- 方差 Var(xi)=(∑jKαj)2(∑jKαj+1)αi(∑jKαj−αi)
- 协方差为 Cov(xi,xj)=(∑kKαk)2(∑kKαk+1)−αiαji=j
- 狄利克雷分布是多项分布的共轭先验,即如果先验分布是狄利克雷分布,似然函数是多项分布,那么后验分布也是狄利克雷分布
- 狄利克雷分布具有聚集性质,即对于 p∼Dir(α) ,则 p 的某些分量可以合并,合并之后仍然是狄利克雷分布
- 当所有的 αi 相等时,狄利克雷分布是对称的,分布的形状在各个方向上相同
贝塔分布

贝塔分布(Beta Distribution)是定义在区间 [0,1] 上的一种连续概率分布,常用于表示概率的概率分布
定义
贝塔分布由两个正实数参数 α 和 β 定义,其概率密度函数为
f(x∣α,β)=B(α,β)xα−1(1−x)β−1
- x∈[0,1] 是随机变量
- α>0 和 β>0 是形状参数
- B(α,β)=Γ(α+β)Γ(α)Γ(β) 是贝塔函数,其中 Γ 是伽马函数
性质
- 期望值为 E[X]=α+βα
- 方差为 Var(X)=(α+β)2(α+β+1)αβ
- 众数为 Mode(X)=α+β−2α−1
- 对称性:
- 当 α=β 时分布是对称
- 当 α>β 时分布左偏
- 当 α<β 时分布右偏
- 当 α=β=1 时,贝塔分布退化为均匀分布
- 形状
- 当 α>1,β>1 时,分布呈单峰
- 当 α<1,β<1 时,分布呈 U 形
- 当 α<1,β≥1 或 α≥1,β<1 时,分布呈 J 形
多元高斯分布
多元高斯分布(Multivariate Gaussian Distribution)是单变量高斯分布在多维空间中的推广,用于描述多个随机变量的联合分布
概率密度函数
p(x)=(2π)n/2∣Σ∣1/21exp(−21(x−μ)TΣ−1(x−μ))
- x 是 n 维随机向量
- μ 是均值向量,表示各变量的期望值
- Σ 是协方差矩阵
- ∣Σ∣ 是协方差矩阵的行列式
性质
- 均值向量 μ 决定分布的中心位置
- 协方差矩阵 Σ 控制分布的形态和方向
- 若协方差矩阵为对角矩阵,变量间相互独立
- 对多元高斯随机向量进行线性变换,结果仍为多元高斯分布