均匀分布

42a98226cffc1e171832dd0d4190f603738de979.webp

均匀分布(Uniform Distribution)是概率论中最简单且常见的概率分布之一,它描述了一个随机变量在一定区间内取值的概率是均匀的,均匀分布可以是离散的,也可以是连续的


连续均匀分布的概率密度函数

连续均匀分布定义在一个区间 [a,b][a,b] 中,随机变量在该区间内取值的概率密度是常数

f(x)={1ba如果x[a,b]0其他f(x)=\left\{\begin{aligned}&\frac{1}{b-a}&如果x\in[a,b]\\&0&其他\end{aligned}\right.

  • aa 是区间下限, bb 是区间上限, b>ab>a

性质

  • 期望值为 E[X]=a+b2E[X]=\frac{a+b}{2}
  • 方差 Var(X)=(ba)212Var(X)=\frac{(b-a)^2}{12}
  • 累积分布函数 F(x)={0x<axabax[a,b]1x>bF(x)=\left\{\begin{aligned}&0&x<a\\&\frac{x-a}{b-a}&x\in[a,b]\\&1&x>b\end{aligned}\right.
  • 形状:概率密度在 [a,b][a,b] 区间上是平坦的,区间外为 0

卡方分布

image.png

定义

x1,xnN(0,1)x_1,…x_n\sim N(0,1) ,令 X=inxi2X=\sum_i^nx_i^2 ,则称 XX 是自由度为 nnχ2\chi^2 分布,记作 Xχ2X\sim\chi^2

对于随机变量 Xχ2X\sim\chi^2 ,其概率密度函数如下

gn(x)={xn21ex22n2Γ(n2)x>00x0g_n(x)=\left\{\begin{aligned}&\frac{x^{\frac{n}{2}-1}e^{-\frac{x}{2}}}{2^{\frac{n}{2}}\Gamma(\frac{n}{2})}&x>0\\&0&x\leq 0\end{aligned}\right.

其中 Γ(x)=0tx1etdt(x>0)\Gamma(x)=\int_0^\infty t^{x-1}e^{-t}dt\quad (x>0)


性质

  • 卡方分布的定义域为 x>0x>0 ,卡方随机变量总是非负的
  • 期望值为 E[X]=nE[X]=n
  • 方差为 Var(X)=2nVar(X)=2n
  • 当自由度 nn 较小时,卡方分布右偏,随着 nn 增大,分布逐渐对称并接近正态分布
  • 对于随机变量 Xχn2X\sim \chi_n^2E(X)=n,Var(X)=2nE(X)=n,Var(X)=2n
  • 对于两个随机变量 Z1χn12Z_1\sim\chi_{n_1}^2Z2χn22Z_2\sim\chi_{n_2}^2 ,并且两个随机变量相互独立,则 Z1+Z2χn1+n22Z_1+Z_2\sim\chi_{n_1+n_2}^2
  • nn\rightarrow\infty 时,卡方分布趋近于正态分布 N(n,2n)N(n,2n)

t 分布

bda700de5309bd3919252558b674d3b3.png

定义

设随机变量 XN(0,1)X\sim N(0,1)Yχn2Y\sim\chi_n^2 ,且 XXYY 独立,则称

T=XYnT=\frac{X}{\sqrt{\frac{Y}{n}}}

为自由度 nntt 变量,其分布称为自由为 nn 的 t 分布,记作 TtnT\sim t_n

对于随机变量 TtnT\sim t_n ,其密度函数如下

pn(t)=Γ(n+12)Γ(n2)nπ(1+t2n)n+12t(,+)p_n(t)=\frac{\Gamma(\frac{n+1}{2})}{\Gamma(\frac{n}{2})\sqrt{n\pi}}(1+\frac{t^2}{n})^{-\frac{n+1}{2}}\quad t\in(-\infty,+\infty)


性质

  • 期望值为 E[T]=0n>1E[T]=0\quad n>1
  • 方差为 Var(T)=nn2n>2Var(T)=\frac{n}{n-2}\quad n>2 ,否则方差不存在
  • 对于随机变量 TtnT\sim t_n ,则当 n2n\geq2 时,均值 E(T)=0E(T)=0 。当 n3n\geq3 时,方差 Var(T)=nn2Var(T)=\frac{n}{n-2}
  • nn\rightarrow\infty 时,t 变量的极线分布为 N(0,1)N(0,1)

F 分布

9f2f070828381f3027a0f283ab014c086e06f05b.webp

定义

对于两个随机变量 Xχm2X\sim\chi_m^2Yχn2Y\sim\chi_n^2 ,并且两个变量相互独立,则称

F=X/mY/nF=\frac{X/m}{Y/n}

为自由度分别是 mmnn 的 F 变量,其分布称为自由度分别是 mmnn 的 F 分布,记作 FFm,nF\sim F_{m,n}

对于随机变量 XFm,nX\sim F_{m,n} 其概率密度函数如下

fm,n(x)={Γ(m+n2)Γ(n2)Γ(m2)mm2nn2xm21(n+mx)m+n2x>00x0f_{m,n}(x)=\left\{\begin{aligned}&\frac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{n}{2})\Gamma(\frac{m}{2})}m^{\frac{m}{2}}n^{\frac{n}{2}}x^{\frac{m}{2}-1}(n+mx)^{-\frac{m+n}{2}}&x>0\\&0&x\leq0\end{aligned}\right.


性质

  • 期望值为 E[F]=nn2n>2E[F]=\frac{n}{n-2}\quad n>2
  • 方差为 Var(F)=2n2(m+n2)m(n2)2(n4)n>4Var(F)=\frac{2n^2(m+n-2)}{m(n-2)^2(n-4)}\quad n>4
  • XFm,nX\sim F_{m,n}1XFn,m\frac{1}{X}\sim F_{n,m}
  • XtnX\sim t_nX2F1,nX^2\sim F_{1,n}
  • Fm,n(1α)=1Fn,m(α)F_{m,n}(1-\alpha)=\frac{1}{F_{n,m}(\alpha)}
  • mmnn 较小时,分布偏右,随着逐渐增大,分布逐渐对称

二项分布

d043ad4bd11373f08202a38d78475cfbfbedab64aec2.webp

二项分布(Binomial Distribution)是一种离散概率分布,用于描述在 nn 次独立实验中,某事件正好发生 kk 次的概率。对于一个随机变量 XX ,如果其满足二项分布,则称其 XBinomial(n,p)X\sim Binomial(n,p)


概率质量函数

P(X=k)=(nk)pk(1p)nkk=0,1,....nP(X=k)=\left(\begin{matrix}n\\k\end{matrix}\right)p^k(1-p)^{n-k}\quad k=0,1,....n

  • XX 是随机变量,表示事件发生的次数
  • kk 是事件发生的具体次数
  • nn 是试验的总次数
  • pp 是每次实验中事件发生的概率
  • (nk)\left(\begin{matrix}n\\k\end{matrix}\right) 是组合数,表示从 nn 次试验中选出 kk 次成功的方式数 (nk)=n!k!(nk)!\left(\begin{matrix}n\\k\end{matrix}\right)=\frac{n!}{k!(n-k)!}

性质

  • 期望值为 E[X]=npE[X]=np
  • 方差为 Var(X)=np(1p)Var(X)=np(1-p)
  • 矩生成函数 MX(t)=(1p+pet)nM_X(t)=(1-p+pe^t)^n
  • 特征函数为 ΦX(t)=(1p+peit)n\Phi_X(t)=(1-p+pe^{it})^n 其中 ii 是虚数单位
  • 可加性:对于两个独立的二项随机变量 X1Binomial(n1,p)X_1\sim Binomial(n_1,p)X2Binomial(n2,p)X_2\sim Binomial(n_2,p) ,则它们的和也满足二项分布 X1+X2Binomial(n1+n2,p)X_1+X_2\sim Binomial(n_1+n_2,p)

负二项分布

0823dd54564e92584bf5bbc79e82d158cdbf4ed1.webp

负二项分布(Negative Binomial Distribution)是一种离散概率分布,用于描述在一系列独立伯努利试验中,达到指定次数的成功所需的试验次数


负二项分布的概率质量函数

  • 根据试验次数定义:随机变量 XX 表示达到 rr 次成功所需要的总实验次数,包括成功的

    P(X=k)=(k1r1)pr(1p)krk=0,1...P(X=k)=\left(\begin{matrix}k-1\\r-1\end{matrix}\right)p^r(1-p)^{k-r}\quad k=0,1...

  • 根据失败次数定义:随机变量 YY 表示达到 rr 次成功前的失败次数

    P(Y=k)=(k+r1r1)pr(1p)krk=0,1...P(Y=k)=\left(\begin{matrix}k+r-1\\r-1\end{matrix}\right)p^r(1-p)^{k-r}\quad k=0,1...

其中

  • kk 是试验次数或者失败次数
  • r1r\geq1 是成功次数
  • pp 是每次试验的成功概率
  • 1p1-p 是每次试验中失败的概率
  • (nk)\left(\begin{matrix}n\\k\end{matrix}\right) 是组合数,表示从 nn 次试验中选出 kk 次成功的方式数 (nk)=n!k!(nk)!\left(\begin{matrix}n\\k\end{matrix}\right)=\frac{n!}{k!(n-k)!}

性质

  • 期望值为 E[X]=rpE[Y]=r(1p)pE[X]=\frac{r}{p}\quad E[Y]=\frac{r(1-p)}{p}
  • 方差为 Var(X)=r(1p)p2Var(Y)=r(1p)p2Var(X)=\frac{r(1-p)}{p^2}\quad Var(Y)=\frac{r(1-p)}{p^2}
  • 矩生成函数为 MX(t)=(pet1(1p)et)rMY(t)=(pet1(1p)et)rt<ln(1p)M_X(t)=(\frac{pe^t}{1-(1-p)e^t})^r\quad M_Y(t)=(\frac{pe^t}{1-(1-p)e^t})^r\quad t<-\ln(1-p)
  • 可加性:对于两个独立的负二项随机变量 X1NegativeBinomial(r1,p)X_1\sim NegativeBinomial(r_1,p)X2NegativeBinomial(r2,p)X_2\sim NegativeBinomial(r_2,p) ,则它们的和也满足二项分布 X1+X2NegativeBinomial(r1+r2,p)X_1+X_2\sim NegativeBinomial(r_1+r_2,p)
  • r=1r=1 时退化为几何分布,几何分布描述第一次成功所需的试验次数,而负二项分布描述第 rr 次成功所需的试验次数
  • r,p1r\rightarrow\infty,p\rightarrow1 时,负二项分布可近似为泊松分布
  • 二项分布描述固定试验次数中的成功次数,而负二项分布描述固定成功次数所需的试验次数

泊松分布

5bafa40f4bfbfbed0c0b3c5575f0f736afc31f4d.webp

泊松分布(Poisson Distribution)是一种离散概率分布,用于描述在固定时间或空间内某事件发生的次数的概率分布。对于一个随机变量 XX ,如果其满足泊松分布,则称其 XPoisson(λ)X\sim Poisson(\lambda)


概率质量函数

泊松分布的概率质量函数为

P(X=k)=λkeλk!k=0,1,....nP(X=k)=\frac{\lambda^ke^{-\lambda}}{k!}\quad k=0,1,....n

  • XX 是随机变量,表示事件发生的次数
  • kk 是事件发生的具体次数
  • λ\lambda 是分布的参数,示在固定时间或空间内事件发生的平均次数
  • ee 是自然对数的底

性质

  • 期望值为 E[X]=λE[X]=\lambda

  • 方差为 Var(X)=λVar(X)=\lambda

  • 矩生成函数为 MX(t)=exp(λ(et1))M_X(t)=\exp(\lambda(e^t-1))

  • 特征函数 ΦX(t)=exp(λ(eit1))\Phi_X(t)=\exp(\lambda(e^{it}-1)) ,其中 ii 是虚数单位

  • 可加性:对于两个独立的泊松随机变量 X1Poisson(λ1)X_1\sim Poisson(\lambda_1)X2Poisson(λ2)X_2\sim Poisson(\lambda_2) ,则它们的和也满足泊松分布 X1+X2Poisson(λ1+λ2)X_1+X_2\sim Poisson(\lambda_1+\lambda_2)

  • 泊松分布可以看作是二项分布的极限情况,当二项分布的试验次数 nn 很大时,并且单次成功概率很小,并且 λ=np\lambda=np 保持常数时,二项分布近似于泊松分布

    Binomial(n,p)Poisson(λ=np)n,p0Binomial(n,p)\approx Poisson(\lambda=np)\quad n\rightarrow\infty,p\rightarrow0


几何分布

aHR0cHM6L.png

几何分布(Geometric Distribution)是一种离散概率分布,用于描述在一系列独立伯努利试验中,第一次成功所需的试验次数


几何分布的概率质量函数

  • 对于第一次成功所需要的试验次数

    P(X=k)=(1p)k1pk=1,2,....P(X=k)=(1-p)^{k-1}p\quad k=1,2,....

  • 对于第一次成功前的失败次数

    P(Y=k)=(1p)kpk=1,2,....P(Y=k)=(1-p)^{k}p\quad k=1,2,....

其中

  • kk 是失败的次数或者试验次数
  • pp 是每次试验中成功的概率

性质

  • 期望值为 E[X]=1pE[Y]=1ppE[X]=\frac{1}{p}\quad E[Y]=\frac{1-p}{p}

  • 方差为 Var(X)=1pp2Var(Y)=1pp2Var(X)=\frac{1-p}{p^2}\quad Var(Y)=\frac{1-p}{p^2}

  • 矩生成函数为 MX(t)=pet1(1p)etMY(t)=pet1(1p)ett<ln(1p)M_X(t)=\frac{pe^t}{1-(1-p)e^t}\quad M_Y(t)=\frac{pe^t}{1-(1-p)e^t}\quad t<-\ln(1-p)

  • 无记忆性:几何分布是唯一具有无记忆性的离散分布,过去的失败对未来成功的概率没有影响

    P(X>k+nX>k)=P(x>n)k,n>0P(X>k+n\vert X>k)=P(x>n)\quad k,n>0

  • 几何分布是负二项分布的特例,当负二项分布的成功次数 r=1r=1 时,负二项分布退化为几何分布


指数分布

8694a4c27d1ed21bed9bf342a56eddc450da3fc3.webp

指数分布(Exponential Distribution)是一种连续概率分布,通常用于描述事件之间的时间间隔或等待时间,是唯一具有无记忆性(Memoryless Property)的连续分布


指数分布的概率密度函数

f(xλ)=λeλxx0f(x\vert\lambda)=\lambda e^{-\lambda x}\quad x\geq0

  • xx 是随机变量,表示事件之间的事件间隔或等待时间
  • λ>0\lambda>0 是速率参数,表示单位时间内事件发生的平均次数

也可以用尺度参数 θ=1λ\theta=\frac{1}{\lambda} 来表示

f(xθ)=1θex/θf(x\vert\theta)=\frac{1}{\theta}e^{-x/\theta}

  • θ\theta 是尺度参数,表示事件之间的平均时间间隔

性质

  • 期望值为 E[X]=1λ=θE[X]=\frac{1}{\lambda}=\theta

  • 方差为 Var(X)=1λ2=θ2Var(X)=\frac{1}{\lambda^2}=\theta^2

  • 矩生成函数为 MX(t)=λλtt<λM_X(t)=\frac{\lambda}{\lambda-t}\quad t<\lambda

  • 特征函数为 MX(t)=λλitM_X(t)=\frac{\lambda}{\lambda-it}

  • 无记忆性:过去的事件对未来事件的概率没有影响

    P(X>s+tX>s)=P(X>t)s,t>0P(X>s+t\vert X>s)=P(X>t)\quad s,t>0

  • 如果事件在单位时间内发生的次数服从泊松分布 Poisson(λ)Poisson(\lambda) ,则事件之间的时间间隔服从指数分布 EXP(λ)EXP(\lambda)

  • 指数分布是伽马分布的特例,当伽马分布的形状参数 k=1k=1 时伽马分布退化为指数分布

  • 指数分布是几何分布的连续版本


伽马分布

8b82b9014a90f603738dfe84ac45a41bb051f91947e2.webp

伽马分布是一种连续概率分布,用于建模正实数值的随机变量,如果一个随机变量服从于伽马分布,记作 XΓp(α,β)X\sim\Gamma_p(\alpha,\beta)


概率密度函数

f(xα,β)=βαΓ(α)xα1eβxx>0f(x\vert\alpha,\beta)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}\quad x>0

  • x>0x>0 是随机变量
  • α>0\alpha>0 是形状参数
  • β>0\beta>0 是尺度参数
  • Γ(α)=0xα1exdx\Gamma(\alpha)=\int_0^\infty x^{\alpha-1}e^{-x}dx 是伽马参数

性质

  • 期望值为 E[X]=αβE[X]=\frac{\alpha}{\beta}
  • 方差值为 Var(X)=αβ2Var(X)=\frac{\alpha}{\beta^2}
  • α=1\alpha=1 时,伽马分布退化为指数分布
  • α=n2\alpha=\frac{n}{2} 并且 β=12\beta=\frac{1}{2} 时,伽马分布就是自由度为 nn 的卡方分布
  • 可加性,对于两个独立的随机变量 XΓp(a,β)X\sim \Gamma_p(a,\beta)YΓp(b,β)Y\sim \Gamma_p(b,\beta) ,则 Z=X+YΓp(a+b,β)Z=X+Y\sim \Gamma_p(a+b,\beta)
  • 特征函数 ΦX(t)=(1iθt)k\Phi_X(t)=(1-i\cdot\theta t)^{-k} ,其中 ii 是虚数单位
  • 矩生成函数 MX(t)=(1θt)kt<1θM_X(t)=(1-\theta t)^{-k}\quad t<\frac{1}{\theta}

逆伽马分布

20200620173302762.jpg

逆伽马分布是伽马分布的逆分布,通常用于建模正实数值的随机变量,如果一个随机变量服从于逆伽马分布,记作 XΓp1(α,β)X\sim\Gamma_p^{-1}(\alpha,\beta)


概率密度函数

f(xα,β)=βαΓ(α)xα1eβxx>0f(x\vert\alpha,\beta)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-\alpha-1}e^{-\beta x}\quad x>0

  • α>0\alpha>0 是形状参数
  • β>0\beta>0 是尺度参数

性质

  • 如果 XΓp(α,β)X\sim\Gamma_p(\alpha,\beta) ,则 Y=1XΓp1(α,β)Y=\frac{1}{X}\sim\Gamma_p^{-1}(\alpha,\beta)
  • 期望值为 E[X]=βα1α>1E[X]=\frac{\beta}{\alpha-1}\quad\alpha>1
  • 方差为 Var(X)=β2(α1)2(α2)α>2Var(X)=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}\quad\alpha>2

威沙特分布

威沙特分布是多元高斯分布的协方差矩阵的分布,通常用于建模正定对称矩阵


定义

对于 XRn×pX\in R^{n\times p} 的随机矩阵,其列向量独立同分布于 Np(M,Σ)N_p(M,\Sigma) ,则 W=XTXW=X^TX 服从自由度为 nn ,非中心参数矩阵 Ω=MTΣ1M\Omega=M^T\Sigma^{-1}M非中心威沙特分布,记作 WWp(n,Σ,Ω)W\sim W_p(n,\Sigma,\Omega)

  • pp 维度
  • npn\geq p 自由度
  • ΣRp×p\Sigma\in R^{p\times p} 协方差矩阵
  • ΩRp×p\Omega\in R^{p\times p} 的非中心参数矩阵

特别的,当 M=0M=0W=XTXW=X^TX 服从于自由度为 nn中心威沙特分布,记作 WWp(n,Σ)W\sim W_p(n,\Sigma)


性质

  • 非中心威沙特分布的期望值为 E[W]=nΣ+MTME[W]=n\Sigma+M^TM
  • 中心威沙特分布的期望值为 E[W]=nΣE[W]=n\Sigma
  • 协方差为 Cov(Wij,Wkl)=n(ΣikΣjl+ΣilΣjk)Cov(W_{ij},W{kl})=n(\Sigma_{ik}\Sigma_{jl}+\Sigma_{il}\Sigma_{jk})
  • 非中心威沙特分布特征函数为 ΦW(T)=Ip2iΣTn/2exp(itr(T(Ip2iΣT)1Ω))\Phi_W(T)=\vert I_p-2i\Sigma T\vert^{-n/2}\exp(i\cdot tr(T(I_p-2i\Sigma T)^{-1}\Omega)) 其中 ii 是虚数单位
  • 非中心威沙特分布特征函数为 ΦW(T)=Ip2iΣTn/2\Phi_W(T)=\vert I_p-2i\Sigma T\vert^{-n/2}

逆威沙特分布

逆威沙特分布是威沙特分布的逆分布,通常用于建模正定对称矩阵的逆矩阵,如果一个随机变量服从于逆伽马分布,记作 XWp1(v,Ψ)X\sim W_p^{-1}(v,\Psi)


概率密度函数

f(Xv,Ψ)=Ψv/2X(v+d+1)/2exp(12tr(ΨX1))2vd/2Γd(v/2)f(X\vert v,\Psi)=\frac{\vert\Psi\vert^{v/2}\vert X\vert^{-(v+d+1)/2}\exp(-\frac{1}{2}tr(\Psi X^{-1}))}{2^{vd/2}\Gamma_d(v/2)}

  • XRp×pX\in R^{p\times p} 是正定矩阵
  • ΨRp×p\Psi\in R^{p\times p} 是正定矩阵
  • Γd\Gamma_d 是多变量伽马分布
  • trtr 表示矩阵的迹

性质

  • 如果一个正定矩阵 WW 的逆矩阵遵从自由度为 vv 的威沙特分布 W1Wp(v,Σ)W^{-1}\sim W_p(v,\Sigma) 的话,那么该矩阵遵从逆威沙特分布 WWp1(v,Σ1)W\sim W_p^{-1}(v,\Sigma^{-1})

  • 期望 E[X]=Ψvp1v>p+1E[X]=\frac{\Psi}{v-p-1}\quad v>p+1

  • 协方差,对于 XX 的元素 Xij,XklX_{ij},X_{kl} ,协方差为

    Cov(Xij,Xkl=(vp1)ΨikΨjl+(vp1)ΨilΨjk(vp)(vp1)(vp3)v>p+3Cov(X_{ij},X_{kl}=\frac{(v-p-1)\Psi_{ik}\Psi_{jl}+(v-p-1)\Psi_{il}\Psi_{jk}}{(v-p)(v-p-1)(v-p-3)}\quad v>p+3

  • 逆的期望 E[X1]=vΨ1E[X^{-1}]=v\Psi^{-1}


高斯分布

20201003193641434.jpg

高斯分布(Gaussian Distribution)又称为正态分布(Normal Distribution)


概率密度函数

f(x)=12πσ2exp((xμ)22σ2)f(x)=\frac{1}{\sqrt{2\pi\sigma^2}}\exp(-\frac{(x-\mu)^2}{2\sigma^2})

  • μ\mu 是均值,决定分布的中心值
  • σ2\sigma^2 是方差

性质

  • 对称性:关于均值对称
  • 钟形曲线:呈单峰钟形,峰值在 x=μx=\mu
  • 有 68% 在 μ±σ\mu\plusmn\sigma
  • 有 95% 在 μ±2σ\mu\plusmn2\sigma
  • 有 99.7% 在 μ±3σ\mu\plusmn3\sigma
  • 线性变换:若 xN(μ,σ2)x\sim\mathcal{N}(\mu,\sigma^2)aX+bN(aμ+b,a2σ2)aX+b\sim\mathcal{N}(a\mu+b,a^2\sigma^2)

标准正态分布

μ=0\mu=0σ=1\sigma=1 时称为标准正态分布,概率密度函数为

f(x)=12πexp(x22)f(x)=\frac{1}{\sqrt{2\pi}}\exp(-\frac{x^2}{2})


混合高斯分布

v2-085fa662e29839904957f644bb6a543f_r.jpg

混合高斯分布(Gaussian Mixture Model, GMM)是由多个高斯分布线性组合而成的概率分布,常用于对复杂数据分布的建模


概率密度函数

p(x)=kKπkN(xμk,Σk)p(x)=\sum_k^K\pi_k\mathcal{N}(x\vert\mu_k,\Sigma_k)

  • KK 是高斯分布的数量
  • πk\pi_k 是第 kk 个高斯分布的混合系数(权重),满足 kKπk=1,πk0\sum_k^K\pi_k=1,\pi_k\geq0
  • N(xμk,Σk)\mathcal{N}(x\vert\mu_k,\Sigma_k) 是第 kk 个高斯分布的概率密度函数, μk\mu_k 是均值, Σk\Sigma_k 是协方差

性质

  • 期望值为 E[X]=kKπkμkE[X]=\sum_k^K\pi_k\mu_k
  • 协方差矩阵为 Cov(X)=kKπk(Σk+(μkE[X])(μkE[X])T)Cov(X)=\sum_k^K\pi_k(\Sigma_k+(\mu_k-E[X])(\mu_k-E[X])^T)
  • 灵活性:通过调整高斯分布的数量 KK 和参数,可以模拟各种复杂分布
  • 多峰性:混合高斯分布可以描述多峰数据,而单一高斯分布只能描述单峰数据

狄利克雷分布

狄利克雷分布(Dirichlet Distribution)是概率论中的一种连续多元概率分布,常用于贝叶斯统计和多元数据分析,它是贝塔分布(Beta Distribution)在高维空间中的推广


定义

对于一个 KK 维随机向量 X={x1,xk}X=\{x_1,…x_k\} ,如果其满足如下条件

  • 对于任意 ii 都满足 xi0x_i\geq0
  • iKxi=1\sum_i^Kx_i=1

并且其概率密度函数为

f(Xα)=1B(α)iKxiαi1f(X\vert\alpha)=\frac{1}{B(\alpha)}\prod_i^Kx_i^{\alpha_i-1}

  • α=(α1,αK)\alpha=(\alpha_1,…\alpha_K) 是一个正实数,称为浓度参数(concentration parameters)
  • B(α)=iKΓ(αi)Γ(iKαi)B(\alpha)=\frac{\prod_i^K\Gamma(\alpha_i)}{\Gamma(\sum_i^K\alpha_i)} 是多元贝塔函数,其中 Γ\Gamma 是伽马函数

性质

  • 期望值为 E[xi]=αijKαjE[x_i]=\frac{\alpha_i}{\sum_j^K\alpha_j}
  • 方差 Var(xi)=αi(jKαjαi)(jKαj)2(jKαj+1)Var(x_i)=\frac{\alpha_i(\sum_j^K\alpha_j-\alpha_i)}{(\sum_j^K\alpha_j)^2(\sum_j^K\alpha_j+1)}
  • 协方差为 Cov(xi,xj)=αiαj(kKαk)2(kKαk+1)ijCov(x_i,x_j)=\frac{-\alpha_i\alpha_j}{(\sum_k^K\alpha_k)^2(\sum_k^K\alpha_k+1)}\quad i\neq j
  • 狄利克雷分布是多项分布的共轭先验,即如果先验分布是狄利克雷分布,似然函数是多项分布,那么后验分布也是狄利克雷分布
  • 狄利克雷分布具有聚集性质,即对于 pDir(α)p\sim Dir(\alpha) ,则 pp 的某些分量可以合并,合并之后仍然是狄利克雷分布
  • 当所有的 αi\alpha_i 相等时,狄利克雷分布是对称的,分布的形状在各个方向上相同

贝塔分布

730e0cf3d7ca7bcbee16a1b6b5096b63f624a83e.webp

贝塔分布(Beta Distribution)是定义在区间 [0,1][0,1] 上的一种连续概率分布,常用于表示概率的概率分布


定义

贝塔分布由两个正实数参数 α\alphaβ\beta 定义,其概率密度函数为

f(xα,β)=xα1(1x)β1B(α,β)f(x\vert\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}

  • x[0,1]x\in[0,1] 是随机变量
  • α>0\alpha>0β>0\beta>0 是形状参数
  • B(α,β)=Γ(α)Γ(β)Γ(α+β)B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)} 是贝塔函数,其中 Γ\Gamma 是伽马函数

性质

  • 期望值为 E[X]=αα+βE[X]=\frac{\alpha}{\alpha+\beta}
  • 方差为 Var(X)=αβ(α+β)2(α+β+1)Var(X)=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}
  • 众数为 Mode(X)=α1α+β2Mode(X)=\frac{\alpha-1}{\alpha+\beta-2}
  • 对称性:
    • α=β\alpha=\beta 时分布是对称
    • α>β\alpha>\beta 时分布左偏
    • α<β\alpha<\beta 时分布右偏
  • α=β=1\alpha=\beta=1 时,贝塔分布退化为均匀分布
  • 形状
    • α>1,β>1\alpha>1,\beta>1 时,分布呈单峰
    • α<1,β<1\alpha<1,\beta<1 时,分布呈 U 形
    • α<1,β1\alpha<1,\beta\geq1α1,β<1\alpha\geq1,\beta<1 时,分布呈 J 形

多元高斯分布

多元高斯分布(Multivariate Gaussian Distribution)是单变量高斯分布在多维空间中的推广,用于描述多个随机变量的联合分布


概率密度函数

p(x)=1(2π)n/2Σ1/2exp(12(xμ)TΣ1(xμ))p(x)=\frac{1}{(2\pi)^{n/2}\vert\Sigma\vert^{1/2}}\exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

  • xx 是 n 维随机向量
  • μ\mu 是均值向量,表示各变量的期望值
  • Σ\Sigma 是协方差矩阵
  • Σ\vert\Sigma\vert 是协方差矩阵的行列式

性质

  • 均值向量 μ\mu 决定分布的中心位置
  • 协方差矩阵 Σ\Sigma 控制分布的形态和方向
  • 若协方差矩阵为对角矩阵,变量间相互独立
  • 对多元高斯随机向量进行线性变换,结果仍为多元高斯分布