随机变量及其分布
离散性随机变量和常见分布
分布律:X取各个可能值的概率,即P{X=xk}=pk,或者用表格描述
几何分布,记为X∼g(p)或X∼Ge(p)。所有可能取值为0,1,⋯,P{X=k}=(1−p)k−1p。(独立重复实验第k次才成功)
二项分布,记为X∼b(n,p)。所有可能取值为0,1,⋯,n,P{X=k}=(kn)pk(1−p)n−k。(n次独立重复实验共成功k次)
泊松分布,记为X∼π(λ)。所有可能取值为0,1,⋯,P{X=k}=k!λke−λ。(大量实验中稀有事件的出现次数,λ的概率意义为事件的平均发生次数)
泊松定理:设λ>0是一个常数,n是任意正整数,设npn=λ,则对于任意一固定的非负整数k,有n→∞lim(kn)pnk(1−pn)n−k=k!λke−λ。
连续性随机变量和常见分布
分布函数F(x)=P{X≤x},−∞<x<∞。离散型随机变量也有分布函数。
概率密度f(t)满足F(x)=∫−∞xf(t)dt,此时F(x)是连续函数,X称为连续型随机变量。
均匀分布,记为X∼U(a,b),f(x)={b−a1,0,a<x<b其他。
指数分布,记为X∼E(λ),f(x)={λe−λx,0,x>0x≤0。(大量实验中稀有事件的出现次数,λ的概率意义为事件的平均发生次数)
正态分布,记为X∼N(μ,σ2),f(x)=2πσ1e−2σ2(x−μ)2。
随机变量的函数的分布
求Y=g(X)的分布函数FY(y)=P{Y≤y}=P{g(X)≤y},此时pY(y)=Fy′(y)。
随机变量X具有概率密度fX(x),函数g(x)处处可导且恒有g′(x)>0。则Y=g(X)是连续型随机变量,且概率密度为fY(y)=fX[h(y)]∣h′(y)∣,其中h(y)是g(x)的反函数。
若X∼N(μ,σ2),Y=aX+b,则Y∼N(aμ+b,(aσ)2)。
二维随机变量及其分布
二维随机变量
联合分布函数F(x,y)=P{X≤x,Y≤y}。
边缘分布函数,对X,Fx(x)=P(X≤x)=P(X≤x,Y≤+∞)=F(x,+∞)。对Y同理。
对于二维离散型随机变量,联合分布律为pij=P(X=xi,Y=yj),边缘分布律P{X=xi}=∑jpij=pi。也可以列表表示
| X\Y | y1 | y2 | ⋯ | pi⋅ |
|---|
| x1 | p11 | p12 | ⋯ | |
| x2 | p21 | p22 | ⋯ | |
| ⋮ | ⋮ | ⋮ | ⋱ | |
| p⋅j | | | | |
随机变量X,Y相互独立当且仅当p(x,y)=pX(x)pY(y)或F(x,y)=FX(x)FY(y)对于任意x,y均成立。
二维正态分布:
p(x,y)=1−ρ212πσ1σ21exp{−1−ρ21[(σ1x−μ1)2−2ρ(σ1x−μ1)(σ2y−μ2)+(σ2y−μ2)2]}
二维正态分布的边缘分布仍为正态分布:X∼N(μ1,σ12),Y∼N(μ2,σ22)。
二维随机变量函数的分布
若X,Y均为连续型随机变量且已知其密度函数,求Z=g(X,Y)的密度函数。
分布函数法:FZ(z)=P(Z≤z)=P(g(X,Y)≤z)=∬Dzp(x,y)dxdy,其中Dz={(x,y)∣g(x,y)≤Z}。
和的分布:Z=X+Y,FZ(z)=∫−∞+∞dx∫−∞z−xp(x,y)dxdy=∫−∞+∞dx∫−∞zp(x,u−x)du=∫−∞zdz∫−∞+∞p(x,u−x)du,pZ(z)=FZ′(z)=∫−∞+∞p(x,z−x)dx。
商的分布:Z=YX,pZ(z)=∫−∞+∞∣y∣p(yz,y)dy。
积的分布:Z=XY,pZ(z)=∫−∞+∞∣X∣1f(x,xz)dx。
极大极小分布:M=max(X,Y),N=min(X,Y),FM(z)=P(M≤z)=P(X≤z,Y≤z)=FX(z)FY(z),FN(z)=P(N≤z)=1−P(X>z,Y>z)=1−(1−FX(z))(1−FY(z))。
随机变量的期望与方差
常见分布的期望和方差
D(X)=E[(X−E(X))2]=E(X2)−[E(X)]2
- (0-1)分布E(X)=p,D(X)=p(1−p)
- 二项分布E(X)=np,D(X)=np(1−p)
- 泊松分布E(X)=λ,D(X)=λ
- 指数分布E(X)=λ1,D(X)=λ21
- 正态分布E(X)=μ,D(x)=σ2
数学期望的性质
- E(kX)=kE(X)
- E(X+Y)=E(X)+E(Y)
- 若X,Y相互独立,则E(XY)=E(X)E(Y)
方差的性质
矩
对随机变量X,若E(Xk)存在,则称为X的k阶原点矩,简称k阶矩。E(X)是X的一阶矩。
对随机变量X,若E((X−E(X))k)存在,则称为X的k阶中心矩。D(X)是X的二阶中心矩。
协方差
方差有性质D(X±Y)=D(X)+D(Y)±2E((X−EX)(Y−EY))。其中E((X−EX)(Y−EY))=E(XY)−E(X)E(Y)称为X和Y的协方差,记为cov(X,Y)。
X,Y相互独立时,有cov(X,Y)=E(XY)−E(X)E(Y)=0,但是cov=0时X,Y不一定相互独立。
协方差的性质:
- cov(X,k)=0,cov(X,Y)=cov(Y,X)
- cov(aX,bY)=ab⋅cov(X,Y)
- cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)
- D(X±Y)=D(X)+D(Y)±2cov(X,Y)
- (cov(X,Y))2≤D(X)D(Y)
相关系数
设D(X)>0,D(Y)>0,称ρXY=D(X)D(Y)cov(X,Y)为随机变量X,Y的相关系数。
显然∣ρXY∣≤1,且∣ρXY∣=1当且仅当存在常数a,b使得Y=aX+b。
X,Y不相关时,ρXY=cov(X,Y)=0,E(XY)=E(X)E(Y)且D(X±Y)=D(X)+D(Y)。注意X,Y不相关不等价于X,Y独立。
大数定律和中心极限定理
大数定律
设X1,X2,⋯,Xn,⋯是随机变量序列,a是一个常数。若对任意ε>0,有n→∞limP(∣Xn−a∣<ε)=1,或者n→∞limP(∣Xn−a∣≥ε)=0,则称X1,X2,⋯,Xn,⋯依概率收敛与a,记为Xn⟶Pa。
若n→∞limP(∣n1k=1∑nXk−n1k=1∑nEXk∣<ε)=1,也即n1∑k=1nXk⟶Pn1∑k=1nEXk,则称{Xn}服从大数定律(随机变量的平均值依概率收敛于它们数学期望的平均值)。
马尔可夫大数定律
切比雪夫不等式:P(∣X−EX∣≥ε)≤ε2DX。
设随机变量{Xn}满足D(n1k=1∑nXk)→0,则{Xk}服从大数定律。
P(∣n1∑k=1nXk−n1∑k=1nEXk∣≥ε)=P(∣n1∑k=1nXk−E(n1∑k=1nXk)∣≥ε)≤D(n1∑k=1nXk)。
切比雪夫大数定律
设随机变量X1,X2,⋯,Xn,⋯两两互不相关,且存在常数C>0使得对于每个Xk,都有D(Xk)<C,则{Xk}服从大数定律。(由马尔可夫大数定律可证)
独立同分布大数定律
设随机变量X1,X2,⋯,Xn,⋯独立同分布,EXk=μ,DXk=σ2<∞,则{Xk}服从大数定律。(由切比雪夫大数定律可证)
中心极限定理
若随机变量X满足EX=0,DX=1,则称X为标准化的随机变量。任意随机变量X都可以通过Y=DXX−EX化为标准化的随机变量。
设随机变量X1,X2,⋯,Xn,⋯独立同分布,EXk=μ,DXk=σ2<∞,则n→∞limP(nσ∑k=1nXk−nμ≤x)=Φ(x)。(∑k=1nXk的极限分布为正态分布N(E(∑k=1nXk),D(∑k=1nXk)),从而标准化后为标准正态分布)
抽样分布
样本统计量
定义:
- 总体:研究对象的某项数量指标的值的全体。
- 个体:总体中的每个元素为个体。
- 对于分布函数为F的随机变量X,X1,X2,⋯,Xn是具有同一分布函数F的相互独立的随机变量,则称X1,X2,⋯,Xn为从总体X中得到的容量为n的简单随机样本,简称为样本,其观察值x1,x2,⋯,xn称为样本值。
由定义,可得X1,X2,⋯,Xn的联合分布函数为F∗(x1,x2,⋯,xn)=Πi=1nF(xi)。
- 设X1,X2,⋯,Xn是来自总体X的样本,g(X1,X2,⋯,Xn)是X1,X2,⋯,Xn的函数,若g是连续函数,且g中不含任何未知参数,则称g(X1,X2,⋯,Xn)是一个统计量。设x1,x2,⋯,xn是X1,X2,⋯,Xn的样本值,则称g(x1,x2,⋯,xn)是g(X1,X2,⋯,Xn)的观察值。(统计量也是随机变量)
常见的统计量:
- 样本均值:Xˉ=n1∑i=1nXi。
- 样本方差:Sn2=n1∑i=1n(Xi−Xˉ)2=n1∑i=1nXi2−Xˉ2。
- 修正的样本方差:Sn−12=n−11∑i=1n(Xi−Xˉ)2。修正原因在第七章(无偏估计)。
- 设X1,X2,⋯,Xn是来自正态总体X∼N(μ,σ2)的样本,EXˉ=μ,DXˉ=nσ2,E(Sn2)=nn−1σ2。
正态总体的分布
α分位点:对于分布函数F(x)=P(X≤x),其α分位点Fα满足P(X>Fα)=α,也即F(Fα)=P(X≤Fα)=1−α。
设X1,X2,⋯,Xn是来自正态总体X∼N(μ,σ2)的样本,则随机变量Xˉ∼N(μ,nσ2),或σ/nXˉ−μ∼N(0,1)。
设X1,X2,⋯,Xn是来自正态总体X∼N(0,1)的样本,则称随机变量χ2=X12+X22+⋯+Xn2服从自由度为n的χ2分布,记为χ2∼χ2(n)。
若X1∼χ2(n1),X2∼χ2(n2),则X1+X2∼χ2(n1+n2)。(χ2分布的可加性)
E(χ2(n))=n,D(χ2(n))=2n。
设X∼N(0,1),Y∼χ2(n),且X,Y相互独立,则称随机变量T=Y/nX服从自由度为n的t分布,记为T∼t(n)。
设X∼χ2(n1),Y∼χ2(n2),且X,Y相互独立,则称随机变量F=Y/n2X/n1服从自由度为n的F分布,记为F∼F(n1,n2)。若F∼F(n1,n2),则F1∼F(n2,n1)。
正态总体样本统计量的分布
设X1,X2,⋯,Xn是来自正态总体X∼N(μ,σ2)的样本,则Xˉ=n1i=1∑nXi∼N(μ,nσ2),或σ/nXˉ−μ∼N(0,1)。
设X1,X2,⋯,Xn是来自正态总体X∼N(μ,σ2)的样本,则σ2nSn2=σ2∑i=1n(Xi−Xˉ)=i=1∑n(σXi−Xˉ)2∼χ2(n−1)。(注意:∑i=1n(σXi−μ)2∼χ2(n))
证明:
i=1∑n(Xi−μ)2=i=1∑n((Xi−Xˉ)+(Xˉ−μ))2=i=1∑n(Xi−Xˉ)2+n(Xˉ−μ)2
i=1∑n(σXi−μ)2=i=1∑n(σXi−Xˉ)2+(σ/nXˉ−μ)2
Xˉ和Sn2独立,且有Sn/n−1Xˉ−μ∼t(n−1)。
参数估计
点估计
矩估计
使用k阶样本矩Ak=n1∑i=1nXik估计k阶总体矩uk=E(Xk)。
具体而言,先使用未知参数表示出k阶总体矩EXk,然后用样本矩估计总体矩(令EXk=n1∑i=1nXik)得到未知参数的矩估计量。有多个未知数则取多组k阶矩即可。
极大似然估计
选取使观测值出现的概率最大的参数作为估计量。
具体而言,先得到观测值的出现概率L(θ)=Πi=1np(Xi,θ),其中L(θ)称为样本的似然函数。令dθdL=0或dθdlnL=0,得到似然函数最大时的θ^作为极大似然估计量。有多个未知参数则分别令偏导为零即可。
设u=u(θ)是θ的函数且反函数存在,则u^=u(θ^)也是u的极大似然估计。
均方误差
E[(θ^−θ)2]称为均方误差,记为MSE(θ^,θ)。
MSE(θ^,θ)=E[(θ^−Eθ^)+(Eθ^−θ)]2=E[θ^−Eθ^]2+2[E(θ^−Eθ^)](Eθ^−θ)+(Eθ^−θ)2=D(θ^)+0+(Eθ^−θ)2。
也即,均方误差由点估计的方差D(θ^)与偏差∣E(θ^)−θ∣的平方两个部分组成。
σ^2=n1i=1∑n(Xi−Xˉ)2,又σ2nσ^2∼χ2(n−1),因此E(σ^2)=nn−1σ2,D(σ^2)=n2σ4D(χ2(n−1))=n2σ4⋅2(n−1)。MSE(θ^2)=D(σ^2)+(E(σ^2)−σ2)2=n2(2n−1)σ4。
Sn−12=n−11∑i=1n(Xi−Xˉ)2,故MSE(Sn−12)=D(Sn−12)=n−12σ4。
估计量的评价标准
无偏性
若E(θ^)=θ,则称θ^是θ的无偏估计量。(要求估计值的平均值和真值相等)
样本均值Xˉ是总体均值E(X)的无偏估计量,样本二阶矩n1∑i=1nXi2是总体二阶矩EX2的无偏估计量,然而样本方差Sn2不是总体方差DX=σ2的无偏估计量。
E(Sn2)=E(n1∑i=1nXi2−Xˉ2)=n1∑i=1n(DXi+(EXi)2)−(DXˉ+(EXˉ)2)=nn−1σ2
Sn−12=n−1nSn2是总体方差DX=σ2的无偏估计量,因此通常选用Sn−12估计σ2。
有效性
若参数θ^1,θ^2都是参数θ的无偏估计量,若对于任意n,都有D(θ^1)≤D(θ^2),则θ^1比θ^2更有效。
一致性
设θ^n是在样本X1,X2,⋯,Xn下对总体参数θ的估计量,若当n→∞时,θ^n依概率收敛于θ,即∀ε>0,limn→∞P(∣θ^n−θ∣<ε)=1,则称θ^n是对总体参数θ的一致估计量。
样本k阶矩是总体k阶矩的一致性估计量。(大数定理)
设θ^n是对总体参数θ的无偏估计量,且limn→∞D(θ^n)=0,则θ^n是θ的一致估计量。(切比雪夫不等式)
区间估计
置信区间与置信度
设总体X含未知参数θ,对于样本X1,⋯,Xn找出统计量θ^1,θ^2,使得P(θ^1≤θ≤θ^2)=1−α,则称区间[θ^1,θ^2]为θ的置信度为1−α的置信区间。
设X1,X2,⋯,Xn是来自正态总体X∼N(μ,σ2)的样本。在置信度1−α下:
-
已知方差σ2=σ02,求μ的置信区间。
由于Xˉ=n1i=1∑nXi∼N(μ,nσ2),或σ/nXˉ−μ∼N(0,1)。
通常而言,针对给出的置信度选取长度最小的 置信区间,即令P(−uα/2≤σ/nXˉ−μ≤uα/2)=1−α。
此时可通过标准正态分布的上分位点找到uα/2。
最后解出μ的置信区间[Xˉ−uα/2nσ0,Xˉ+uα/2nσ0]。
-
未知方差,求μ的置信区间。
由于方差未知,使用样本方差代替σ2。
令U=σ/nXˉ−μ∼N(0,1);V=σ2nSn2∼χ2(n−1),
有Sn/n−1Xˉ−μ=σ/nSn/n−1σ/nXˉ−μ=V/(n−1)U∼t(n−1)。
令P(−tα/2(n−1)≤Sn/n−1Xˉ−μ≤tα/2(n−1))=1−α,
此时可通过t分布的上分位点找到tα/2。
最后解出μ的置信区间[Xˉ−tα/2(n−1)n−1Sn,Xˉ+tα/2(n−1)n−1Sn]。
-
求方差σ2的置信区间。
由于σ2nSn2∼χ2(n−1),令P(−χ1−α/22(n−1)≤σ2nSn2≤χα/22(n−1))=1−α,
此时可通过χ2分布的上分位点找到χ1−α/22和χα/22。
最后解出σ2的置信区间[χα/22(n−1)nSn2,χ1−α/22(n−1)nSn2]。
对于双正态分布:
-
已知方差σ1,σ2,求μ1−μ2的置信区间。
Xˉ−Yˉ∼N(μ1−μ2,n1σ12+n2σ22),n1σ12+n2σ22(Xˉ−Yˉ)−(μ1−μ2),转化为正态分布情况。
-
方差比σ22σ12的置信区间。
令U=σ12n1S12∼χ2(n1−1);V=σ22n2S22∼χ2(n2−1),
有S22/σ22S12/σ12=(n2S22/σ22)/n2(n1S12/σ12)/n1=V/(n2−1)U/(n1−1)∼F(n1−1,n2−1)
对于其他非正态分布,由中心极限定理,可知当N足够大时,样本均值近似服从N(E(X),D(X)),转化为正态分布求解。