随机变量及其分布

离散性随机变量和常见分布

分布律:取各个可能值的概率,即,或者用表格描述

几何分布,记为。所有可能取值为。(独立重复实验第次才成功)

二项分布,记为。所有可能取值为。(次独立重复实验共成功次)

泊松分布,记为。所有可能取值为。(大量实验中稀有事件的出现次数,的概率意义为事件的平均发生次数)

泊松定理:设是一个常数,是任意正整数,设,则对于任意一固定的非负整数,有

连续性随机变量和常见分布

分布函数。离散型随机变量也有分布函数。

概率密度满足,此时是连续函数,称为连续型随机变量。

均匀分布,记为

指数分布,记为。(大量实验中稀有事件的出现次数,的概率意义为事件的平均发生次数)

正态分布,记为

随机变量的函数的分布

的分布函数,此时

随机变量具有概率密度,函数处处可导且恒有。则是连续型随机变量,且概率密度为,其中的反函数。

,则

二维随机变量及其分布

二维随机变量

联合分布函数

边缘分布函数,对。对同理。

对于二维离散型随机变量,联合分布律为,边缘分布律。也可以列表表示

X\Y

随机变量相互独立当且仅当对于任意均成立。

二维正态分布:

二维正态分布的边缘分布仍为正态分布:

二维随机变量函数的分布

均为连续型随机变量且已知其密度函数,求的密度函数。

分布函数法:,其中

和的分布:

商的分布:

积的分布:

极大极小分布:

随机变量的期望与方差

常见分布的期望和方差

  • (0-1)分布
  • 二项分布
  • 泊松分布
  • 指数分布
  • 正态分布

数学期望的性质

  • 相互独立,则

方差的性质

  • 。当相互独立时,

  • 切比雪夫不等式

对随机变量,若存在,则称为阶原点矩,简称阶矩。的一阶矩。

对随机变量,若存在,则称为阶中心矩。的二阶中心矩。

协方差

方差有性质。其中称为的协方差,记为

相互独立时,有,但是不一定相互独立。

协方差的性质:

相关系数

,称为随机变量的相关系数。

显然,且当且仅当存在常数使得

不相关时,。注意不相关不等价于独立。

大数定律和中心极限定理

大数定律

是随机变量序列,是一个常数。若对任意,有,或者,则称依概率收敛与,记为

,也即,则称服从大数定律(随机变量的平均值依概率收敛于它们数学期望的平均值)。

马尔可夫大数定律

切比雪夫不等式:

设随机变量满足,则服从大数定律。

切比雪夫大数定律

设随机变量两两互不相关,且存在常数使得对于每个,都有,则服从大数定律。(由马尔可夫大数定律可证)

独立同分布大数定律

设随机变量独立同分布,,则服从大数定律。(由切比雪夫大数定律可证)

中心极限定理

若随机变量满足,则称为标准化的随机变量。任意随机变量都可以通过化为标准化的随机变量。

设随机变量独立同分布,,则。(的极限分布为正态分布,从而标准化后为标准正态分布)

抽样分布

样本统计量

定义:

  • 总体:研究对象的某项数量指标的值的全体。
  • 个体:总体中的每个元素为个体。
  • 对于分布函数为的随机变量是具有同一分布函数的相互独立的随机变量,则称为从总体中得到的容量为的简单随机样本,简称为样本,其观察值称为样本值。 由定义,可得的联合分布函数为
  • 是来自总体的样本,的函数,若是连续函数,且中不含任何未知参数,则称是一个统计量。设的样本值,则称的观察值。(统计量也是随机变量)

常见的统计量:

  • 样本均值:
  • 样本方差:
  • 修正的样本方差:。修正原因在第七章(无偏估计)。
  • 是来自正态总体的样本,

正态总体的分布

分位点:对于分布函数,其分位点满足,也即

是来自正态总体的样本,则随机变量,或

是来自正态总体的样本,则称随机变量服从自由度为分布,记为

,则。(分布的可加性)

,且相互独立,则称随机变量服从自由度为分布,记为

,且相互独立,则称随机变量服从自由度为分布,记为。若,则

正态总体样本统计量的分布

是来自正态总体的样本,则,或

是来自正态总体的样本,则。(注意:

证明:


独立,且有

参数估计

点估计

矩估计

使用阶样本矩估计阶总体矩

具体而言,先使用未知参数表示出阶总体矩,然后用样本矩估计总体矩(令)得到未知参数的矩估计量。有多个未知数则取多组阶矩即可。

极大似然估计

选取使观测值出现的概率最大的参数作为估计量。

具体而言,先得到观测值的出现概率,其中称为样本的似然函数。令,得到似然函数最大时的作为极大似然估计量。有多个未知参数则分别令偏导为零即可。

的函数且反函数存在,则也是的极大似然估计。

均方误差

称为均方误差,记为

也即,均方误差由点估计的方差与偏差的平方两个部分组成。

,又,因此

,故

估计量的评价标准

无偏性

,则称的无偏估计量。(要求估计值的平均值和真值相等)

样本均值是总体均值的无偏估计量,样本二阶矩是总体二阶矩的无偏估计量,然而样本方差不是总体方差的无偏估计量。

是总体方差的无偏估计量,因此通常选用估计

有效性

若参数都是参数的无偏估计量,若对于任意,都有,则更有效。

一致性

是在样本下对总体参数的估计量,若当时,依概率收敛于,即,则称是对总体参数的一致估计量。

样本阶矩是总体阶矩的一致性估计量。(大数定理)

是对总体参数的无偏估计量,且,则的一致估计量。(切比雪夫不等式)

区间估计

置信区间与置信度

设总体含未知参数,对于样本找出统计量,使得,则称区间的置信度为的置信区间。

是来自正态总体的样本。在置信度下:

  • 已知方差,求的置信区间。

    由于,或

    通常而言,针对给出的置信度选取长度最小的 置信区间,即令

    此时可通过标准正态分布的上分位点找到

    最后解出的置信区间

  • 未知方差,求的置信区间。

    由于方差未知,使用样本方差代替

    此时可通过t分布的上分位点找到

    最后解出的置信区间

  • 求方差的置信区间。

    由于,令

    此时可通过分布的上分位点找到

    最后解出的置信区间

对于双正态分布:

  • 已知方差,求的置信区间。

    ,转化为正态分布情况。

  • 方差比的置信区间。

对于其他非正态分布,由中心极限定理,可知当足够大时,样本均值近似服从,转化为正态分布求解。