参数估计是统计推断的一种重要形式,是利用样本对已知分布形式的分布族中的未知参数进行估计。
参数估计分为点估计和区间估计。
使用样本点的函数
评价点估计的优良性的准则包括无偏性、有效性、相合性、渐近正态性等。
- 无偏性要求
$\mathrm E_\theta(\hat g(\boldsymbol X))=g(\theta)$ ,即估计量的期望应当就是被估计的数。- 样本方差是总体方差的一个无偏估计
- 有效性要求估计量的方差越小越好
- 相合性要求估计量与真实值之间的偏差随样本容量的增加逐渐降低
- 渐进正态性
基本思想是要求样本的 k 阶矩等于总体的 k 阶矩。使用原点矩还是中心矩依照情况来定。
一般来说用样本的原点矩估计总体的原点矩是无偏的,但是中心矩估计一般是有偏的,比如
如果要估计的量可以表示为总体分布的某些矩的函数,就用对应的样本矩代替总体矩进行估计,得到的估计值称为矩估计。由于将一个量表示为若干矩的方法不唯一,所以矩估计也不唯一。
矩估计的优点在于比较直观、不需要对总体的分布有很多的认识、比较简便易行;缺点在于不能很好地利用参数分布族的信息,并且不具有唯一性。
样本原点矩是总体原点矩的无偏估计,而样本中心矩对总体中心矩的估计一定(?)是有偏的。对于待估函数是一些矩的函数的情况,一般矩估计是有偏的,但是如果该函数是矩的线性组合则一般是无偏的。
即使是有偏的矩估计一般也具有渐进无偏性。(比如
矩估计还具有相合性和渐进正态性。
渐进正态性这里似乎还是主要了解 delta 方法即可。不需要了解到底是怎样 converge 的,比如殆必收敛和依概率收敛之间的区别等。
将概率函数
此处有很多关于极大似然估计的例子。比较有趣的是位置未定的均匀分布的 MLE 有无穷多个,只要
极大似然估计可能是有偏的。
极大似然估计一定可以表示为充分统计量的函数。
极大似然估计具有渐近正态性,方差为 Fisher 信息量的倒数。
评价估计量的好坏可以用均方误差(MSE)来描述,定义为
均方差等于 bias 平方和估计量本身方差的和。
在实际情况中一致最小均方估计常常是不存在的,退而求其次,在所有无偏估计量中找到方差最小的统计量是可行的。
存在不存在无偏估计的情况,比如未知
对于同样的无偏估计,我们计算其中方差最小的估计量,即 一致最小方差无偏估计(UMVUE).
以下是一个改进无偏估计的方法:如果
这个定理还表明,UMVUE 一定是充分统计量的函数。(如果没有“最小”二字,这句话毫无意义)(一般来说直接在常见的充分统计量基础上构造一个无偏估计,就大概率是 UMVUE)
主要为了判定一个估计是否是 UMVUE,不能用来寻找 UMVUE。
一个无偏估计
这个定理的适用不太方便,因为零无偏估计很多。
如果无偏估计是充分统计量 T 的函数,那么只要对于任何导出自充分统计量的 0 的无偏估计
二项分布的例题中似乎采用证明 T 为完备统计量的方式来证明
均匀分布也是类似的,对参数求导可知其为完备统计量。这里的 UMVUE 是
对于指数分布来说,也可以根据 Laplace 变换证明其完备性,或者对参数求导之后的结果恰好可以证明两个统计量积的期望为 0. 总体均值
正态分布与指数分布类似,可以通过求导等手段构造出二者积的期望。
这里再回顾一下完备统计量:对于完备统计量 T,不存在从 T 导出的函数是 0 的无偏估计,除非 T 是恒为 0 的。
由充分且完备统计量构造出的无偏估计 一定是唯一的 UMVUE!
进一步地,如果是指数分布族,那么由指数部分中每一个
这样一来零无偏估计法似乎没有太大的价值?
除太过显然的直接证明之外,LS 定理的例题主要是寻找无偏统计量的过程。难点在于直接从充分且完备统计量出发构造出无偏统计量,直接用统计量替换参数得到的结果很容易变成有偏的,尤其是非线性情况下。
比如例 3.4.8:根据 Bernoulli 试验进行 n 次得到的样本估计
方法 1:在已知充分完备统计量的前提下,先构造一个比较显然的无偏估计,然后用充分统计量加以改进,最后得到的量一定是充分且完备统计量的函数,自然也就是 UMVUE。
方法 2:直接嗯构造,猜测一个函数形式是
这里的两种方法在上课的 PPT 中也有提及。
还有第三种方法,先写出充分完备统计量的某个幂次的期望,然后进行一定的线性调整,常见于正态情况。
例 3.4.9:Poisson 分布中
例 3.4.10 根据指数分布的随机样本对
例 3.4.11 求正态分布中
CR 不等式可以给出无偏估计量的下界,如果一个无偏估计的方差达到这个下界,那么这个无偏估计就是一个 UMVUE. 在很多情况下,即使是 UMVUE 也无法达到 CR 不等式给出的下界,此时 CR 不等式无法对 UMVUE 进行判断。
CR 不等式需要一些正则条件
- 参数空间是开区间;
- 分布族具有共同的支撑集,即取值范围不依赖于参数;
- 概率函数对参数
$\theta$ 的导数存在; - 概率函数的积分和微分可交换;
- Fisher 信息量存在
则任何无偏估计
如果
对于指数族,正则条件全部成立。
需要详细看一下例 3.5.1-4.
看了一下,就是硬算,没什么技术含量。
信息量越大,无偏估计的方差的下界越低,说明对参数
Fisher 信息量还出现在极大似然估计的渐进方差中。
将比值
即该估计在多大程度上达到了 CR 不等式给出的下界。效率为 1 的无偏估计称为有效估计。