2025-11-10 00:05:38
最近学统计学的时候发现个疑问,为什么计算样本方差要用n-1除数而不用n?这个问题让我有点困惑。原来老师讲过无偏估计,但具体怎么来的还没想明白。举个例子吧,如果有三个数2、4、6,算总体方差用平方差平均的话结果是4,但如果是样本方差的话得用(2²+4²+6²-12)/2=10,结果明显不一样。这时候才明白n-1是为了让样本方差的平均值更接近真实总体方差。
为什么必须用n-1呢?其实这跟自由度有关。当我们用样本均值代替总体均值时,相当于把数据分成均值和偏离均值两部分。比如三个数算均值后,每个数都和均值有关系,这时候自由度就少了一个。数学上可以证明,如果用n做分母,样本方差的期望会比总体方差小一个单位。比如用三个数算样本方差,当n=3时,(Σ(x_i - x̄)²)/3的期望是(2/3)σ²,而用n-1=2做分母的话,期望正好是σ²。这就解释了为什么必须用n-1才能保证无偏性。再比如有100个数据点,用99做分母调整后的方差会更准确,因为每次用样本均值替代都会消耗一个自由度。这种调整方法在统计学里叫Bessel校正,是处理估计偏差的经典方法。
本题链接: