礼品代发网

礼品代发网

收录130107113题,礼品代发网免费搜题解答

今日已更新0道题

pca为什么减均值-pca均值化计算步骤

2025-11-20 05:25:14  

pca为什么减均值-pca均值化计算步骤

优质解答

PCA为什么要减均值呢?因为每个特征都有自己独立的平均值,如果不减去这个平均值,所有数据会围绕各自的均值分布。比如身高和体重,如果直接计算方差,身高和体重的均值可能都不为零,这样计算出来的方差会包含均值本身的干扰。减去均值后,数据会变成以零为中心的分布,这样计算出来的方差才能真正反映数据本身的波动情况。

举个例子吧,假设三个人的身高是170、175、180厘米,体重是60、65、70公斤。如果不减均值,身高均值为175,体重均值为65,那么每个数据点都要减去对应的均值。比如第一个身高变成170-175=-5,体重变成60-65=-5。这样处理后,所有数据都围绕零波动,计算方差时就不会被原始均值拉偏了。比如身高方差原本是(25+0+25)/2=25,减均值后还是25,但如果没有减均值,实际计算会变成(5²+0²+5²)/2=25,其实结果一样?啊这里好像有问题,可能我的例子没说明白。其实方差计算本身是围绕均值的,所以无论是否减均值,方差结果应该相同。但PCA的核心是找方差最大的方向,如果所有数据都加上同一个均值,比如把身高都加100,变成270、275、280,这时候方差还是25,但主成分的方向会变成沿着身高轴,而不是数据本身的分散方向。所以减均值其实是让数据分布更纯粹,避免均值干扰主成分的方向选择。比如如果数据整体向右偏移,不减均值的话,主成分可能斜着向右,但实际上数据本身的分散方向是垂直的。这样主成分就找错了重点。所以减均值是为了让数据以零为中心,让方差真正反映数据本身的波动,而不是均值的偏移。

本题链接:

PCA减均值数据标准化