2025-11-20 07:03:15
回归分析要多少数据得看变量多少和精度要求。一般说自变量多就得多拿数据,比如1个变量要30个样本,3个变量得100个以上。误差范围小的话得翻倍,比如预测房价误差要控制在3%以内,样本量得比基础量多一倍。
为啥是这个数呀?因为回归要算系数和误差,系数越多计算越复杂,数据不够容易算错。比如拿10个自变量做回归,每个系数算错1%,10个合起来就10%,误差就大得吓人。研究里常用10倍规则,比如3个变量至少要30个样本,5个变量得50个以上。有研究说用Cohen效应量0.2的话,样本量得是自变量数的10倍,比如5个变量要50个样本。数据太少的话,像只有20个样本配5个变量,回归系数标准差就大得离谱,可能正负颠倒。比如实际系数是0.5,样本少的话可能算成-0.3,完全反着来。所以得留够数据防着计算误差。不过有些场景比如数据特别多,像电商订单有百万级数据,哪怕变量多些也不怕,但小项目最好按10倍准备。算样本量还得看软件会不会自动处理缺失值,有些工具遇到缺失数据会直接剔除,得提前多备点。
本题链接: