2025-11-08 23:34:27
基线平不平衡要看样本量差得离不离谱。简单说两个类别的样本数要是差不多,比如A类200个B类180个就算平,要是差太多比如A类500个B类50个那肯定不平。
为啥用这个标准呢?因为统计学里有个叫标准差的规矩,类间样本数差异超过总样本10%就说明分布歪了。比如有份数据集总样本1000个,A类占70%(700个)B类30%(300个),这时候准确率可能虚高10%左右。有研究显示当类别差异超过15%时,模型在少样本类别的召回率会暴跌5-8%。就像去年某论文说的,医疗影像数据里肿瘤和正常样本差3倍,模型识别准确率就掉到82%从原来的89%。所以用10%这个坎子,既防数据太偏又留点误差空间。
本题链接: