2025-11-21 01:04:02
小提琴图是看数据分布的好工具,中间的盒子是四分位数,左右两片是密度曲线。异常值就是那些特别偏离盒子范围的点,像小提琴的琴弦突然变细或变粗的地方。比如说销量数据里有个月卖了一万件,其他月都是几百件,这个异常值可能说明促销活动或者数据录入错误。
为什么异常值要看小提琴图呢?因为盒子里只能显示25%到75%的数据,而小提琴图把全部数据都画出来了。比如有个电商数据集,用小提琴图发现有个订单金额是500万,其他订单都在5000以内。查了一下,这个500万是系统错误把小数点后移了三位,真实金额是5000元。这时候异常值就暴露出来了,说明数据清洗很重要。再比如某个月销售额突然翻了三倍,但小提琴图显示其他月份都是平稳的,这时候可能是临时活动或者统计口径出错了。所以看异常值得结合业务场景,不能光看图表上离谱的点。
本题链接: