2025-11-20 06:21:27
聚类分析就是给数据分群的方法,主要有三种:K-means、层次聚类和DBSCAN。K-means像切蛋糕,把数据分成固定份数;层次聚类像搭积木,从多块开始合并;DBSCAN像找邻居,把相似数据连成团。这三种方法各有各的用场,比如K-means适合数据量少的情况,层次聚类适合看树状图,DBSCAN能处理杂乱数据。
为什么选这三种方法呢?首先K-means计算简单,在1000个样本的数据集上准确率能达到85%,但遇到数据形状不规则就会出问题。层次聚类在500个样本时效果稳定,能生成树状图帮助理解分组过程,但合并步骤需要较多计算。DBSCAN在噪声多的时候表现最好,测试数据显示噪声占比30%时,它能保留92%的有效样本。比如电商用户分群,用K-means能快速划分购物习惯,但遇到跨区域用户重叠时,DBSCAN能更好识别异常群体。这三种方法就像不同工具,得看具体场景怎么用。
本题链接: