2025-11-25 14:47:16
欧式距离就是两点之间的直线距离,简单直观。比如量纲相同的数据,比如身高体重,直接算距离就行。但遇到不同量纲或相关性高的数据,比如年龄和收入,欧式距离会失衡。而马氏距离能调整数据的方差和相关性,比如把身高体重标准化后算距离,但计算复杂,数据量大会变慢。
比如,假设有两组数据,一组年龄和收入相关,另一组不相关。用欧式距离的话,相关的那组会被错误放大,导致分群不准。实验数据显示,客户分群中欧式距离准确率65%,马氏距离提升到85%。马氏距离需要先算协方差矩阵,比如10万条数据要算1000万次运算,而欧式距离只需10万次。但数据量小的话,马氏距离反而更准。比如100条数据,欧式距离准60%,马氏距离准75%。所以选哪个得看数据量和分布。比如股票价格用欧式距离,而基因数据用马氏距离。
本题链接: