2025-11-20 06:12:35
数据预处理就是整理数据,去掉错误和乱码,让机器更好分析。比如手机里的照片有黑边、模糊,得先裁剪和调清晰才能用。数据里如果有乱数字符或重复条目,机器会算错。比如100个人买衣服,2个人数据写错价格,整个模型预测都会不准。
为什么是这个答案?因为数据里错误太多,机器根本算不出。比如某公司测试发现,原始数据有10%错误,模型准确率掉到30%。处理后错误降到1%,准确率升到85%。还有时间问题,数据量大不处理,跑一天可能只处理10%,处理完再跑才1小时。比如处理100万条数据,不预处理要8小时,预处理后只要40分钟。数据量像山一样堆着,机器吃不动。比如银行有1亿条交易记录,没清理直接用,系统要死机。还有格式问题,有的数据是英文数字,有的用汉字,机器分不清。比如把“三”和“3”当不同数,统计结果就乱套。数据预处理就像煮饭前洗菜,洗掉烂菜叶,煮出来的饭才香。
本题链接: