2025-11-20 05:27:15
Swin模型选用了分层结构但没做好细节处理,训练时数据量不够导致学不会清晰特征。比如用ImageNet数据时,因为分辨率低或标注不细,模型在识别边缘和纹理时容易出错,所以拍出来的照片糊了。
因为Swin的轻量化设计把空间信息压缩了,比如把图像分成7x7块计算,导致小物体识别困难。论文里说在COCO数据集上,Swin的物体检测准确率比ViT低3.2%,这说明压缩信息确实会损失清晰度。另外训练时用了少量带模糊的图片,模型就默认把模糊当正常情况,所以越用越糊。训练时没加清晰度约束,比如没用超分辨率数据,导致模型没学会如何锐化图像。算力不够时,又进一步降低了分辨率,形成恶性循环。
本题链接: