TL;DR스마트폰으로 100‑megapixel 사진이 일상인 시대입니다. 픽셀이 많아지면 모델이 학습하는 시각 표현도 풍성해지지만, 자율주행 같은 resource‑constrained 환경에서는 비용이 치솟습니다. Sparse ViT는 해상도를 그대로 두고 중요한 window만 계산합니다. 결과적으로 latency는 약 1.5× 감소, MACs는 0.8–1.8× 절감하면서 정확도는 유지하거나 거의 손실이 없습니다. 비결은 window 단위 activation sparsity, 계산이 가벼운 L2 norm 기반 중요도 스코어, 그리고 **Sparsity‑Aware Adaptation(SAA)**으로 보정된 evolutionary search가 stage별 sparsity ratio를 똑똑하게 찾아준다는 점..