Research/VD-MKDF

7. Experiments & Discussions & Conclusion

ns4A 2026. 2. 12. 04:38

6편에서 CamVid-EF / KITTI-EF를 만든 또다른 이유는 
같은 도로 장면 구조를 유지한 채, rain/snow/fog/flare만 바꿨을 때 모델이 appearance 변화에 얼마나 휘둘리는지를 분리해서 보고 싶었습니다.

7편은 여기서 한 걸음 더 나가서, 단순히 성능이 아니라 아래 질문에 답하는 편으로 정리해보겠습니다.

(1) SOTA들은 어떤 방식으로 강한가?
(2) 그런데 EF에서 어디서 흔들리나?
(3) Proposed는 무엇이 달라서 그 구간을 덜 흔들리게 만들었나?
(4) 그리고 그게 실전(디바이스)에서도 의미가 있나?

 

 

SOTA 대비 성능

2.1 CamVid-EF SOTA 비교

CamVid-EF에서 Proposed는 mIoU 74.42 / Pixel Acc 94.02로 최고를 기록합니다.
2등권으로는 SegFormer-b5(74.13), DeepLab V3+(73.83)가 따라옵니다.

여기서 중요한 건 “0.29 올라서 이겼다”보다, 왜 이 격차가 생겼나입니다. 

 

(1) CNN 계열(UNet/UNet++/PSPNet/DDRNet 등): 효율은 좋은데 EF에서 경계/세부 구조가 약해지기 쉽다

  • UNet 72.00, UNet++ 72.24
  • DDRNet-39는 계산량이 낮지만(mIoU 66.86) 정확도가 확 떨어집니다.
  • 즉, 효율을 잡으면 EF에서 구조 표현력이 먼저 부족해지는 전형적인 트레이드오프가 보입니다.

(2) 무거운 모델(DeepLab V3+, SegFormer-b5): 전체 성능은 강하지만 “구조적 흔들림”이 남는다

  • DeepLab V3+ 73.83, SegFormer-b5 74.13처럼 평균 성능은 정말 강합니다.
  • 그런데 논문 정성 비교(Figure 9) 해석을 보면, 이 계열은 EF에서 배경(pole/vegetation/fence) 쪽 false response가 섞이며 경계가 애매해지는 장면이 관찰됩니다.
  • 즉 “점수는 높은데, 실제로는 애매한 영역이 생긴다”는 유형입니다.

(3) 도메인 일반화/보정 계열(HGFormer/VBLC): 의도는 좋은데 RGB-only 구조의 한계를 벗어나기 어렵다

  • HGFormer 68.85, VBLC 68.30으로, 제안 방식과 간격이 큽니다.
  • 논문 설명의 핵심은 이겁니다:
    RGB-only는 EF에서 색/텍스처가 무너질 때 거리/구조 단서 자체가 불안정해지기 쉽다는 것.
  • Proposed는 여기서 “RGB-only를 유지하되”, 학습 과정에서 구조 단서를 학습하도록 강제되는 방향으로 설계를 가져갑니다.

여기서 Proposed의 차이(핵심 요약)
SOTA들이 주로 “표현력(백본/멀티스케일/셀프어텐션)”으로 EF를 버틴다면,
Proposed는 (RGB-D teacher가 만들어낸) 구조적 단서를 distillation로 끌어와서, RGB-only student가 ‘구조를 보는 습관’을 갖도록 만든다는 관점이 더 강합니다.


2.2 KITTI-EF SOTA 비교

KITTI-EF에서도 같은 흐름입니다.

  • Proposed: mIoU 64.65 / Pixel Acc 90.75
  • 2등권: DeepLab V3+ 63.54, SegFormer-b5 62.95

여기서 저는 Proposed의 의미를 이렇게 봤습니다.

  • KITTI는 해상도/장면 다양성이 커서 “CamVid에서만 먹히는 요령”이 통하지 않습니다.
  • 그런데도 Proposed의 우위가 유지된다는 건, 이 프레임워크가 특정 데이터셋에만 맞춘 트릭이 아니라, EF에서 반복되는 구조 붕괴 구간을 상대적으로 안정화한다는 신호로 해석할 수 있습니다.

KD 프레임워크로서의 설득력

SOTA segmentation 비교가 “모델의 총합 성능”이라면, 여기서 부터는 “KD 방법론 자체가 납득되는가”를 묻는 비교입니다.

3.1 CamVid-EF: KD SOTA 비교

  • Logits KD: 73.35
  • FitNet: 72.21
  • RRD: 72.16
  • Proposed: 74.42

여기서 제가 강조하고 싶은 해석은 이겁니다.

  • 기존 KD들은 대체로 logit/feature 정렬 중심이라 “정답을 닮게” 만드는 데 강합니다.
  • 하지만 EF에서는 “정답을 맞추는 것”뿐 아니라, 애매한 영역에서 함부로 확신하지 않는 행동이 중요해집니다.
  • Proposed는 그 불안정성을 줄이는 쪽으로 학습 신호를 설계했고, 그 결과가 KD 비교에서도 우위로 나온다고 읽히는 구간입니다.

3.2 KITTI-EF: KD SOTA 비교

  • AT/AttnFD/RRD가 62점대 초반에 머무는 반면
  • Proposed는 64.65 / 90.75로 가장 높습니다.

즉, “teacher가 강해서 이겼다”가 아니라, 증류 방식이 EF에서 더 잘 맞는다는 형태로 정리됩니다.

 


Grad-CAM : Proposed의 차이는 “어디를 보는가”

Discussion의 핵심입니다. “성능이 올랐다”는 주장에 대해, 모델 내부의 근거를 제시하는 파트이기 때문입니다.

SOTA comparision

논문은 CamVid-EF에서 여러 SOTA(UNet/UNet++/PSPNet/DeepLab/SegFormer/HGFormer/VBLC 등)와 Proposed를 Grad-CAM으로 같이 보여줍니다.

이 그림의 메시지는 간단합니다.

  • EF에서 어려운 상황(특히 flare 같은 경우)에서는,
    모델들이 중요한 구조(얇은 물체/경계)를 또렷하게 잡지 못하고 활성화가 퍼지거나, 엉뚱한 배경에 반응하는 경우가 생길 수 있습니다.
  • Proposed는 상대적으로 구조적 단서가 있는 위치(경계/윤곽)에 더 집중하는 패턴을 보여주는 쪽입니다.

Baseline(U-Net RGB-only) vs Proposed

  • Baseline은 차량 내부에는 강하게 반응하지만, 경계 근처 반응이 약하거나 끊기고, 그게 실제 예측에서 경계 붕괴로 이어집니다.
  • Proposed는 반대로 차량 경계를 따라 강한 활성화가 형성되고, 그 덕분에 인접 클래스(road/building)와 섞이는 현상이 줄어듭니다.
  • 논문은 이걸 “teacher로부터 전달된 구조 단서가 RGB-only 표현 공간에서 재현된 효과”로 해석합니다.

통계 분석

논문은 t-test와 Cohen’s d로 Proposed vs 2등 모델 차이가 통계적으로 의미가 있는지를 확인합니다. 즉, 단일 예시/단일 split이 아니라, 분포 관점에서도 차이가 난다는 근거를 추가했습니다.


실전성

 

Table 18을 보면:

  • Proposed(=최종 student)는 27.79 GFLOPs / 32.52M params / 129MB
  • Desktop GPU: 11.38ms
  • Desktop CPU(OpenVINO): 208.70ms
  • Jetson TX2(TensorRT): 117.92ms
  • Mobile CPU: 423.87ms

반면 SOTA 강자들은 계산량이 확 커집니다.

  • SegFormer-b5: 68.73 GFLOPs, Desktop GPU 102.67ms
  • DeepLab V3+: 670.78 GFLOPs, Desktop GPU 118.39ms, Desktop CPU 7,538.52ms
  • 어떤 모델은 Jetson/모바일에서 †(실행 불가) 표기가 뜹니다.

정리하자면, Proposed는 점수만 올린 게 아니라, 차량 탑재/엣지 환경에서 실제로 돌릴 수 있는 형태로 ‘성능과 실용성’을 같이 증명했습니다.

 


한계 : 극단적 센서 조건

 

Figure 14는 Proposed가 여전히 어려워하는 에러 케이스를 보여줍니다.

  • EF가 너무 극단적이거나(가시성이 사실상 붕괴),
  • depth 추정 자체가 불안정해지는 상황에서는,
  • teacher가 제공하는 구조 단서도 흔들릴 수 있고, 그게 student로 전달될 수 있습니다.

Proposed는 “대부분의 EF에서 덜 흔들리게” 만드는 데 성공했지만,

“입력 정보가 물리적으로 사라지는 수준의 극단 상황”은 여전히 남는 과제로 남습니다.

 


결론

 

SOTA들은 강력한 백본/멀티스케일/도메인 일반화로 EF를 버티지만, EF에서 반복되는 경계 붕괴·얇은 구조물 오분류·배경 false response는 여전히 남을 수 있습니다. Proposed는 RGB-only를 유지하면서도, 학습 과정에서 구조 단서를 학습하도록 유도했고,

  • 정량(Table 10/14)에서 조건 전반의 안정적 우위를,
  • KD 비교(Table 12/16)에서 방법론 우위를,
  • Grad-CAM(Figure 12/13)에서 “어디를 보는지”의 차이를,
  • 통계(Figure 11)에서 우연이 아님을,
  • 디바이스(Table 18)에서 실전성을,
  • 에러 케이스(Figure 14)에서 한계까지
    한 번에 정리했습니다.

결국 VD-MKDF는 “더 큰 모델을 쓰면 된다”는 결론이 아니라, 악천후에서 무너지는 RGB 단서를 어떻게 보완할지를 학습 과정에서 구조적으로 설계한 접근이었다고 정리할 수 있습니다.
SOTA들과 비교했을 때 성능 향상은 일부 수치로는 크지 않아 보일 수 있지만, 정성 결과와 Grad-CAM을 함께 보면 경계·얇은 구조물·배경 오반응 같은 실제 실패 구간에서 덜 흔들리는 방향으로 개선이 나타났습니다.
그리고 무엇보다, 최종 결과물이 RGB-only student로서 여러 디바이스에서 측정 가능한 실전 형태로 제시됐다는 점이, 이 연구를 “논문에서 끝나는 방법”이 아니라 “현장에서 쓸 수 있는 방법”으로 만들어줬다고 생각합니다.

'Research > VD-MKDF' 카테고리의 다른 글

6. CamVid-EF / KITTI-EF  (0) 2026.02.11
5. Fusion-aware KD  (0) 2026.02.11
4. RGB-D Fusion  (0) 2026.02.11
3. RGB와 Depth를 어떻게 믿어야 할까  (0) 2025.12.16
2. RGB-D main-teacher 셜계  (0) 2025.12.16