Research 15

7. Experiments & Discussions & Conclusion

6편에서 CamVid-EF / KITTI-EF를 만든 또다른 이유는 같은 도로 장면 구조를 유지한 채, rain/snow/fog/flare만 바꿨을 때 모델이 appearance 변화에 얼마나 휘둘리는지를 분리해서 보고 싶었습니다.7편은 여기서 한 걸음 더 나가서, 단순히 성능이 아니라 아래 질문에 답하는 편으로 정리해보겠습니다.(1) SOTA들은 어떤 방식으로 강한가?(2) 그런데 EF에서 어디서 흔들리나?(3) Proposed는 무엇이 달라서 그 구간을 덜 흔들리게 만들었나?(4) 그리고 그게 실전(디바이스)에서도 의미가 있나? SOTA 대비 성능2.1 CamVid-EF SOTA 비교CamVid-EF에서 Proposed는 mIoU 74.42 / Pixel Acc 94.02로 최고를 기록합니다.2등권..

Research/VD-MKDF 2026.02.12

6. CamVid-EF / KITTI-EF

0~1편에서 계속 말했던 문제가 있죠.악천후에서 RGB cue(색/텍스처/대비)가 무너지고그 결과 세그멘테이션은 경계가 흐려지고, 작은 객체에서 오분류가 집중됩니다.그런데 이걸 제대로 연구하려면, 사실 조건이 꽤 까다롭습니다. 같은 장면 구조를 유지한 채,비/눈/안개/렌즈 플레어만 바꾼 데이터를 만들어야“모델이 구조를 잃는지 vs appearance에 휘둘리는지”를 분리해서 볼 수 있습니다.문제는 논문이 딱 잘라 말하듯, 그런 데이터가 공개로 거의 없다는 점입니다.그래서 VD-MKDF는 실험 검증을 위해 CamVid와 KITTI를 기반으로 새 EF 데이터셋을 구성합니다. EF(환경요인) 합성EF는 총 4개로 확장합니다.rain / snow / fog / lens flare그리고 합성 방식이 증강이 아니라..

Research/VD-MKDF 2026.02.11

5. Fusion-aware KD

4편에서 확인했던 핵심은 이거였습니다.depth를 붙이면 좋아지는 게 아니라,RGB와 depth를 “어디서, 얼마나, 어떻게 믿을지”를 설계해야 성능이 안정적으로 올라갑니다. 그래서 main-teacher(RGB-D)는 PCAM/PSAM/CBPG로 “믿고 섞는 행동”을 학습했습니다. 그런데 최종 목표는 여전히 RGB-only student입니다.즉, 여기서 어려워지는 것이 depth 없이도, teacher가 했던 ‘신뢰도 기반 융합 행동’을 student에게 어떻게 옮길 수 있을지에 대해 고민해보아야 합니다. 이번 5편은 그 답을 지난 연구 과정을 따라 정리하는 편입니다. 왜 “그냥 KD”로는 부족했을까?악천후에서는 RGB-only가 무너지는 패턴이 반복됩니다. 이때 단순한 logit KD(teache..

Research/VD-MKDF 2026.02.11

4. RGB-D Fusion

앞선 포스팅에서는 이렇게 정리했습니다.악천후에서 RGB-only 세그멘테이션이 무너지는 건, 단순 성능 저하가 아니라 RGB 표현의 신뢰성 붕괴에 가깝습니다.반면 depth는 구조(기하) 단서를 비교적 안정적으로 주지만, 추론 단계에서 depth 입력을 요구하는 모델은 현실 제약이 큽니다.그래서 “depth는 추론 입력이 아니라 teacher가 믿을 기준으로 쓰자”라는 방향으로 갔고,그 과정에서 PCAM/PSAM/CBPG로 “RGB와 depth를 어떻게 믿고 섞을지”를 설계했습니다.그런데 여기서 한 번은 꼭 짚고 넘어가야 하는게 “depth가 유용하니 그럼 RGB+depth 그냥 concat해서 쓰면 되는 거 아닌가?” 하는 질문이 생깁니다. 결론부터 말하면, naïve fusion RGB-D는 ‘비용 ..

Research/VD-MKDF 2026.02.11

8. 속도, 임베디드, 그리고 선택의 이유

세그멘테이션 연구에서 성능(mIoU)을 먼저 보는 건 자연스럽습니다.하지만 Desktop에서는 괜찮은데,임베디드에서도 괜찮은지 확인해보겠습니다. CACKD는,가장 높은 mIoU를 찍는 모델은 아닐 수 있지만복원 기반 Teacher의 이점을 Student로 이전하면서임베디드 환경에서도 현실적으로 운용 가능한 범위를 유지하려는 설계입니다.즉,“이론적으로 가장 강한 모델”과“현실에서 돌아가는 모델”사이에서의 의도적인 선택입니다.이 선택은 연구 전반에서 일관됩니다.복원은 Teacher에서만 수행Student는 세그만 수행관계/주의/상관 정보를 KD로 전달구조는 복잡하지만, 추론은 상대적으로 단순 이는 실제로 가장 빠른 속도의 그룹에 위치해있으며 성능까지 포함한다면 성능대비 가장 효율이 좋은 방법이라고 할 수 있..

Research/CACKD 2026.02.03

7. Training

CACKD는 한눈에 봐도 단순한 구조는 아닙니다.복원을 수행하는 Teacher복원 없이 세그만 수행하는 Studentlogits / attention / class correlation / CCSM총 네 개의 KD 항여기까지 오면 자연스럽게 이런 질문이 생깁니다.“이렇게 많은 항을 동시에 넣으면,학습이 오히려 불안정해지지 않을까?”이번 편에서는 이 질문에 대해, loss 수렴 과정과 학습 패턴을 기준으로 정리해보겠습니다.1. 먼저 확인해야 할 것: ‘성능’이 아니라 ‘수렴’입니다모델이 잘 학습됐는지를 볼 때,최종 mIoU 하나만 보는 건 충분하지 않습니다.특히 CACKD처럼 KD 항이 여러 개인 경우에는,loss가 진동하지 않는지특정 항 하나가 학습을 지배하지는 않는지초반에 터졌다가 “우연히” 맞춘 건 ..

Research/CACKD 2026.02.03

5. CCAM

1. Degradation 이미지 세그멘테이션 성능 저하의 원인으로 “관계 오류”를 주목low quality, degradation 이미지에 대한 세그멘테이션이 틀릴 때를 자세히 보면, 완전히 엉뚱한 클래스를 찍는 경우는 많지 않습니다.대부분은 이런 식입니다.도로 ↔ 인도사람 ↔ 자전거표지판 ↔ 기둥즉, 공간적으로 가깝거나 시각적으로 비슷한 클래스끼리의 혼동이 주된 오류입니다.이건 단순히 “픽셀이 비슷해서”라기보다,특징 채널들이 잘못된 상관관계를 형성하고 있기 때문에 생깁니다.그래서 CACKD에서 CCAM은 처음부터 이렇게 정의됩니다.“채널 간 관계를 명시적으로 만들고,의미 있는 관계는 강화하고,혼동을 유발하는 관계는 억제하자.”2. 채널 상관을 ‘의미 방향’으로 정렬CCAM의 핵심은 attention..

Research/CACKD 2026.02.03

4. 무엇을 증류할 것인가

작은 모델이 큰 모델의 장점을 가져오려면,어떤 정보가 결정적이고, 그걸 어떻게 전달해야 하는가? 여기서 중요한 전제가 있습니다. CACKD의 Teacher는 단순히 segmentation만 잘하는 모델이 아닙니다.Teacher는 (1) 플레어 영역을 찾고 → (2) 복원하고 → (3) 복원 결과로 세그멘테이션를 수행하는 순차 파이프라인을 갖습니다. 1) Teacher는 “복원+세그멘테이션”인데, Student는 왜 “세그멘테이션만” 하는가?논문에서 CACKD는 Teacher와 Student 역할을 이렇게 분리합니다.Teacher: multi-layer Grad-CAM으로 플레어 영역을 찾고, UNet++로 복원한 뒤, 그 복원 이미지로 세그멘테이션을 수행Student: 복원 과정은 생략하지만, KD를 통..

Research/CACKD 2026.01.27