1. RGB와 Depth를 같은 방식으로 다루는건 불가능
앞서 언급했듯이, RGB-D teacher를 도입한 이유는 악천후 환경에서도 보다 안정적인 기준을 제공하기 위함이었습니다. 그러나 RGB와 Depth는 입력 특성과 신뢰도가 서로 다르며, 동일한 방식으로 처리하기에는 근본적인 차이가 존재합니다.
RGB는 색상과 텍스처 정보를 포함하지만 조명 변화와 대기 산란에 민감하고, Depth는 구조 정보를 제공하지만 해상도와 노이즈 특성이 다릅니다. 이러한 차이를 무시한 채 단순히 concat이나 sum 방식으로 결합할 경우, 특정 조건에서는 한 모달리티의 불안정성이 다른 모달리티로 그대로 전이되는 문제가 발생합니다.
따라서 RGB-D teacher 내부에서는 두 모달리티를 같이 섞기 이전에, 각자의 특성에 맞게 정제하는 과정이 필요하다고 판단했습니다.
2. RGB를 위한 PCAM: 채널 관계 정돈

RGB 브랜치에서는 PCAM(Patch-wise Channel Attention Module)을 설계했습니다. RGB 영상의 경우, 악천후 환경에서 채널 간 응답 분포가 쉽게 왜곡되며, 이는 특정 색상이나 텍스처에 대한 과도한 의존으로 이어집니다. PCAM은 국소 패치 단위에서 채널 간 공분산 구조를 계산하고, 이를 통해 채널 간 상관관계를 정돈하는 역할을 합니다. 이 과정은 “어떤 채널이 중요한가”를 선택하는 것이라기보다는, 채널 간 상대적인 관계를 안정화하는 과정으로 보는 것이 더 적절합니다.
이를 통해 RGB 브랜치는 조명 변화나 국소적 열화 상황에서도 보다 일관된 채널 응답을 유지할 수 있도록 유도됩니다.
3. Depth를 위한 PSAM: 공간 구조 보존

반면 Depth 브랜치에서는 PSAM(Patch-wise Spatial Attention Module)을 적용했습니다. Depth 정보는 색상이나 텍스처보다는 거리와 구조적 배치가 핵심이기 때문에, 채널보다는 공간적 연속성과 경계 정보를 보존하는 것이 중요합니다.
PSAM은 국소 패치 단위에서 공간적 상관 구조를 강화하여, 객체의 형태와 배치가 보다 명확하게 유지되도록 합니다. 이 과정은 Depth 맵에서 발생할 수 있는 국소적인 노이즈나 불연속성을 완화하는 역할을 하며, 구조적 단서가 흐려지지 않도록 돕습니다.
즉, PCAM과 PSAM은 서로 다른 모달리티에 대해 동일한 목적이 아니라, 서로 다른 정제 기준을 적용하는 모듈로 설계되었습니다.
4. CBPG: RGB-D fusion
PCAM과 PSAM을 통해 RGB와 Depth 각각의 feature를 정제한 이후에도, 여전히 중요한 문제가 남아 있습니다. 바로 정제된 두 모달리티를 어떤 방식으로 결합할 것인가에 대한 문제입니다. RGB와 Depth는 악천후 환경에서 서로 다른 신뢰도를 가지며, 그 신뢰도는 장면 전체가 아니라 픽셀 위치에 따라 달라질 수 있습니다.
기존의 단순한 fusion 방식, 예를 들어 feature sum이나 concatenation은 이러한 차이를 반영하기 어렵습니다. 특정 영역에서는 RGB가 비교적 안정적인 정보를 제공함에도 불구하고, Depth의 노이즈가 함께 반영될 수 있으며, 반대로 구조적으로 중요한 영역에서 RGB의 열화된 표현이 Depth 정보를 덮어쓰는 경우도 발생할 수 있습니다.

이러한 문제를 해결하기 위해 본 연구에서는 CBPG(Cross-Branch Pixel Gating) 구조를 설계했습니다. CBPG는 RGB 브랜치와 Depth 브랜치의 feature를 입력으로 받아, 픽셀 단위에서 두 모달리티의 상대적인 기여도를 학습적으로 조절하는 역할을 수행합니다.
CBPG 내부에서는 픽셀 단위의 gating 메커니즘이 사용됩니다. 이때 생성되는 게이트 값은 특정 위치가 중요한지 여부를 나타내는 attention map과는 성격이 다릅니다. CBPG의 gating 결과는 각 픽셀에서 RGB와 Depth 중 어느 정보를 더 신뢰할 것인지를 나타내는 값으로 해석하는 것이 적절합니다.
즉, 이 게이트는 “이 위치가 중요하다”를 의미하는 것이 아니라, “이 위치에서는 RGB가 더 신뢰 가능하다” 혹은 “이 위치에서는 Depth가 더 안정적이다”라는 모달리티 선택 기준에 가깝습니다. 이를 통해 RGB와 Depth는 항상 동일한 비율로 결합되는 것이 아니라, 장면의 위치와 조건에 따라 서로 다른 비중으로 반영됩니다. 악천후 환경에서 특정 영역의 RGB 표현이 크게 훼손된 경우에는 Depth 정보가 보완적으로 활용되며, 반대로 RGB가 충분히 신뢰 가능한 영역에서는 RGB feature가 중심이 됩니다.
'Research > VD-MKDF' 카테고리의 다른 글
| 5. Fusion-aware KD (0) | 2026.02.11 |
|---|---|
| 4. RGB-D Fusion (0) | 2026.02.11 |
| 2. RGB-D main-teacher 셜계 (0) | 2025.12.16 |
| 1. 악천후 환경에서 세그멘테이션 (0) | 2025.12.16 |
| 0. After the CACKD (0) | 2025.12.16 |