전이학습인 디노이징을 하기 위해서 FM encoder 출력을 어떻게 하면 디노이징 전이학습 모델에 입력으로 적용할 수 있을지에 대한 고민을 하기 시작했다.
Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation 논문에서 dofa 모델 인코더 출력에서 latent, mask, ids_restore 세 가지가 있다.
이 중에서 spatial과 spectral 정보를 모두 포함하는 것은 latent 라고 한다.
- latent: 인코더의 핵심 출력으로, 입력 데이터를 요약하고 압축하여 공간(spatial)과 스펙트럼(spectral) 정보를 모두 포함하는 특징 표현을 생성합니다. 이 값이 이후 모델의 다양한 다운스트림 작업에 활용되며, 데이터를 종합적으로 이해할 수 있다.
- mask: 입력 데이터의 특정 부분을 가리기 위한 마스크 정보로, 학습 과정에서 마스킹을 통해 모델이 특정 부분을 예측하도록 유도한다. 주로 자기 지도 학습의 한 요소로 활용되며 직접적인 공간 또는 스펙트럼 정보는 담고 있지 않는다.
- ids_restore: 마스크로 가려진 부분을 복원할 때의 인덱스 정보로, 공간과 스펙트럼 정보보다는 복원 과정에서 순서를 복구하는 역할에 중점을 둔다.
따라서, dofa 모델 인코더 출력 중 latent가 주된 공간적, 스펙트럼적 정보를 담고 있는 요소라고 할 수 있다.
# 문제 1
이미지 디노이징 실험을 수행하던 중에,
DOFA와 HyperSIGAM pos_tokens 텐서 크기가 다름을 확인했다.
DOFA pos_tokens shape : torch.Size([1, 197, 768])
HyperSIGAM pos_tokens shape : torch.Size([1, 64, 768])
다른 task에서도 같은 문제가 발생할까 ?
출처 :
[1] Neural Plasticity-Inspired Multimodal Foundation Model for Earth Observation 논문
(Submitted on 22 Mar 2024 (v1), last revised 7 Jun 2024 (this version, v2))
'트러블슈팅' 카테고리의 다른 글
DDS2M 디노이징 실행시 에러 fatal error: Python.h: No such file or directory (0) | 2024.11.25 |
---|---|
no module named 'mmcv' (0) | 2024.11.22 |
데이터 입력 사이즈에 따라 positional encoding 차원의 값 변형 문제 (0) | 2024.11.22 |
teacher모델의 입력 변형 문제 (0) | 2024.11.19 |
HSI Denoising 을 하는 과정에서 발생된 데이터 사이즈 불일치 문제 (11/18) (1) | 2024.11.18 |