[논문 리뷰] HyperSIGMA : Hyperspectral Intelligence Comprehension Foundation Model
HyperSIGMA: 초분광 지능 이해 기반 모델 논문 스터디
HyperSIGMA: 초분광 지능 이해 기반 모델
이미지 노이즈 제거 및 초고해상도와 같은 저수준 작업에 대한 최소한의 탐색으로 의미론적 분할 및 객체 감지와 같은 고수준 작업에 주로 초점을 맞춘 기존 RS 기반 모델과 달리 HyperSIGMA는 고수준 및 저수준 작업 모두에 대한 통합 솔루션을 제공합니다
우리는 다양한 맥락에서 강력한 특징 표현을 효과적으로 추출함으로써 초분광 이미지에 내재된 문제를 해결하는 새로운 주의 메커니즘인 희소 샘플링 주의 기능을 제안합니다.
데이터 획득 및 처리(Data Acquisition and Processing)
공식 웹사이트에서 다운로드하여 데이터를 획득했습니다. EO-1 Hyperion 데이터의 경우, 전 세계 위치(경로/행)를 완전히 포함하도록 2011년부터 2017년까지의 이미지를 선택했습니다. 구름 덮개가 5% 미만인 데이터를 선택하고 구름 덮개 비율을 알 수 없는 데이터는 제외했습니다
GF-5B 데이터의 경우, 그림 4에서와 같이 중국의 내몽골과 허베이성에서 152개 이미지, 허난성에서 24개 이미지, 내몽골, 지린성, 랴오닝성에서 39개 이미지를 선택했습니다
EO-1과 GF-5B 데이터를 결합함으로써, HyperGlobal-450K 데이터 세트는 모든 대륙을 포괄하였다.
HyperGlobal-450K 데이터 세트는 **2,000×256의 EO-1 HSI의 1,486 개의 장면들(scenes)**과 2,000×2,000의 GF-5B의 215 개의 장면(scenes) 이미지들로 구성하였다. (총 1,701개 이미지)
불량 밴드와 수증기 흡수 밴드를 제거한 후, EO-1 HSI는 175개의 밴드를 포함한다.
GF-5B HSI의 경우, 일반적인 RS 지상 객체 인식을 고려하여, 0.4에서 1.0까지(가시광선~근적외선영역)의 150개의 스펙트럼 밴드를 사용했습니다.
수집된 모든 HSI는 크기가 사전학습을 위해 64 x 64 겹치지 않는 패치로 잘렸습니다. 그 결과 247,072개의 EO-1 패치와 200,000개의 GF-5 패치를 포함하여 447,072개의 HSI 패치가 생성되어 풍부한 공간적 및 스펙트럼 특성을 제공했습니다.
그림 4 전 세계에 분포된 HyperGlobal-450K 샘플은 수백 개의 스펙트럼 대역을 갖춘 1,701개의 이미지(1,486개의 EO-1 및 215개의 GF-5B)로 구성되어 있습니다.
그림 4 는 숲, 초원, 황무지, 농경지를 포함한 다양한 지역의 전형적인 풍경의 샘플 패치를 보여주며, 해당 지리적 지역의 특성을 명확히 보여줍니다. 예를 들어, 남미의 열대 우림(지역 B)과 남극의 빙하(지역 D)의 패치는 뚜렷하게 녹색과 흰색이어서 HyperGlobal-450K의 다양성을 보여줍니다.
요약하자면, 글로벌 지리적 이미지가 포함된 HyperGlobal-450K는 후속 사전 학습을 위한 귀중한 데이터를 제공합니다.
데이터 전처리(Data Pre-processing)
HSI의 고차원적 특성을 감안할 때, 우리는 원래의 스펙트럼 순서를 보존하고 사전 학습 데이터의 다양성을 향상시키기 위해 연속 채널을 무작위로 선택하여 차원 축소를 수행한다. HyperGlobal-450K 데이터 세트의 HSI는 서로 다른 센서에 의해 획득되기 때문에, 우리 네트워크는 다양한 수의 채널로 이미지를 처리할 수 없다. 따라서 선택된 채널의 수는 모든 HSI에 걸쳐 일관된다.
특히, 모든 원본 HSI에 대해 𝐗 𝐻 𝑆 𝐼 ∈ ℝ 𝐻 × 𝑊 × 𝐿 = { 𝑥 1 , 𝑥 2 , … , 𝑥 𝐿 } 와 함께 𝐿 채널, 위치 𝑥 𝑖 ∈ ℝ 𝐻 × 𝑊 채널을 나타냅니다. 1 ≤ 𝑖 ≤ 𝐿 + 1 − 𝐶 만족시키는 𝑖 의 값을 결정함으로써 연속 채널{ 𝑥 𝑖 , 𝑥 𝑖 + 1 , … , 𝑥 𝑖 + 𝐶 − 1 } 을 임의로 선택합니다. 결과적으로 다음과 같다 𝐗 0 ∈ ℝ 𝐻 × 𝑊 × 𝐶 , 그런 다음 4.1.2항과 4.1.3항에서 설명한 대로 네트워크에 의해 처리됩니다.
사전 학습을 하면서, 𝐶 는 서로 다른 HSI가 동일한 수의 채널을 갖도록 고정된다. 이러한 채널 선택 전략은 그림5 에도 나타나 있다. 우리의 구현에서는, 𝐶는 100으로 설정되어 있습니다. 또한 모든 HSI를 4,000으로 나누어 정규화한다.
그림 6. 마스크 비율이 다른 하이퍼글로벌-450K 데이터 세트에 대해 사전 학습된 스펙트럼 서브 네트워크를 사용하여 인도 파인즈(IP) 및 파비아 대학(PU) 데이터 세트의 정확도를 미세 조정한다.
데이터셋
- Indian Pines (IP)
- Pavia University (PU)
이해가 안가는 부분
all HSIs are normalized by dividing by 4,000.
셀프 어텐션 메커니즘
RVSA [84] VSA를 기반으로 다양한 방향의 객체에 대한 학습 가능한 회전을 도입하고 컨텍스트 추출을 향상시킵니다. HSI의 중복성을 처리하기 위한 몇 개의 샘플링 포인트가 있는 변형 가능한 영역 내의 컨텍스트를 적응적으로 캡처하여 유연성을 향상시키는 새로운 희소 샘플링 어텐션 메커니즘을 제안합니다.
MAE를 사용하여 모델 가중치를 얻습니다 .HyperGlobal-450K에서 사전 학습. 중요한 점은 공간 및 스펙트럼 네트워크가 별도로 사전 학습된다는 것입니다.
모델 사전학습
MAE는 널리 사용되는 MIM 기반 자기 지도 학습 기술입니다 MAE는 ViT 사전 학습에 특히 효과적입니다 대규모 레이블이 지정되지 않은 데이터 세트에 대해. 이 연구에서는 MAE를 사용하여 HyperGlobal-450K에서 공간 및 스펙트럼 하위 네트워크를 사전 훈련합니다.
공간(Spatial) 서브네트워크의 사전학습
공간 서브네트워크의 백본으로 ViT를 사용합니다 패치 임베딩 레이어의 입력 채널을 입력 HSI의 채널 수와 일치하도록 조정하는 것
분광(Spectral) 서브네트워크의 사전학습
ViT의 공간 토큰화 개념을 스펙트럼 도메인으로 확장하여 채널을 임베드하여 스펙트럼 토큰을 생성합니다. 스펙트럼 MAE를 구현하기 위해 채널 토큰화 프로세스를 적용합니다 채널 차원을 따라 평균 클러스터링을 통해 인접 채널을 집계하여 다음과 같은 결과를 얻습니다. 표준 ViT의 공간 패치 임베딩과 유사한 스펙트럼 채널 임베딩 역할을 합니다.
실험설정
마스크 비율은 마스크된 영역을 복구하는 어려움과 결과적으로 사전 학습의 효과성에 영향을 미치므로 MIM 알고리즘에서 중요한 하이퍼파라미터입니다. 마스크 비율이 높으면 재구성 작업이 지나치게 어려워져 복원이 방해받을 수 있는 반면, 마스크 비율이 낮으면 작업이 쉬워 모델 가중치가 효과적이지 않을 수 있습니다.
따라서 적절한 마스크 비율을 선택하면 사전 훈련 품질을 보장하는 데 필수적입니다
0.15에서 0.9까지의 다양한 마스크 비율을 갖는 스펙트럼 하위 네트워크를 0.15 간격으로 400에포크 동안 2,048의 배치 크기로 사전 학습했습니다. 우리는 AdamW 최적화 프로그램 [165] 학습률을 0.00015로, 가중치 감소를 0.05로 설정하고 다른 모든 설정은 MAE의 설정을 따릅니다
사전 학습 후, HSI 분류 작업을 위해 Indian Pines(IP) 및 Pavia University(PU) 데이터 세트에서 이러한 네트워크를 미세 조정했습니다. IP의 경우 학습을 위해 범주당 10개 샘플을 사용했고, PU의 경우 범주당 20개 샘플을 사용했으며 나머지 샘플은 테스트에 사용했습니다.
우리는 SpatViT와 SpecViT로 각각 표시된 공간 및 스펙트럼 네트워크 모두에 대해 기본, 대형 및 거대와 같은 다양한 ViT 버전을 사전 학습했습니다. 이를 통해 두 서브네트워크 모두에 ViT-Huge 백본을 사용할 때 HyperSIGMA의 모델 크기가 10억 수준에 도달할 수 있습니다.
동일한 버전 내에서 SpatViT와 SpecViT의 차이점은 주로 임베딩 계층의 차이에서 비롯됩니다. 또한 GPU 메모리가 부족할 때 그래디언트 체크포인팅을 사용했습니다. 모든 실험은 NVIDIA V100 GPU에서 수행되었습니다.
모델구조
- ViTs에 대한 간략한 소개
- ViT는 먼저 이미지를 겹치지 않는 패치로 분할하여 작동합니다.
- 그런 다음 각 패치를 1차원 토큰 벡터에 매핑합니다.
- HSI의 공간 패치와 스펙트럼 채널을 매핑하는 세부 사항은 Sec. 4.1.2 , Sec. 4.1.3 및 Sec. 4.1.4 에 자세히 나와 있습니다 .
- 이러한 토큰은 위치 임베딩과 결합됩니다
Sparse Sampling Attention (희소 샘플링 어텐션)
HSI의 공간적 및 스펙트럼 중복성을 해결하여 다양한 맥락적 특징을 효율적으로 학습하도록 설계된 제안된 SSA를 소개합니다.
다양한 어텐션 메커니즘의 비교:
(a) 전체 SA [76] , (b) WMHSA [70] , (c) VSA [159] , (d) RVSA [84] , (e) DMHA [163] , (f) SSA. 빨간색과 파란색 별은 두 개의 쿼리를 나타내며, 해당 색상 선(점)은 캡처된 컨텍스트(샘플링 위치)의 영역을 나타냅니다. 녹색 점은 두 쿼리에서 공유하는 공통 영역을 나타냅니다. DMHA에서 모든 쿼리는 노란색 영역에서 동일한 키를 공유합니다.
다른 어텐션 방법과의 비교:
제안된 SSA와 다양한 주의 방법 간의 차이점 제공
- 전체 SA(그림 7 (a))는 전체 입력에 대한 컨텍스트를 포착하는 반면,
- Window 기반 어텐션 방법 [70,159,84] (그림 7 (b)-(d)) 직사각형 영역에 초점을 맞춥니다.
- 변형 가능-DETR [162]는 변형 가능한 어텐션을 도입하여 주로 객체 감지를 위해 각 쿼리에 대한 적응 샘플링 포인트를 사용하여 컨텍스트 다양성을 향상시킵니다. 여기에서 영감을 얻은 DMHA [163] (그림 7 (e))는 변형 가능한 어텐션을 비전 트랜스포머 백본에 통합하지만, 모든 쿼리는 다른 쿼리가 다른 컨텍스트를 필요로 할 때에도 동일한 영역에서 컨텍스트를 캡처합니다. -
- 본 논문에서 제안하는 **SSA(그림 7 (f))**는 각 쿼리에 고유한 학습 가능한(learnable) 샘플링 위치 세트를 할당하여 컨텍스트를 더욱 풍부하게 합니다. 또한 선형 레이어를 사용하여 어텐션 가중치를 예측하는 변형 가능한 어텐션과 달리 SSA는 토큰 상호 작용을 통해 어텐션 가중치를 계산하여 영역 간 관계를 캡처하는 기능을 향상시킵니다.
HyperSIGMA 모델은 공간 및 스펙트럼 특징 추출을 위해 맞춤화된 두 개의 하위 (서브)네트워크로 구성됩니다
- 처음에는 공간 패치 또는 스펙트럼 채널이 토큰화되어 여러 트랜스포머 블록을 통해 처리된다
- 여기서 일부 SA는 제안된 Sparse Sampling Attention(SSA)으로 대체됩니다
- 그런 다음 공간 및 스펙트럼 특징이 **Spatial-Spectral Fusion Module(SEM)**에 의해 생성되어 융합됩니다
- 이러한 융합 특징(또는 공간 특징)은 다양한 고수준 및 저수준 HSI 작업을 위한 작업별 헤드로 제공됩니다.
HyperSIGMA의 구조
접근 방법은 다른가 ?
- 전이학습 부분은 어떻게 다른가
- 크게 묘사해서 언급되어있지는 않음
HyperSIGMA_Hyperspectral Intelligence Comprehension Foundation Model 논문 리뷰 > 어텐션 메커니즘의 종류
5.1 Hyperspectral Image Classification
(방법론)
Pavia University, Indian Pines 등과 같은 초분광 이미지 데이터셋을 활용하여 모든 픽셀을 분류하는 방법으로 구체적으로는 패치(Patch) 수준의 분류 방법과 이미지(image) 수준의 분류 방법을 고려할 수 있음. 컴퓨터 자원을 효율적으로 활용하기 위해 이미지 수준의 분류 방법을 통해 지도 영역을 의미적 분할(semantic segmenation)을 통해 의미적으로 분할하여 분할된 특정 영역을 각각 바다, 호수, 육지, 빙하 등으로 분류 및 분할하는 방법을 고려하고 있음
5.2 Hyperspectral Target and Anomaly Detection
(방법론)
5.3 Hyperspectral Change Detection
(방법론)
5.4 Hyperspectral Unmixing
(방법론)
5.5 Hyperspectral Image Denoising
실험 환경 설정
데이터셋
size 192x192 테스트셋에 사용. 남아있는 영역은 학습셋으로 사용
각 반복에는 64x64 패치 선택
공간 서브네트워크 패치사이즈는 2로 설정
3개의 평가지표를 사용함:
1) PSNR (Peak Signal-to-Noise Ratio)
2) SSIM (Structure SIMilarity)
3) SAM (Spectral Angle Mapper)
- 높은 PSNR, SSIM 값과 낮은 SAM 값은 디노이징 성능을 잘 나타냄
모델의 성능을 입증하기 위해, 다양한 노이즈 경우에 대해서 테스트를 수행함
Case 1 : Gaussian Noise ( 모든 밴드에 zero-mean 가우시안 노이즈가 70의 분포도를 가지고 모든 벤드에 추가되었음 )
Case 2 : 10~70 사이의 분포도를 가진 non-i.i.d. Gaussian Noise에 대해 다른 수준에서 다른 밴드들에 영향을 주었음
- 추가적으로 impulsive noise가 도입되었음, 그다음에 0.1에서 0.7 범위의 밀도 파라미터를 가진 i.i.d. zero-mean Laplacian 분포를 따랐다
Case 3 : (i.i.d가 아닌 가우시안 노이즈 + 임펄스 잡음 + 줄무늬): 복잡성을 높이기 위해 사례 2에 줄무늬가 추가되었습니다.
- 밴드의 30%에 무작위로 영향을 미치며, 영향을 받는 각 밴드는 줄무늬가 10~15개 있다.
- 0.6에서 0.8 사이에서 무작위로 생성된 스트라이프 요소 값들이 할당되었다.
Case 4 : (i.i.d가 아닌 가우시안 노이즈 + 임펄스 노이즈 + 데드라인)
- Case 3에 있는 줄무늬 노이즈를 deadlines로 대체하였다.
- Deadlines는 무작위로 10에서 15 deadlines를 포함한 각각의 선택된 밴드 30%에 영향을 주었음
- Deadlines에 공간적(spatial) width가 1에서 3 픽셀 범위를 가집니다.
Case 5 : (i.i.d가 아닌 가우시안 노이즈 + 임펄스 노이즈 + 줄무늬 + 데드라인)
이것이 가장 어려운 경우는 경우 3과 경우 4의 조건을 결함한 것입니다. 즉, 가우시안 노이즈, 임펄스 노이즈, 줄무늬 및 Deadlines를 통합한 것이다.
5.5.2 결과 및 분석
정량적 결과를 표 13에 제시하고 시각적으로 공간 및 스펙트럼 재구성 성능 비교 표 13에서 볼 수 있듯이 우리가 제안한 방법은 지속적으로 다른 접근 방식보다 뛰어난 성능을 발휘합니다. 예를 들어, HyperSIGMA는 차선책( SST [226]) 방법보다 더 높은 PSNR을 달성합니다. (특히 더 어려운 경우 3, 4, 5의 경우) 심지어 사전 훈련된 RS 모델의 공간 정보만 사용한 단순화된 버전인 SpatSIGMA는 SST와 비슷한 성능을 발휘합니다. 우리는 이러한 결과를 다음과 같이 생각합니다.
사전 훈련 모델을 통한 뛰어난(우수한) 특징 표현은 저차원 작업에 최적화된 특수 설계된 디코더을 통해 노이즈 제거에 효과적으로 적응할 수 있습니다.
그림 21은 우리 모델의 장점을 더욱 강조하고, Case 5에서 Ground Truth와 비교하여 스펙트럼 곡선의 최소 편차와 최소한의 공간 재구성 오류를 보여줍니다. 오류 지도(error maps)에서 파란색 픽셀 농도가 높을수록 Ground Truth에 비해 더 작은 오류를 나타냅니다. 반면에, 스펙트럼 곡선의 유사성이 클수록 더 나은 복원을 의미합니다.
HyperSIGMA를 사용한 SpatSIGMA와 HyperSIGMA 모두 명확하게 다른 방법보다 뛰어난 성능을 발휘합니다. 스펙트럼 정보를 활용하여 더 나은 결과를 얻습니다.
SpatSIGMA와 HyperSIGMA는 모두 다른 방법들보다 명확하게 우수하며, HyperSIGMA는 스펙트럼 정보를 활용하기 때문에 더 나은 성능을 보이고, 이는 양적 결과와 일치합니다. (HyperSIGMA의 성능이 수치적으로도 뒷받침된다)