초록.
파운데이션 모델은 자기지도 학습 방식에서 최근 시각 분야에 혁명을 일으킬 수 있는 잠재력으로 인해 상당한 주목을 받고 있습니다. 대부분의 기초 모델은 RGB 이미지를 효과적으로 처리하도록 맞춤화되어 있습니다. 다양한 시각적 작업을 수행하는 동안 장면에 대한 귀중한 정보를 제공하는 스펙트럼 데이터에 초점을 맞춘 연구에는 눈에 띄는 격차가 있습니다. 특히 원격 감지(RS) 애플리케이션에서 이해가 필요합니다. 이러한 격차를 메우기 위해 우리는 처음으로 범용 RS 기반을 만들었습니다. 새로운 3D 생성 사전 학습 트랜스포머를 사용하여 스펙트럼 RS 이미지를 처리하도록 특별히 제작된 SpectralGPT라는 모델 (GPT). 기존 기초 모델과 비교하여 SpectralGPT 1)은 다양한 크기, 해상도, 시간의 입력 이미지를 수용합니다. 광범위한 RS 빅데이터를 최대한 활용할 수 있도록 점진적인 교육 방식으로 시리즈 및 지역을 지원합니다. 2) 3D 토큰 생성 활용 공간-스펙트럼 결합을 위해; 3) 다중 표적 재구성을 통해 스펙트럼 순차 패턴을 캡처합니다. 4) 백만 개의 스펙트럼으로 훈련 RS 이미지는 6억 개 이상의 매개변수가 포함된 모델을 생성합니다. 우리의 평가에서는 다음과 같은 중요한 성능 개선이 강조됩니다.
사전 훈련된 SpectralGPT 모델은 지구과학 분야 내에서 스펙트럼 RS 빅 데이터 애플리케이션을 발전시키는 데 상당한 잠재력을 강화합니다
초록 핵심부분
새로운 3D 생성 사전 학습된 변환기(GPT)를 사용하여 스펙트럼 RS 이미지를 처리하도록 특별히 제작됨
기존 파운데이션 모델과 비교하여 SpectralGPT는
1) 다양한 크기, 해상도, 시계열 및 영역의 입력 이미지를 점진적으로 학습하여 광범위한 RS(Remote-Sensing) 빅데이터를 최대한 활용할 수 있음
2) 공간-스펙트럼 결합을 위해 3D 토큰 생성을 활용
3) 다중 대상 재구성을 통해 스펙트럼 순차 패턴을 캡처함
4) 100만개의 스펙트럼 RS 이미지에서 학습하여 6억 개 이상의 매개변수가 있는 모델을 생성함
평가 결과, 사전 훈련된 SpectralGPT 모델을 통해 성능이 크게 향상되었으며, 이는 지구과학 분야에서 단일/다중 레이블 장면 분류, 의미 분할 및 변화 탐지의 4가지 하위 작업에서
스펙트럼 RS 빅데이터 애플리케이션을 발전시키는 데 상당한 잠재력이 있음을 나타냄
사전 학습 에이전트 작업은 일반적으로 대조 학습 [12] 및 생성 학습 [13] . 이름에서 알 수 있듯이 전자는 모델이 유사한 예와 다른 예를 구별하도록 가르치는 것을 목표로 하는 반면, 후자는 모델이 새로운 데이터를 생성하거나 부분적인 관찰에서 완전한 데이터를 복구하도록 훈련하는 데 중점을 둡니다.
한가지 차이점은 그림 1 에 나와 있습니다 . 대조 학습의 두 가지 대표적인 프레임워크는 모멘텀 대조(MoCo) [14] 및 단순 대조 학습(SimCLR) [15] . MoCo는 대조 학습 프로세스를 개선하기 위해 모멘텀 업데이트를 도입하는 반면, SimCLR은 데이터 증강을 활용하여 대조 학습에 사용되는 이미지 쌍의 다양성과 복잡성을 향상시킵니다. MoCo 및 SimCLR 프레임워크는 초기 제안 이후로 수많은 변형이 개발되었습니다. 이러한 변형은 원래 프레임워크의 특정 과제나 한계를 해결하거나 성능을 더욱 개선하는 것을 목표로 합니다. 예를 들어, SimCLR의 일부 변형은 새로운 유형의 데이터 증강을 통합하거나 학습 목표를 개선했습니다. [16,17,18] , 일부 MoCo 변형은 다양한 모멘텀 업데이트 전략을 탐색하거나 추가 손실을 사용하여 대조 학습을 개선했습니다. [19,20,21] . 비전 트랜스포머(ViT)의 등장과 함께 [22] , 시각적 사전 학습 작업을 위한 마스크 이미지 모델링(MIM)을 기반으로 한 생성 학습에서 상당한 진전이 있었습니다. [ 에 제시된 것처럼 이미지 변환기(BEiT)의 양방향 인코더 표현23] , ViT 위에 구축된 MIM 아키텍처의 뛰어난 예입니다. MIM은 모든 이미지 패치의 입력을 허용하여 다양한 네트워크 아키텍처에 적응할 수 있는 유연성을 제공합니다.
MAE는 GPT 패밀리에서 중요한 기준 아키텍처로 등장했으며, 사전 학습 작업에서 큰 잠재력을 보여주었습니다. MAE에서 마스크되지 않은 패치 또는 픽셀은 마스크된 패치 또는 픽셀을 재구성하는 데 사용됩니다. 이 접근 방식은 계산적으로 더 효율적이며 사전 학습된 모델의 추론 능력도 향상시켜 다양한 애플리케이션에 더 실용적입니다.
( 기존 RS 기반 모델 한계 ): 이들은 종종 3D 텐서 데이터에 내재된 공간-스펙트럼 표현을 포착하는 데 어려움을 겪습니다. 이러한 모델의 대부분은 RGB 이미지와 유사한 데이터를 처리하도록 주로 설계되어 스펙트럼 정보를 완전히 포착하고 특성화하는 기능이 제한됩니다. 결과적으로 이러한 데이터 유형을 처리하는 적용성은 여전히 제한적입니다.
( 스펙트럼 데이터의 파운데이션 모델 ): SatMAE의 중심 설계 접근 방식에는 RGB 대역과 유사한 인접한 스펙트럼 대역을 그룹화하는 것이 포함
그러나 이러한 관행은 의도치 않게 스펙트럼 연속성을 방해하여 3D 공간-스펙트럼 결합 특성과 스펙트럼 순차 데이터의 최적이 아닌 캡처로 이어집니다. 게다가 사전 훈련 샘플 수와 효과적인 훈련 전략과 관련된 제약으로 인해 이 맥락에서 성능 향상이 더욱 방해를 받았습니다.
(그림)
이후 모델은 다양한 이미지 크기, 시계열 정보 및 지리적 지역을 사용하여 더 많은 데이터 세트(예: 354,196개 이미지가 있는 BigEarthNet-S2)에서 점진적으로 학습을 거칩니다.
SpectralGPT는 (3D) 텐서 기반 랜덤 가중치 초기화를 사용하여 하나의 데이터 세트(예: 712,874개 이미지가 있는 fMoW-S2)에서 모델을 처음부터 학습하기 시작합니다.
특장점
대규모 훈련 데이터: SpectralGPT는 100만 개 이상의 스펙트럼 이미지가 있는 Sentinel-2 위성에서 파생된 광범위한 데이터 세트에서 훈련됩니다. 이러한 노력은 각각 약 1억, 3억 및 6억 개의 매개변수로 구성된 Base, Large 및 Huge의 세 가지 고유한 모델 반복을 만드는 것으로 마무리됩니다.
SpectralGPT는 포괄적인 프레임워크이자 총칭으로, 우리의 경우 단일 데이터 세트에서만 사전 학습된 모델을 나타냅니다.
그에 따라 다양한 데이터 세트에서 점진적으로 사전 학습된 모델은 SpectralGPT로 표시됩니다.+
모델의 인코더를 다양한 정보에 노출시켜 궁극적으로 광범위한 기능을 효과적으로 표현하는 기능을 향상시킵니다
사전 학습의 유연성: SpectralGPT는 점진적 학습 전략을 사용하여 다양한 크기, 해상도, 시계열 및 지리적 영역의 입력 이미지를 처리할 수 있습니다.
고급 3D 마스킹 및 재구성: SpectralGPT는 스펙트럼 RS 데이터에서 최소 90%의 마스킹 비율을 가진 3D 텐서 형태의 공간-스펙트럼 마스크를 활용함
로컬 공간-스펙트럼 특성과 스펙트럼 순차 정보를 종합적으로 포착합니다. 이러한 혁신은 추론을 통해 모델의 학습 기능을 크게 향상시킴
다운스트림 작업에서 탁월한 성능:
SpectralGPT의 영향은 다운스트림 RS 모델까지 확장되어 단일/다중 레이블 장면 분류, 의미 분할 및 변경 감지를 포함한 다양한 작업에서 기존 최신 기술(SOTA) 경쟁 제품보다 우수한 성능을 발휘
새로운 벤치마크 데이터 세트: SegMunich라는 새로운 벤치마크 데이터 세트를 활용함. 이 데이터 세트는 독일 뮌헨 시의 도시 지역과 그 주변 지역에 초점을 맞춤.
데이터 세트는 다운스트림 분석을 용이하게 하는 13개 클래스로 의미론적 세분화 작업의 요구 사항을 충족하도록 설계됨
2.2 SpectralGPT의 방법론적 개요
SpectralGPT 모델은 세 가지 핵심 구성 요소로 구성됨
1) 스펙트럼 데이터를 처리하기 위한 3D 마스킹, 2) 스펙트럼 시각적 표현을 학습하기 위한 인코더, 3) 다중 대상 재구성을 위한 디코더
텐서와 유사한 스펙트럼 데이터의 효율적인 처리를 가능하게 하는 3D 큐브 마스킹 전략을 구현
우리의 접근 방식은 90% 마스킹 비율을 활용하여 공간적 및 스펙트럼적 시각적 표현을 효과적인 방식으로 캡처하여 입력 스펙트럼 데이터에서 보다 정확하고 다양한 지식 추출을 이끕니다.
2.3스펙트럼 데이터의 3D 마스킹
2.4표시 토큰을 위한 인코더
2.5다중 대상 재구성을 갖춘 경량 디코더
2.6점진적 사전 훈련
제안된 SpectralGPT 모델은 다양한 입력 이미지 크기에 매우 적응성이 뛰어나다는 장점이 있으며, 이는 다양한 크기, 해상도, 시간적 가변성 및 지리적 범위의 이미지가 있는 대용량 데이터 세트를 처리하는 데 특히 유용함
이는 입력 이미지를 고정 크기의 3D 토큰(예:8×8×3), 이는 인코더-디코더 파이프라인을 통해 독립적으로 처리함
그런 다음 결과 토큰을 다시 꿰매어(합쳐) 최종 출력 이미지를 형성합니다.
이 접근 방식은 아키텍처나 하이퍼파라미터를 변경하지 않고도 이론적으로 모델이 임의의 차원의 이미지를 처리할 수 있도록 합니다.
이 특성을 통해 제안된 모델은 다양한 크기의 이미지를 인코더 네트워크에 공급할 수 있으며 3D 토큰이 고정된 크기로 자르기만 하면 다양한 센서, 해상도, 시계열 및 모달리티를 가진 입력 이미지를 사용할 수도 있음
크기가 96×96픽셀을 입력한 다음 점진적으로 크기의 이미지를 공급합니다. 128 ×128 pixes 또는 Sentinel-2 데이터로 시작한 다음 Landsat-8 또는 Gaofen-2 데이터로 전환합니다.
더 광범위하게, 다양한 유형과 크기의 입력 이미지를 처리하는 기능은 특정 입력 이미지 유형이나 크기에 국한되지 않는 보다 견고하고 일반화 가능한 기능으로 이어질 수 있으므로
이전에 보지 못한 데이터에 대한 모델 일반화 및 성능이 향상됩니다.
데이터 세트의 입력 순서(즉, BigEarthNet-S2보다 fMoW-S2를 먼저 공급)는 점진적 학습 전략에 따라 정렬됩니다. (첫번째로 fMoW-S2 학습, 두번째로 BigEarthNet-S2 학습)
fMoW-S2의 스펙트럼 데이터 품질은 BigEarthNet-S2보다 상대적으로 낮은 반면 규모는 훨씬 큽니다.
결과적으로 이 모델은 비교적 품질은 낮지만 규모가 큰 데이터에서 학습을 시작한 다음 더 높은 품질의 데이터로 미세 조정하는 이점을 얻습니다.
반면에 fMoW-S2의 이미지 크기는 BigEarthNet-S2보다 작습니다.
이 모델은 처음에는 작은 크기의 데이터에서 학습한 다음 더 큰 데이터로 확장하는 경향이 있음을 발견했습니다.
2.7 사전학습된 데이터셋
Foundation 모델은 Sentinel-2 위성의 100만 개 이상의 스펙트럼 이미지로 구성된 포괄적인 데이터 세트에서 훈련되었음
이 데이터 세트는 12개의 스펙트럼 대역을 포함하고 있으며 두 가지 주요 소스에서 가져옵니다
BigEarthNet [35] , 10개 이상의 유럽 국가에서 유래한 지역 데이터 세트입니다.
fMoW-S2 [31] , 세계 기능 지도(fMoW)를 기반으로 62개 범주로 레이블이 지정된 전 세계적으로 다양한 컬렉션입니다.
fMoW-S2 데이터 세트는 Sentinel-2 스펙트럼 이미지(B1-12 및 B8A)로 구성되며 712,874개의 훈련 이미지, 84,939개의 검증 이미지, 84,966개의 테스트 이미지의 세 가지 하위 세트로 분할되어 총 882,779개의 이미지가 됩니다.
각 이미지의 평균 크기는 높이가 약 45픽셀, 너비가 60픽셀입니다.
2.8 구현 세부 사항 및 실험 설정
Sentinel-2 이미지가 13개의 스펙트럼 대역으로 구성되어 있음.
그러나 채널 구성 측면에서 사전 학습된 작업과 다운스트림 작업에서 데이터 세트를 조화시키기 위해 모든 fMoW 데이터셋 이미지에서 B10 대역을
제외한 12개의 주요 대역을 유지하기로 했습니다. 데이터 일관성을 보장하기 위해 스펙트럼 이미지를 대역별로 정규화하여 값을 0~1의 표준화된 범위로 조정합니다.
그 후, 우리는 전처리를 위해 확립된 방법론[31]을 따릅니다. 여기에는 원래 크기의 0.2배에서 1.0배 범위 내에서 무작위로 이미지를 자르고 크기를 조정하는 작업이 포함됩니다.
여기에는 원본 크기의 0.2배에서 1.0배 범위 내에서 이미지를 무작위로 자르고 크기를 조정하는 작업이 포함됩니다. 이것들을 96 × 96 픽셀로 리사이징하고 수평 뒤집기를 적용합니다.
이러한 꼼꼼한 단계는 스펙트럼 기반 모델의 견고성과 호환성에 전체적으로 기여합니다.
우리는 바닐라 ViT-Base 아키텍처를 네트워크 백본으로 사용합니다.
모델을 스펙트럼 데이터에 맞게 조정하기 위해 8×8×3 픽셀의 토큰 크기를 사용합니다.
효과적으로 이미지를 분할합니다. 예를 들어, 크기가 96×96×12 픽셀 사이즈를 가진 이미지를 12×12×4 토큰 분할됩니다.
우리의 접근 방식은 두 개의 학습 가능한 위치 임베딩을 통합합니다.
이러한 임베딩 중 하나는 공간 정보에 전념하는 반면, 다른 하나는 스펙트럼 채널 간의 변화를 포착하도록 맞춤화되었습니다. 이러한 증강은 스펙트럼 입력에서 의미 있는 특징을 추출하는 모델의 능력을 더욱 개선합니다.
우리의 사전 훈련은 이전 연구[31]에 설명된 접근 방식을 밀접하게 준수합니다.
8개의 NVIDIA GeForce RTX 4090 GPU와 AMD EPYC 7Y83 CPU의 연산 능력을 활용하여 10^-4 학습률로 AdamW 최적화 프로그램을 구현합니다
반주기 코사인 붕괴 일정과 결합. ??
robustness을 보장하기 위해, 90%의 3D 마스킹 비율을 채택하여 효과적인 학습을 용이하게 합니다.
(1단계) 모델은 fMoW-S2 데이터 세트에서 200 에포크에 걸친 포괄적인 사전 학습 과정을 거칩니다.
(2단계) 이 단계가 끝나면 모델의 학습은 BigEarthNet-S2 데이터셋에서 100 에포크 동안 계속됩니다.
이 단계에서는 입력 차원을 128×128×12로 수정해야 하지만, 다른 설정은 일관되게 유지됩니다.
이러한 전략은 다양한 데이터셋에서 모델의 적응성과 성능을 효과적으로 향상시킵니다.
3. 실험
이 섹션에서는 여러 SOTA Foundation 모델인 ResNet50 [37] , 세코(SeCo) [38] , ViT [22] 및 SatMAE [31] 과 비교하여 SpectralGPT 모델의 성능을 엄격하게 평가합니다.
또한 (1)단일 레이블 장면 분류, (2)다중 레이블 장면 분류, (3)의미적 분할 및 (4)변화 탐지를 포함한 4개의 다운스트림 EO 작업(task)에 대해 광범위한 ablation 연구에 걸쳐 해당 기능을 평가합니다.
우리는 단일 레이블 RS 장면 분류 작업의 인식 정확도, 다중 레이블 RS 장면 분류 작업의 거시 및 미시 평균 평균 정밀도(mAP), 즉 거시-mAP(미시-mAP), 의미 분할 작업의 전체 정확도(OA) 및 합집합에 대한 평균 교차(mIoU), 변화 탐지의 정밀도, 재현율 및 F1 점수 측면에서 4개의 다운스트림 작업에서 사전 학습된 기초 모델의 성능을 정량적으로 평가합니다.
또한 마스킹 비율(mask ratio), 디코더 깊이(decoder depth), 모델 크기(model size), 패치 크기(patch size) 및 학습 에포크(training epochs)와 같은 중요한 요소를 탐구하여
통찰력 있는 ablations연구를 수행합니다.
4개의 NVIDIA GeForce RTX 4090 GPU의 연산 능력을 활용하여 다운스트림 작업과 ablations 연구 모두에 대해 사전 학습된 기초 모델을 세심하게 미세 조정하여
RS 도메인 내에서 SpectralGPT의 기능과 적응성에 대한 포괄적인 통찰력을 제공합니다. (다운스트림 작업에는 4개의 NVIDIA GeForce RTX 4090 GPU를 사용하였음)
(아키텍처 그림)
사전 훈련된 SpectralGPT 모델을 활용하여 단일 레이블(상단) RS 장면 분류 및 다중 레이블(하단) RS 장면 분류 측면에서
다운스트림 작업을 위한 네트워크 아키텍처입니다. AvgPool과 MLP는 각각 평균 풀링 작업(average pooling operation)과 다층 인식(multilayer perception)을 나타냅니다.
(average pooling operation과 multilayer perception에 대한 설명)
-------------------------------------
[1] Average Pooling Operation
1. 정의: Average Pooling은 이미지나 특성 맵의 크기를 줄이는 방법으로, 일정 구역의 평균 값을 계산하여 새로운 값을 만드는 과정입니다.
2. 작동 방식:
- 입력 이미지를 작은 격자로 나눕니다. 예를 들어, 2x2 격자로 나눌 수 있습니다.
- 각 격자 안의 픽셀 값을 평균 내어 하나의 값으로 대체합니다.
3. 장점:
- 데이터의 크기를 줄여 계산 효율성을 높입니다.
- 중요한 특징을 유지하면서 noise를 줄이는 데 도움이 됩니다.
[2] Multilayer Perception (MLP)
1. 정의: MLP는 인공신경망의 한 유형으로, 여러 층의 노드(뉴런)로 구성되어 있습니다.
2. 구성:
- 입력층: 데이터가 들어오는 첫 번째 층입니다.
- 은닉층: 입력층과 출력층 사이에 있는 하나 이상의 층으로, 데이터의 복잡한 패턴을 학습합니다.
- 출력층: 최종 결과가 나오는 층입니다.
3. 작동 방식:
- 각 뉴런은 이전 층의 뉴런과 연결되어 있습니다.
- 입력 데이터가 각 층을 거치면서 가중치와 활성화 함수를 통해 변형됩니다.
- 마지막으로 출력층에서 결과를 제공합니다.
4. 장점:
- 복잡한 비선형 문제를 해결할 수 있습니다.
- 다양한 분야에서 활용 가능(예: 이미지 인식, 자연어 처리 등)
-------------------------------------
3.1 EuroSAT의 단일 레이블 RS 장면 분류
다운스트림 단일 레이블 RS 장면 분류 작업의 경우 EuroSAT 데이터 세트를 사용합니다
이 데이터 세트는 34개 유럽 국가에서 수집한 27,000개의 Sentinel-2 위성 이미지로 구성되어 있습니다.
이 이미지는 10개의 토지 이용 클래스로 분류되며, 각각 2,000개에서 3,000개의 레이블이 지정된 이미지가 포함되어 있습니다.
이 데이터 세트의 각 이미지의 해상도는 다음과 같습니다.
64×64 픽셀이며 13개의 스펙트럼 대역을 포함합니다. 이전 데이터 처리와의 일관성을 위해 모든 이미지에서 대역 B10이 제외되었다는 점에 유의해야 합니다.
EuroSAT 데이터셋에서 이러한 사전 학습된 모델은 512의 배치 크기로 150 에포크에 걸쳐 미세 조정을 거칩니다.
이 미세 조정 프로세스는 기본 학습 속도가 있는 AdamW Optimizer를 사용합니다.