전체 글 (173) 썸네일형 리스트형 [논문 리뷰] Hybrid Spectral Denoising Transformer with Guided Attention GSSA는 3D 데이터 X ∈ R의 스펙트럼 D 차원을 따라 정확한 스펙트럼 어텐션을 고려하기 때문에 글로벌 스펙트럼 상관 관계를 포착하는 데 효과적이며 다양한 HSI에 유연함 하이브리드 스펙트럼 노이즈 제거 트랜스포머 이 섹션에서는 임의의 대역 수를 가진 하이퍼 스펙트럼 이미지 노이즈 제거를 위한 통합 모델인 HSDT(Hybrid Spectral Denoising Transformer)를 제시함 HSDT는 (i) 3D 컨볼루션의 대안으로 강력하고 가벼운 스펙트럼 공간 분리 가능 컨볼루션,(ii) 학습 가능한 쿼리 세트에 의해 조종되는 유도 스펙트럼 셀프 어텐션, (iii) 적응형 자체 변조 분기가 있는 자체 변조 피드포워드 네트워크. HSDT의 전체 아키텍처는 그림 3(a)에 표시된 스킵 연결[56]이.. AnySat_An Earth Observation Model for Any Resolutions and Scales and Modalities 논문 리뷰 핵심 내용- Multimodal Joint Embedding Predictive Architecture 교차 모달 마스크 자동 인코딩 기법 (cross-modal masked auto-encoding techniques)우리는 학습된 표현(representations)이 모달리티(위성) 전반에 걸쳐 일관성이 있을 것으로 기대할 수 있음. 또한, 사용 가능한 모달리티 표현들로(위성)부터 없는 모달리티 표현을 재구성할 수 있어야 하며, 이는 교차 모달 마스크 자동 인코딩 기법의 사용을 필요로함 Multimodal Joint Embedding Predictive Architecture 존재 이유EO 데이터는 날씨 조건, 획득 각도, 시간이나 연도에 따른 변동과 같은 복잡한 방해 요소의 영향을 받음그래서.. what's DPO (Direct Preference Optimization, DPO)? 25-02-06 직접 선호 최적화(Direct Preference Optimization, DPO)는 기존의 강화 학습에서 요구되는 보상 모델링 단계를 건너뛰고 선호도 데이터를 직접 사용하여 언어 모델을 최적화하는 접근 방식이다. 이 방법은 선호도 기반의 강화 학습(Preference-based RL, PbRL)과 유사한 개념에서 발전했으며, 사용자의 이진 선호(예: 더 선호하는 답변에 대한 선택)를 기반으로 한다. DPO는 복잡한 보상 함수를 명시적으로 모델링하고 최적화하는 대신, 선호도 데이터를 통해 직접 정책(policy)을 최적화함으로써, 언어 모델의 출력을 사용자의 선호와 더 잘 일치시키는 것을 목표로 한다.DPO는 기존의 강화 학습 프로세스인 RLHF(Reinforcement Learning .. 이전 1 2 3 4 ··· 58 다음