[논문 리딩] Image-to-Image Translation with Conditional Adversarial Networks
Abstract
Task : image-to-image translaton
본 논문은 pix2pix 소프트웨어 를 통해 더이상 매핑 기능들을 손을 써가면서 기술을 쓸 필요도 없고,
손실 함수를 손을 써가면서 고려할 필요도 없이 합리적인 결과가 나왔다고 주장하고 있음
Conditional adversarial networks(조건부 적대적 신경망)은 인풋 이미지를 아웃풋이미지로 매핑하는 것을
학습할 뿐만 아니라, 이러한 매핑을 학습하기 위해 손실 함수를 학습하게됨
이러한 접근법은 라벨링된 맵(label maps), 엣지 맵(edge maps)으로부터 재구성한 객체들,
다른 태스크들에 포함된 칼라 이미지들을 합성 이미지(synthesizing photos)로 만드는데 효율적임
Related work
Structured losses for image modeling
Image-to-image 변환 문제들은 종종 픽셀 단위 분류 또는 회귀로 구성되어짐
이러한 공식들은 주어진 인풋 이미지에 모든 부분들에 의존해서 아웃풋 픽셀이 고려되어진다는 점에서 output space를 'unstructured'로 여겨짐
SSIM metric 등을 포함한 방법들을 가지고 많은 문서에서 손실을 고려함
conditonal GAN은 손실이 학습된다라는 점에서 다름
그리고 이론상으로 Conditional GAN은 output과 target 사이에 다른 구조에 대해 불이익을 주는 방식으로 손실이 학습됨
Conditional GANs
이러한 논문들은 인페인팅(inpainting), 미래 상태 예측, 유저의 제한사항에 따른 이미지 조정, 스타일 변환, 초고해상도에 관해 인상적인 결과들을 달성했으며, 각각 특정 애플리케이션을 만들음
우리 프레임워크는 특정 애플리케이션이 없다는 점에서 다름
이전 논문들과 다른 점은 본 논문에서 제시하는 generator는 U-Net 기반 아키텍처이며, discriminator는 Convolutional PatchGAN classifier(분류기)를 사용한다. 이 분류기는 오직 이미지 패치들의 범위(scale)에 대해서만 불이익을 줌
PatchGAN 아키텍처는 이전에 지역적 스타일 통계치를 잡아내기 위해 제안되었음
이러한 접근법은 넓은 범위의 문제들에 대해 효과적이며 패치 사이즈를 변화시키는 것에 효과성을 알게 되었음