생성적 적대 네트워크(GAN)는 고해상도 이미지 생성에 큰 성공을 거두었으며, 최근 몇 년간 해석 가능성에 대한 연구도 폭넓은 주목을 받았습니다.
이 분야에서 GAN이 분리된 표현을 학습하도록 하는 방법은 여전히 중요한 과제입니다. 소위 GAN의 분리된 표현은 표현의 각 부분이 생성된 이미지의 특정 측면에만 영향을 미친다는 것을 의미합니다. GAN의 분리된 표현에 대한 이전 연구는 다양한 관점에 중점을 두었습니다.
예를 들어 아래 그림 1에서 방법 1은 이미지의 구조와 스타일을 분리합니다. 방법 2는 이미지에 있는 로컬 객체의 특징을 학습합니다. 방법 3은 얼굴 이미지의 연령 속성, 성별 속성 등 이미지 속 속성의 분리된 특징을 학습합니다. 그러나 이러한 연구는 다양한 시각적 개념(예: 눈, 코, 입과 같은 얼굴 부분)에 대해 GAN에서 명확하고 상징적인 표현을 제공하지 못했습니다.
그림 1: 다른 GAN 분리 특성화 방법과의 시각적 비교
이를 위해 연구원들은 전통적인 GAN을 해석 가능한 GAN 일반 방법으로 수정하는 방법을 제안했습니다. 이는 생성기의 중간 계층에 있는 컨볼루션 커널이 분리된 로컬 시각적 개념을 학습할 수 있도록 보장합니다. 구체적으로, 아래 그림 2에서 볼 수 있듯이 전통적인 GAN과 비교하여 해석 가능한 GAN의 중간 계층에 있는 각 컨볼루션 커널은 항상 다른 이미지를 생성할 때 특정 시각적 개념을 나타내며, 다른 컨볼루션 커널은 다른 비전을 나타냅니다.
그림 2: 해석 가능한 GAN과 기존 GAN 인코딩 표현의 시각적 비교
해석 가능한 GAN 학습은 다음 두 가지 목표를 충족해야 합니다. Convolution 커널의 해석 가능성 및 생성된 이미지의 신뢰성 .
컨볼루션 커널의 해석성: 연구원들은 중간 계층의 컨볼루션 커널이 시각적 개념에 대한 수동 주석 없이 자동으로 의미 있는 시각적 개념을 학습할 수 있기를 바라고 있습니다. 구체적으로 각 컨볼루션 커널은 서로 다른 이미지를 생성할 때 동일한 시각적 개념에 해당하는 이미지 영역을 안정적으로 생성해야 합니다. 다양한 컨볼루션 커널은 다양한 시각적 개념에 해당하는 이미지 영역을 생성해야 합니다.따라서 그들은 특정 시각적 개념을 공동으로 표현하기 위해 컨볼루션 커널 세트를 사용하고, 서로 다른 시각적 개념을 각각 표현하기 위해 서로 다른 컨볼루션 커널 세트를 사용합니다.
생성된 이미지의 신뢰성을 동시에 보장하기 위해 연구원들은 전통적인 GAN을 해석 가능한 GAN으로 수정하기 위해 다음과 같은 손실 함수를 설계했습니다.
정성적 분석
을 위해 각 컨볼루션 커널의 특징 맵을 시각화하여 다양한 이미지에서 컨볼루션 커널이 나타내는 시각적 개념의 일관성을 평가했습니다. 아래 그림 3과 같이 해석 가능한 GAN에서는 각 컨볼루션 커널이 서로 다른 이미지를 생성할 때 항상 동일한 시각적 개념에 해당하는 이미지 영역을 생성하는 반면, 서로 다른 컨볼루션 커널은 서로 다른 시각적 개념에 해당하는 이미지 영역을 생성합니다. 그림 3: 해석 가능한 GAN의 특징 맵 시각화 차이점은 아래 그림 4(a)에 나와 있습니다. 그림 4(b)는 해석 가능한 GAN에서 서로 다른 시각적 개념에 해당하는 컨볼루션 커널 수의 비율을 보여줍니다. 그림 4(c)는 분할을 위해 선택된 컨볼루션 커널 그룹의 수가 다를 때 그룹이 많을수록 해석 가능한 GAN이 학습한 시각적 개념이 더 자세하게 나타남을 보여줍니다.
그림 4: 해석 가능한 GAN의 질적 평가
해석 가능한 GAN은 또한 생성된 이미지에 대한 특정 시각적 개념 수정을 지원합니다. 예를 들어, 이미지 간의 특정 시각적 개념의 상호 작용은 해석 가능한 레이어에서 해당 특징 맵을 교환함으로써 달성될 수 있습니다. 즉, 로컬/글로벌 얼굴 교환이 완료됩니다.
아래 그림 5는 이미지 쌍 사이에서 입, 머리카락, 코를 바꾼
결과
을 보여줍니다. 마지막 열은 수정된 이미지와 원본 이미지의 차이를 나타냅니다. 이 결과는 연구자의 방법이 관련 없는 다른 영역은 변경하지 않고 국소적인 시각적 개념만 수정했음을 보여줍니다.
그림 5: 생성된 이미지 교체의 구체적인 시각적 개념
또한 아래 그림 6은 얼굴 전체를 교체할 때 방법의 성능도 보여줍니다.
.
그림 6: 생성된 이미지의 전체 얼굴 바꾸기
정량 분석을 위해 연구원들은 얼굴 검증 실험을 사용하여 얼굴 교환 결과의 정확성을 평가했습니다. 구체적으로, 한 쌍의 얼굴 이미지가 주어지면 원본 이미지의 얼굴을 원본 이미지의 얼굴로 대체하여 수정된 이미지를 생성합니다. 그런 다음 수정된 이미지의 얼굴과 원본 이미지의 얼굴이 동일한 ID를 가지고 있는지 테스트합니다.
아래 표 1은 다양한 방법의 얼굴 인증 결과의 정확성을 보여줍니다. 이들 방법은 신원 보존 측면에서 다른 얼굴 교환 방법보다 우수합니다.
표 1: 얼굴 교환 신원의 정확성 평가
또한 실험에서는 특정 시각적 개념을 수정하는 방법의 지역성도 평가되었습니다. 구체적으로 연구진은 RGB 공간에서 원본 이미지와 수정된 이미지 간의 평균 제곱 오차(MSE)를 계산하고, 특정 시각적 개념의 영역 외 MSE와 영역 내 MSE의 비율을 실험적으로 사용했습니다. 지역성 평가를 위한 지표입니다.
결과는 아래 표 2와 같습니다. 연구원의 수정 방법이 지역성이 더 좋습니다, 즉 수정된 시각적 개념을 벗어난 이미지 영역의 변화가 적습니다.
표 2: 수정된 시각적 개념의 지역성 평가
더 많은 실험 결과는 논문을 참조하세요.
이 연구는 시각적 개념에 대한 수동 주석 없이 전통적인 GAN을 해석 가능한 GAN으로 수정할 수 있는 일반적인 방법을 제안합니다. 해석 가능한 GAN에서는 생성기의 중간 계층에 있는 각 컨볼루션 커널이 서로 다른 이미지를 생성할 때 동일한 시각적 개념을 안정적으로 생성할 수 있습니다.
실험에 따르면 해석 가능한 GAN을 사용하면 사람들이 생성된 이미지의 특정 시각적 개념을 수정할 수 있어 GAN 생성 이미지의 제어 가능한 편집 방법에 대한 새로운 관점을 제공할 수 있습니다.
위 내용은 기존 GAN은 수정 후에도 해석이 가능하며 컨볼루션 커널의 해석 가능성과 생성된 이미지의 신뢰성을 보장합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!