논문에서 Solanki, Nayyar 및 Naved가 제공한 정의에 따르면 이미지-이미지 번역은 관계 학습을 목표로 이미지를 한 도메인에서 다른 도메인으로 변환하는 프로세스입니다. 입력 이미지와 출력 이미지 사이의 매핑.
즉, 모델이 매핑 함수 f를 학습하여 하나의 이미지 a를 다른 이미지 b로 변환할 수 있기를 바랍니다.
어떤 사람들은 이러한 모델의 용도와 인공 지능 세계에서의 관련성이 무엇인지 궁금해할 수 있습니다. 응용 분야가 많은 경향이 있으며 예술이나 그래픽 디자인에만 국한되지 않습니다. 예를 들어, 이미지를 촬영하고 이를 다른 이미지로 변환하여 합성 데이터(예: 분할된 이미지)를 생성할 수 있는 기능은 자율 주행 자동차 모델을 교육하는 데 매우 유용합니다. 테스트된 또 다른 응용 프로그램은 모델이 두 가지 변환(위성 보기에서 지도로 또는 그 반대로)을 모두 수행할 수 있는 지도 디자인입니다. 미완성 프로젝트를 완료하는 방법에 대한 권장 사항을 제시하는 모델을 통해 이미지 뒤집기 변환을 아키텍처에도 적용할 수 있습니다.
이미지 변환의 가장 매력적인 응용 프로그램 중 하나는 간단한 그림을 아름다운 풍경이나 그림으로 변환하는 것입니다.
지난 몇 년 동안 생성 모델을 활용하여 이미지 간 번역 문제를 해결하기 위한 여러 가지 방법이 개발되었습니다. 가장 일반적으로 사용되는 방법은 다음 아키텍처를 기반으로 합니다.
Pix2Pix는 조건입니다. 알 GAN 기반 모델. 이는 해당 아키텍처가 생성기 네트워크(G)와 판별기(D)로 구성됨을 의미합니다. 두 네트워크 모두 적대적 게임에서 훈련됩니다. 여기서 G의 목표는 데이터 세트와 유사한 새로운 이미지를 생성하는 것이고, D는 이미지가 생성되는지(가짜) 또는 데이터 세트에서 생성되는지(진짜)를 결정해야 합니다.
Pix2Pix와 다른 GAN 모델의 주요 차이점은 다음과 같습니다. (1) 첫 번째 생성기는 생성 프로세스를 시작하기 위해 이미지를 입력으로 사용하는 반면 일반 GAN은 무작위 노이즈를 사용합니다. (2) Pix2Pix는 완전히 감독되는 모델입니다. 데이터 세트는 두 도메인의 쌍을 이루는 이미지로 구성됩니다.
논문에 설명된 아키텍처는 생성기를 위한 U-Net과 판별기를 위한 Markovian Discriminator 또는 Patch Discriminator로 정의됩니다.
Pix2Pix 결과
Pix2Pix에서 교육 프로세스는 완전히 감독됩니다(예: 이미지 입력 쌍이 필요함). UNIT 방법의 목적은 두 쌍의 이미지에 대한 훈련 없이 이미지 A를 이미지 B에 매핑하는 기능을 학습하는 것입니다.
모델은 두 도메인(A와 B)이 공통 잠재 공간(Z)을 공유한다는 가정에서 시작됩니다. 직관적으로 우리는 이 잠재 공간을 이미지 도메인 A와 B 사이의 중간 단계로 생각할 수 있습니다. 따라서 페인팅-이미지 예제를 사용하면 동일한 잠재 공간을 사용하여 페인팅 이미지를 뒤로 생성하거나 멋진 이미지를 앞으로 볼 수 있습니다(그림 X 참조).
그림에서: (a) 공유 잠재 공간. (b) UNIT 아키텍처: X1은 그림, G2 생성기, D1, D2 판별자입니다. 점선은 네트워크 간의 공유 레이어를 나타냅니다.
UNIT 모델은 인코더의 마지막 레이어(E1, E2)와 생성기의 첫 번째 레이어(G1, G2)가 공유되는 한 쌍의 VAE-GAN 아키텍처(위 그림 참조)에서 개발되었습니다.
UNIT 결과
Palette는 캐나다 Google 연구팀이 개발한 조건부 확산 모델입니다. 모델은 이미지 변환과 관련된 4가지 작업을 수행하도록 학습되어 고품질 결과를 얻습니다.
(i) 색칠: 회색조 이미지에 색상 추가
(ii) Inpainting: 사실적인 콘텐츠로 사용자 채우기 지정된 이미지 영역
(iii)자르기 해제: 이미지 프레임 확대
(iv) JPEG 복구: 손상된 JPEG 이미지 복구
논문에서 저자는 다중 작업 일반 모델과 다중 특수 모델의 차이점을 탐구합니다. 둘 다 백만 번의 반복을 통해 훈련되었습니다. 모델의 아키텍처는 Dhariwal 및 Nichol 2021의 클래스 조건부 U-Net 모델을 기반으로 하며, 1M 훈련 단계에 1024개 이미지의 배치 크기를 사용합니다. 노이즈 계획을 하이퍼파라미터로 전처리 및 조정하고 훈련 및 예측을 위해 다양한 계획을 사용합니다.
팔레트 결과
다음 두 모델은 이미지 변환을 위해 특별히 설계되지는 않았지만 Transformer와 같은 강력한 모델을 컴퓨터 비전 분야로 가져오는 데 한 단계 더 발전했다는 점에 유의하세요. .. 분명한 조치가 취해졌습니다.
Vision Transformers(ViT)는 Transformers 아키텍처(Vaswani et al., 2017)의 수정 버전이며 이미지 분류를 위해 개발되었습니다. 모델은 이미지를 입력으로 사용하고 정의된 각 클래스에 속할 확률을 출력합니다.
가장 큰 문제는 Transformer가 2차원 행렬이 아닌 1차원 시퀀스를 입력으로 사용하도록 설계되었다는 것입니다. 정렬을 위해 저자는 이미지를 시퀀스(또는 NLP의 문장)로 생각하고 덩어리를 토큰(또는 단어)로 생각하여 이미지를 작은 덩어리로 분할할 것을 권장합니다.
간단히 요약하자면 전체 과정을 3단계로 나눌 수 있습니다.
1) 임베딩: 작은 조각 분할 및 편평화 → 선형 변환 적용 → 클래스 태그 추가(이 태그는 분류 시 고려해야 할 이미지 요약 역할을 합니다.) →Position Embedding
2) 트랜스포머-인코더 블록: 임베디드 패치를 일련의 트랜스포머 인코더 블록에 넣습니다. 어텐션 메커니즘은 이미지의 어느 부분에 집중해야 하는지 학습합니다.
3) 분류 MLP 헤더: MLP 헤더를 통해 클래스 토큰을 전달하면 이미지가 각 클래스에 속할 최종 확률이 출력됩니다.
ViT 사용의 장점: 배열은 변경되지 않습니다. CNN과 비교하여 Transformer는 이미지의 변환(요소 위치 변경)에 영향을 받지 않습니다.
단점: 학습을 위해서는 많은 양의 레이블이 지정된 데이터가 필요합니다(최소 14M 이미지).
TransGAN은 컨볼루션 레이어를 사용하지 않고 이미지 생성을 위해 설계된 변환 기반 GAN 모델입니다. 대신 생성기와 판별기는 업샘플링 블록과 다운샘플링 블록으로 연결된 일련의 변환기로 구성됩니다.
생성기의 순방향 통과는 무작위 노이즈 샘플의 1차원 배열을 가져와 MLP를 통해 전달합니다. 직관적으로 배열은 문장으로, 픽셀 값은 단어로 생각할 수 있습니다(64개 요소의 배열은 1채널의 8✕8 이미지로 재구성될 수 있음). 다음으로 저자는 일련의 Transformer를 적용합니다. 각 블록 뒤에는 배열(이미지) 크기를 두 배로 늘리는 업샘플링 레이어가 옵니다.
TransGAN의 주요 기능은 Grid-self-attention입니다. 고차원 이미지(예: 매우 긴 배열 32✕32 = 1024)에 도달할 때 변환기를 적용하면 1024 배열의 각 픽셀을 가능한 255개 픽셀과 모두 비교해야 하기 때문에 Self-Attention 메커니즘의 폭발적인 비용이 발생할 수 있습니다( RGB 차원). 따라서 주어진 토큰과 다른 모든 토큰 간의 대응 관계를 계산하는 대신 그리드 self-attention은 전체 차원 특징 맵을 겹치지 않는 여러 그리드로 나누고 각 로컬 그리드에서 토큰 상호 작용을 계산합니다.
판별기 아키텍처는 앞서 인용한 ViT와 매우 유사합니다.
다른 데이터세트의 TransGAN 결과
위 내용은 이미지 번역을 위한 5가지 유망 AI 모델의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!