이제 2022년의 끝이네요.
이미지 생성에 있어서 딥 러닝 모델의 성능은 이미 너무 좋습니다. 분명히 그것은 미래에 우리에게 더 많은 놀라움을 줄 것입니다.
우리는 어떻게 10년 만에 오늘의 이 자리에 올 수 있었나요?
아래 타임라인에서는 AI 이미지 합성에 영향을 준 논문, 아키텍처, 모델, 데이터 세트 및 실험이 시작된 몇 가지 중요한 순간을 추적해 보겠습니다.
모든 것은 10년 전 그 여름부터 시작됩니다.
심층 신경망의 출현 이후 사람들은 그것이 이미지 분류에 혁명을 일으킬 것이라는 것을 깨달았습니다.
동시에 연구자들은 반대 방향을 탐색하기 시작했습니다. 컨볼루션 레이어와 같이 분류에 매우 효과적인 일부 기술을 사용하여 이미지를 생성하면 어떻게 될까요?
이제 '인공지능의 여름'이 시작됩니다.
2012년 12월
여기서 모든 것이 시작되었습니다.
올해 "ImageNet Classification of Deep Convolutional Neural Networks" 논문이 출판되었습니다.
논문의 저자 중 한 명은 AI의 "Big Three" 중 하나인 Hinton입니다.
심층 컨벌루션 신경망(CNN), GPU 및 대규모 인터넷 소스 데이터 세트(ImageNet)를 최초로 결합합니다.
2014년 12월
Ian Goodfellow와 기타 AI 거물들은 "생성적 적대 네트워크"라는 서사적 논문을 출판했습니다.
GAN은 분석이 아닌 이미지 합성에 전념하는 최초의 현대 신경망 아키텍처입니다("현대"의 정의는 2012년 이후입니다).
두 개의 하위 네트워크 "Generator"와 "Discriminator"가 경쟁하는 게임 이론을 기반으로 한 독특한 학습 방법을 소개합니다.
결국 "생성기"만 시스템 외부에 보관되며 이미지 합성에 사용됩니다.
안녕하세요! GAN은 Goodfellow et al.의 2014년 논문에서 얼굴 샘플을 생성했습니다. 모델은 웹에서 제거된 Toronto Faces 데이터세트에서 훈련되었습니다.
2015년 11월
세미나 논문 "Using Deep Convolutional Generative Adversarial Networks" Unsupervised Representative Learning"이 출판되었습니다.
본 논문에서 저자는 최초의 실용적인 GAN 아키텍처(DCGAN)를 설명합니다.
이 논문은 또한 처음으로 잠재 공간 조작에 대한 질문을 제기합니다. 개념이 잠재 공간 방향에 매핑됩니까?
이 5년 동안 GAN은 스타일 전송, 복원, 노이즈 제거, 초해상도 등 다양한 이미지 처리 작업에 적용되었습니다.
동안 GAN 아키텍처에 관한 논문이 폭발적으로 증가하기 시작했습니다.
프로젝트 주소: https://github.com/nightrome/really-awesome-gan
동시에 GAN의 예술적 실험이 떠오르기 시작했습니다. Mike Tyka, Mario Klingenmann, Anna 리들러, 헬레나 사린 등이 등장했다.
첫 번째 'AI 아트' 스캔들은 2018년에 발생했습니다. 세 명의 프랑스 학생이 "빌린" 코드를 사용하여 AI 초상화를 생성했는데, 이 초상화는 Christie's에서 경매된 최초의 AI 초상화가 되었습니다.
동시에 트랜스포머 아키텍처는 NLP에 혁명을 일으켰습니다.
이것은 가까운 미래에 이미지 합성에 큰 영향을 미칠 것입니다.
2017년 6월
"Attention Is All You Need" 논문이 발표되었습니다.
"Transformers, explain: Understanding the Model Behind GPT-3, BERT, and T5"에도 자세한 설명이 있습니다.
이후 Transformer 아키텍처(BERT와 같은 사전 훈련된 모델 형태)는 자연어 처리(NLP) 분야에 혁명을 일으켰습니다.
2018년 7월
논문 "Conceptual Annotation: Cleaning, Superpositioning, and Image Alt Text Dataset for Automatic Image Captioning"이 출판되었습니다.
이 데이터세트와 기타 다중 모드 데이터세트는 CLIP 및 DALL-E와 같은 모델에 매우 중요해질 것입니다.
2018년부터 2020년까지
NVIDIA 연구원들은 GAN 아키텍처를 철저하게 개선했습니다.
"Training Generative Adversarial Networks Using Limited Data" 논문에서 최신 StyleGAN2-ada가 소개되었습니다.
처음으로GAN 생성 이미지는 최소한 Flickr-Faces-HQ(FFHQ)와 같이 고도로 최적화된 데이터 세트의 경우 자연 이미지와 구별할 수 없게 되었습니다.
Mario Klingenmann, Memories of Passerby I, 2018. 베이컨 같은 얼굴은 생성 모델의 비현실성이 예술적 탐구의 초점인 이 지역 AI 예술의 전형적인 대표자입니다
2020년 5월
"Language Model is a Small Sample Learner" 논문이 출판되었습니다.
OpenAI의 LLM GPT-3(Generative Pre-trained Transformer 3)는 변환기 아키텍처의 성능을 보여줍니다.
2020년 12월
"고해상도 이미지 합성을 위한 변압기 길들이기" 논문이 출판되었습니다.
ViT는 Transformer 아키텍처를 이미지에 사용할 수 있음을 보여줍니다.
이 기사에서 제시한 VQGAN 방법은 벤치마크 테스트에서 SOTA 결과를 얻었습니다.
2010년대 후반 GAN 아키텍처의 품질은 주로 정렬된 얼굴 이미지를 기반으로 평가되었으며, 이질적인 데이터 세트에 대한 결과는 제한적이었습니다.
따라서 인간의 얼굴은 학문/산업 및 예술 실험에서 중요한 기준점으로 남아 있습니다.
트랜스포머 시대(2020-2022)
트랜스포머 아키텍처의 등장은 이미지 합성의 역사를 완전히 다시 썼습니다.
그 이후로 이미지 합성 분야는 GAN을 떠나기 시작했습니다.
"다중 모드" 딥 러닝은 NLP와 컴퓨터 비전 기술을 통합합니다. "적시 엔지니어링"은 모델 훈련 및 조정을 대체하고 이미지 합성의 예술적 방법이 됩니다.
"Learning Transferable Visual Models from Natural Language Supervision" 논문에서는 CLIP 아키텍처를 제안했습니다.
현재 이미지 합성 열풍은 CLIP에서 최초로 선보인 멀티모달 기능이 주도하고 있다고 할 수 있습니다.
종이로 표현한 CLIP 아키텍처
2021년 1월
세계에 곧 출시될 DALL-E의 첫 번째 버전을 소개하는 "Zero-Sample Text to Image Generation" 논문이 출판되었습니다(OpenAI 블로그 게시물도 참조).
이 버전은 단일 데이터 스트림에서 텍스트와 이미지(VAE에서 "TOKEN"으로 압축)를 결합하여 작동합니다.
이 모델은 "문장"을 "계속"합니다.
데이터(2억 5천만 이미지)에는 Wikipedia의 텍스트-이미지 쌍, 개념 설명 및 YFCM100M의 필터링된 하위 집합이 포함됩니다.
CLIP은 이미지 합성에 대한 "다중 모드" 접근 방식의 기반을 마련합니다.
2021년 1월
"Learning Transferable Vision Models from Natural Language Supervision" 논문이 출판되었습니다.
본 논문에서는 ViT와 일반 Transformer를 결합한 멀티모달 모델인 CLIP을 소개합니다.
CLIP은 이미지와 캡션의 "공유 잠재 공간"을 학습하여 이미지에 라벨을 붙일 수 있습니다.
모델은 논문의 부록 A.1에 나열된 수많은 데이터 세트에 대해 훈련되었습니다.
2021년 6월
"이미지 합성에서 확산 모델이 GAN을 능가한다"라는 논문이 출판되었습니다.
확산 모델은 GAN 방식과 다른 이미지 합성 방식을 도입합니다.
연구원들은 인위적으로 추가된 노이즈로 이미지를 재구성하여 학습합니다.
VAE(변형 자동 인코더)와 관련이 있습니다.
2021년 7월
DALL-E mini가 출시되었습니다.
DALL-E의 복사본입니다(아키텍처와 데이터를 거의 조정하지 않고 더 작음).
데이터에는 개념적 12M, 개념적 캡션 및 OpenAI에서 원래 DALL-E 모델에 사용하는 것과 동일한 필터링된 YFCM100M 하위 집합이 포함됩니다.
콘텐츠 필터나 API 제한이 없는 DALL-E mini는 창의적인 탐색을 위한 엄청난 잠재력을 제공하며 트위터에서 "이상한 DALL-E" 이미지가 폭발적으로 증가했습니다.
2021-2022
Katherine Crowson은 CLIP 기반 생성 모델을 만드는 방법을 탐구하는 일련의 CoLab 노트를 게시했습니다.
예를 들어 512x512CLIP 기반 확산 및 VQGAN-CLIP(자연어 안내를 통한 개방형 도메인 이미지 생성 및 편집은 2022년에 사전 인쇄로만 출시되었지만 VQGAN이 출시되자마자 공개 실험이 나타났습니다).
초기 GAN 시대와 마찬가지로 아티스트와 개발자는 매우 제한된 수단으로 기존 아키텍처를 크게 개선했으며, 이는 기업에 의해 단순화되고 최종적으로 wombo.ai와 같은 "스타트업"에 의해 상용화되었습니다.
2022년 4월
"Hierarchical Text Conditional Image Generation with CLIP Potential" 논문이 출판되었습니다.
이 문서에서는 DALL-E 2를 소개합니다. 불과 몇 주 전에 발행 된 글라이드 용지 ( "글라이드 : 현실적인 이미지 생성 및 편집") 한편, DALL-E 2의 제한된 액세스와 의도적인 제한으로 인해 DALL-E mini에 대한 관심이 다시 높아지고 있습니다.
모델 카드에 따르면 데이터에는 "공개적으로 사용 가능한 리소스와 라이선스가 부여된 리소스의 조합"이 포함됩니다. ." 그리고 논문에 따른 완전한 CLIP 및 DALL-E 데이터 세트.
"금발의 인물 사진, DSLR 카메라로 촬영, 중립 배경, 고해상도", DALL-E를 사용하여 생성됨 2 .Transformer 기반 생성 모델은 StyleGAN 2와 같은 최신 GAN 아키텍처의 사실성과 일치하지만 다양한 테마와 패턴을 생성할 수 있습니다
2022년 5~6월
5월 , "Deep Language Understanding을 통한 Realistic Text-to-Image Diffusion Model" 논문이 출판되었습니다.
6월에는 "Scaling Autoregressive Model for Rich Text-to-Image Generation" 논문이 출판되었습니다 .
이 두 논문에는 Imagegen과 Parti가 소개되고
과 DALL-E 2에 대한 Google의 답변이 소개됩니다.
"내가 오늘 왜 널 막았는지 알아?" 생성자: DALL-E 2, "신속한 엔지니어링"은 이후 예술적인 이미지 합성의 주요 방법이 되었습니다
AI Photoshop(2022~현재)
DALL-E 2는 이미지 모델용으로 설계되었지만 새로운 표준을 세웠지만 빠른 상용화로 인해 처음부터 사용이 제한되었습니다.
사용자는 DALL-E mini와 같은 소형 모델을 계속 시도했습니다.
. . Stable Diffusion은 이미지 합성의 "Photoshop 시대"의 시작을 의미한다고 할 수 있습니다. "고대 화가 Zeuxis Juan El Labrador Fernandez의 포도처럼 실물과 같은 포도를 만들기 위해 노력하는 포도 네 송이가 있는 정물, 1636, Prado, Madrid" Stable Diffusion에서 제작한 6가지 변형 2022년 8월 Stability.ai는 Stable Diffusion 모델을 출시합니다. Stability.ai는 "잠재 확산 모델을 사용한 고해상도 이미지 합성" 논문에서 Stable Diffusion을 자랑스럽게 소개합니다. 이 모델은 DALL-E 2와 동일한 사실감을 얻을 수 있습니다. DALL-E 2 외에도 모델은 거의 즉시 대중에게 공개되며 CoLab 및 Huggingface 플랫폼에서 실행할 수 있습니다. 2022년 8월 Google에서는 'DreamBooth: 주제 중심 세대를 위한 텍스트-이미지 확산 모델 미세 조정'이라는 논문을 게재했습니다. DreamBooth는 점점 더 세분화된 확산 모델 제어 기능을 제공합니다. 그러나 이러한 추가 기술 개입 없이도 Photoshop과 같은 생성 모델을 사용하여 스케치에서 시작하여 레이어별로 생성 수정을 추가하는 것이 가능해졌습니다. 2022년 10월 Shutterstock은 생성된 이미지를 제공/라이센스하기 위해 OpenAI와의 협력을 발표했습니다. Stable Diffusion과 같은 생성 모델에 의해 심각한 영향을 받습니다.
위 내용은 Hinton이 목록에 있습니다! AI 영상합성 10년 역사, 기억할만한 논문, 이름 등을 살펴봅니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!