Hinton이 목록에 있습니다! AI 영상합성 10년 역사, 기억할만한 논문, 이름 등을 살펴봅니다.
이제 2022년의 끝이네요.
이미지 생성에 있어서 딥 러닝 모델의 성능은 이미 너무 좋습니다. 분명히 그것은 미래에 우리에게 더 많은 놀라움을 줄 것입니다.
우리는 어떻게 10년 만에 오늘의 이 자리에 올 수 있었나요?
아래 타임라인에서는 AI 이미지 합성에 영향을 준 논문, 아키텍처, 모델, 데이터 세트 및 실험이 시작된 몇 가지 중요한 순간을 추적해 보겠습니다.
모든 것은 10년 전 그 여름부터 시작됩니다.
The Beginning (2012-2015)
심층 신경망의 출현 이후 사람들은 그것이 이미지 분류에 혁명을 일으킬 것이라는 것을 깨달았습니다.
동시에 연구자들은 반대 방향을 탐색하기 시작했습니다. 컨볼루션 레이어와 같이 분류에 매우 효과적인 일부 기술을 사용하여 이미지를 생성하면 어떻게 될까요?
이제 '인공지능의 여름'이 시작됩니다.
2012년 12월
여기서 모든 것이 시작되었습니다.
올해 "ImageNet Classification of Deep Convolutional Neural Networks" 논문이 출판되었습니다.
논문의 저자 중 한 명은 AI의 "Big Three" 중 하나인 Hinton입니다.
심층 컨벌루션 신경망(CNN), GPU 및 대규모 인터넷 소스 데이터 세트(ImageNet)를 최초로 결합합니다.
2014년 12월
Ian Goodfellow와 기타 AI 거물들은 "생성적 적대 네트워크"라는 서사적 논문을 출판했습니다.
GAN은 분석이 아닌 이미지 합성에 전념하는 최초의 현대 신경망 아키텍처입니다("현대"의 정의는 2012년 이후입니다).
두 개의 하위 네트워크 "Generator"와 "Discriminator"가 경쟁하는 게임 이론을 기반으로 한 독특한 학습 방법을 소개합니다.
결국 "생성기"만 시스템 외부에 보관되며 이미지 합성에 사용됩니다.
안녕하세요! GAN은 Goodfellow et al.의 2014년 논문에서 얼굴 샘플을 생성했습니다. 모델은 웹에서 제거된 Toronto Faces 데이터세트에서 훈련되었습니다.
2015년 11월
세미나 논문 "Using Deep Convolutional Generative Adversarial Networks" Unsupervised Representative Learning"이 출판되었습니다.
본 논문에서 저자는 최초의 실용적인 GAN 아키텍처(DCGAN)를 설명합니다.
이 논문은 또한 처음으로 잠재 공간 조작에 대한 질문을 제기합니다. 개념이 잠재 공간 방향에 매핑됩니까?
GAN 5년(2015~2020)
이 5년 동안 GAN은 스타일 전송, 복원, 노이즈 제거, 초해상도 등 다양한 이미지 처리 작업에 적용되었습니다.
동안 GAN 아키텍처에 관한 논문이 폭발적으로 증가하기 시작했습니다.
프로젝트 주소: https://github.com/nightrome/really-awesome-gan
동시에 GAN의 예술적 실험이 떠오르기 시작했습니다. Mike Tyka, Mario Klingenmann, Anna 리들러, 헬레나 사린 등이 등장했다.
첫 번째 'AI 아트' 스캔들은 2018년에 발생했습니다. 세 명의 프랑스 학생이 "빌린" 코드를 사용하여 AI 초상화를 생성했는데, 이 초상화는 Christie's에서 경매된 최초의 AI 초상화가 되었습니다.
동시에 트랜스포머 아키텍처는 NLP에 혁명을 일으켰습니다.
이것은 가까운 미래에 이미지 합성에 큰 영향을 미칠 것입니다.
2017년 6월
"Attention Is All You Need" 논문이 발표되었습니다.
"Transformers, explain: Understanding the Model Behind GPT-3, BERT, and T5"에도 자세한 설명이 있습니다.
이후 Transformer 아키텍처(BERT와 같은 사전 훈련된 모델 형태)는 자연어 처리(NLP) 분야에 혁명을 일으켰습니다.
2018년 7월
논문 "Conceptual Annotation: Cleaning, Superpositioning, and Image Alt Text Dataset for Automatic Image Captioning"이 출판되었습니다.
이 데이터세트와 기타 다중 모드 데이터세트는 CLIP 및 DALL-E와 같은 모델에 매우 중요해질 것입니다.
2018년부터 2020년까지
NVIDIA 연구원들은 GAN 아키텍처를 철저하게 개선했습니다.
"Training Generative Adversarial Networks Using Limited Data" 논문에서 최신 StyleGAN2-ada가 소개되었습니다.
처음으로GAN 생성 이미지는 최소한 Flickr-Faces-HQ(FFHQ)와 같이 고도로 최적화된 데이터 세트의 경우 자연 이미지와 구별할 수 없게 되었습니다.
Mario Klingenmann, Memories of Passerby I, 2018. 베이컨 같은 얼굴은 생성 모델의 비현실성이 예술적 탐구의 초점인 이 지역 AI 예술의 전형적인 대표자입니다
2020년 5월
"Language Model is a Small Sample Learner" 논문이 출판되었습니다.
OpenAI의 LLM GPT-3(Generative Pre-trained Transformer 3)는 변환기 아키텍처의 성능을 보여줍니다.
2020년 12월
"고해상도 이미지 합성을 위한 변압기 길들이기" 논문이 출판되었습니다.
ViT는 Transformer 아키텍처를 이미지에 사용할 수 있음을 보여줍니다.
이 기사에서 제시한 VQGAN 방법은 벤치마크 테스트에서 SOTA 결과를 얻었습니다.
2010년대 후반 GAN 아키텍처의 품질은 주로 정렬된 얼굴 이미지를 기반으로 평가되었으며, 이질적인 데이터 세트에 대한 결과는 제한적이었습니다.
따라서 인간의 얼굴은 학문/산업 및 예술 실험에서 중요한 기준점으로 남아 있습니다.
트랜스포머 시대(2020-2022)
트랜스포머 아키텍처의 등장은 이미지 합성의 역사를 완전히 다시 썼습니다.
그 이후로 이미지 합성 분야는 GAN을 떠나기 시작했습니다.
"다중 모드" 딥 러닝은 NLP와 컴퓨터 비전 기술을 통합합니다. "적시 엔지니어링"은 모델 훈련 및 조정을 대체하고 이미지 합성의 예술적 방법이 됩니다.
"Learning Transferable Visual Models from Natural Language Supervision" 논문에서는 CLIP 아키텍처를 제안했습니다.
현재 이미지 합성 열풍은 CLIP에서 최초로 선보인 멀티모달 기능이 주도하고 있다고 할 수 있습니다.
종이로 표현한 CLIP 아키텍처
2021년 1월
세계에 곧 출시될 DALL-E의 첫 번째 버전을 소개하는 "Zero-Sample Text to Image Generation" 논문이 출판되었습니다(OpenAI 블로그 게시물도 참조).
이 버전은 단일 데이터 스트림에서 텍스트와 이미지(VAE에서 "TOKEN"으로 압축)를 결합하여 작동합니다.
이 모델은 "문장"을 "계속"합니다.
데이터(2억 5천만 이미지)에는 Wikipedia의 텍스트-이미지 쌍, 개념 설명 및 YFCM100M의 필터링된 하위 집합이 포함됩니다.
CLIP은 이미지 합성에 대한 "다중 모드" 접근 방식의 기반을 마련합니다.
2021년 1월
"Learning Transferable Vision Models from Natural Language Supervision" 논문이 출판되었습니다.
본 논문에서는 ViT와 일반 Transformer를 결합한 멀티모달 모델인 CLIP을 소개합니다.
CLIP은 이미지와 캡션의 "공유 잠재 공간"을 학습하여 이미지에 라벨을 붙일 수 있습니다.
모델은 논문의 부록 A.1에 나열된 수많은 데이터 세트에 대해 훈련되었습니다.
2021년 6월
"이미지 합성에서 확산 모델이 GAN을 능가한다"라는 논문이 출판되었습니다.
확산 모델은 GAN 방식과 다른 이미지 합성 방식을 도입합니다.
연구원들은 인위적으로 추가된 노이즈로 이미지를 재구성하여 학습합니다.
VAE(변형 자동 인코더)와 관련이 있습니다.
2021년 7월
DALL-E mini가 출시되었습니다.
DALL-E의 복사본입니다(아키텍처와 데이터를 거의 조정하지 않고 더 작음).
데이터에는 개념적 12M, 개념적 캡션 및 OpenAI에서 원래 DALL-E 모델에 사용하는 것과 동일한 필터링된 YFCM100M 하위 집합이 포함됩니다.
콘텐츠 필터나 API 제한이 없는 DALL-E mini는 창의적인 탐색을 위한 엄청난 잠재력을 제공하며 트위터에서 "이상한 DALL-E" 이미지가 폭발적으로 증가했습니다.
2021-2022
Katherine Crowson은 CLIP 기반 생성 모델을 만드는 방법을 탐구하는 일련의 CoLab 노트를 게시했습니다.
예를 들어 512x512CLIP 기반 확산 및 VQGAN-CLIP(자연어 안내를 통한 개방형 도메인 이미지 생성 및 편집은 2022년에 사전 인쇄로만 출시되었지만 VQGAN이 출시되자마자 공개 실험이 나타났습니다).
초기 GAN 시대와 마찬가지로 아티스트와 개발자는 매우 제한된 수단으로 기존 아키텍처를 크게 개선했으며, 이는 기업에 의해 단순화되고 최종적으로 wombo.ai와 같은 "스타트업"에 의해 상용화되었습니다.
2022년 4월
"Hierarchical Text Conditional Image Generation with CLIP Potential" 논문이 출판되었습니다.
이 문서에서는 DALL-E 2를 소개합니다. 불과 몇 주 전에 발행 된 글라이드 용지 ( "글라이드 : 현실적인 이미지 생성 및 편집") 한편, DALL-E 2의 제한된 액세스와 의도적인 제한으로 인해 DALL-E mini에 대한 관심이 다시 높아지고 있습니다.
모델 카드에 따르면 데이터에는 "공개적으로 사용 가능한 리소스와 라이선스가 부여된 리소스의 조합"이 포함됩니다. ." 그리고 논문에 따른 완전한 CLIP 및 DALL-E 데이터 세트.
"금발의 인물 사진, DSLR 카메라로 촬영, 중립 배경, 고해상도", DALL-E를 사용하여 생성됨 2 .Transformer 기반 생성 모델은 StyleGAN 2와 같은 최신 GAN 아키텍처의 사실성과 일치하지만 다양한 테마와 패턴을 생성할 수 있습니다
2022년 5~6월
5월 , "Deep Language Understanding을 통한 Realistic Text-to-Image Diffusion Model" 논문이 출판되었습니다.
6월에는 "Scaling Autoregressive Model for Rich Text-to-Image Generation" 논문이 출판되었습니다 .
이 두 논문에는 Imagegen과 Parti가 소개되고
과 DALL-E 2에 대한 Google의 답변이 소개됩니다.
"내가 오늘 왜 널 막았는지 알아?" 생성자: DALL-E 2, "신속한 엔지니어링"은 이후 예술적인 이미지 합성의 주요 방법이 되었습니다
AI Photoshop(2022~현재)
DALL-E 2는 이미지 모델용으로 설계되었지만 새로운 표준을 세웠지만 빠른 상용화로 인해 처음부터 사용이 제한되었습니다.
사용자는 DALL-E mini와 같은 소형 모델을 계속 시도했습니다.
. . Stable Diffusion은 이미지 합성의 "Photoshop 시대"의 시작을 의미한다고 할 수 있습니다. "고대 화가 Zeuxis Juan El Labrador Fernandez의 포도처럼 실물과 같은 포도를 만들기 위해 노력하는 포도 네 송이가 있는 정물, 1636, Prado, Madrid" Stable Diffusion에서 제작한 6가지 변형 2022년 8월 Stability.ai는 Stable Diffusion 모델을 출시합니다. Stability.ai는 "잠재 확산 모델을 사용한 고해상도 이미지 합성" 논문에서 Stable Diffusion을 자랑스럽게 소개합니다. 이 모델은 DALL-E 2와 동일한 사실감을 얻을 수 있습니다. DALL-E 2 외에도 모델은 거의 즉시 대중에게 공개되며 CoLab 및 Huggingface 플랫폼에서 실행할 수 있습니다. 2022년 8월 Google에서는 'DreamBooth: 주제 중심 세대를 위한 텍스트-이미지 확산 모델 미세 조정'이라는 논문을 게재했습니다. DreamBooth는 점점 더 세분화된 확산 모델 제어 기능을 제공합니다. 그러나 이러한 추가 기술 개입 없이도 Photoshop과 같은 생성 모델을 사용하여 스케치에서 시작하여 레이어별로 생성 수정을 추가하는 것이 가능해졌습니다. 2022년 10월 Shutterstock은 생성된 이미지를 제공/라이센스하기 위해 OpenAI와의 협력을 발표했습니다. Stable Diffusion과 같은 생성 모델에 의해 심각한 영향을 받습니다.
위 내용은 Hinton이 목록에 있습니다! AI 영상합성 10년 역사, 기억할만한 논문, 이름 등을 살펴봅니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











CentOS 종료 명령은 종료이며 구문은 종료 [옵션] 시간 [정보]입니다. 옵션은 다음과 같습니다. -H 시스템 중지 즉시 옵션; -P 종료 후 전원을 끕니다. -R 다시 시작; -대기 시간. 시간은 즉시 (현재), 분 (분) 또는 특정 시간 (HH : MM)으로 지정할 수 있습니다. 추가 정보는 시스템 메시지에 표시 될 수 있습니다.

Sonyinteractiveent intustionment (SIE, Sony Interactive Entertainment)의 최고 건축가 인 Mark Cerny는 성능 업그레이드 된 AMDRDNA2.X 아키텍처 GPU 및 AMD와 함께 기계 학습/인공 지능 프로그램 코드 "Amethylst"를 포함하여 차세대 호스트 PlayStation5Pro (PS5PRO)에 대한 더 많은 하드웨어 세부 정보를 발표했습니다. PS5PRO 성능 향상의 초점은 여전히 강력한 GPU, Advanced Ray Tracing 및 AI 구동 PSSR Super-Resolution 기능을 포함하여 세 가지 기둥에 있습니다. GPU는 Sony가 RDNA2.x라는 맞춤형 AMDRDNA2 아키텍처를 채택하며 RDNA3 아키텍처가 있습니다.

CentOS 시스템 하에서 Gitlab의 백업 및 복구 정책 데이터 보안 및 복구 가능성을 보장하기 위해 CentOS의 Gitlab은 다양한 백업 방법을 제공합니다. 이 기사는 완전한 GITLAB 백업 및 복구 전략을 설정하는 데 도움이되는 몇 가지 일반적인 백업 방법, 구성 매개 변수 및 복구 프로세스를 자세히 소개합니다. 1. 수동 백업 gitlab-rakegitlab : 백업 : 명령을 작성하여 수동 백업을 실행하십시오. 이 명령은 gitlab 저장소, 데이터베이스, 사용자, 사용자 그룹, 키 및 권한과 같은 주요 정보를 백업합니다. 기본 백업 파일은/var/opt/gitlab/backups 디렉토리에 저장됩니다. /etc /gitlab을 수정할 수 있습니다

CentOS 시스템에서 HDFS 구성 확인에 대한 완전한 안내서이 기사에서는 CentOS 시스템에서 HDF의 구성 및 실행 상태를 효과적으로 확인하는 방법을 안내합니다. 다음 단계는 HDF의 설정 및 작동을 완전히 이해하는 데 도움이됩니다. Hadoop 환경 변수 확인 : 먼저 Hadoop 환경 변수가 올바르게 설정되어 있는지 확인하십시오. 터미널에서 다음 명령을 실행하여 Hadoop이 올바르게 설치되고 구성되었는지 확인하십시오. Hadoopversion Check HDFS 구성 파일 : HDFS의 Core 구성 파일은/etc/hadoop/conf/directory에 있으며 Core-Site.xml 및 HDFS-Site.xml이 중요합니다. 사용

CentOS에 대한 Zookeeper Performance Tuning은 하드웨어 구성, 운영 체제 최적화, 구성 매개 변수 조정, 모니터링 및 유지 관리 등 여러 측면에서 시작할 수 있습니다. 특정 튜닝 방법은 다음과 같습니다. SSD는 하드웨어 구성에 권장됩니다. Zookeeper의 데이터는 디스크에 작성되므로 SSD를 사용하여 I/O 성능을 향상시키는 것이 좋습니다. 충분한 메모리 : 자주 디스크 읽기 및 쓰기를 피하기 위해 충분한 메모리 리소스를 동물원에 충분한 메모리 자원을 할당하십시오. 멀티 코어 CPU : 멀티 코어 CPU를 사용하여 Zookeeper가이를 병렬로 처리 할 수 있도록하십시오.

CentOS 시스템에서 Pytorch 모델을 효율적으로 교육하려면 단계가 필요 하며이 기사는 자세한 가이드를 제공합니다. 1. 환경 준비 : 파이썬 및 종속성 설치 : CentOS 시스템은 일반적으로 파이썬을 사전 설치하지만 버전은 더 오래 될 수 있습니다. YUM 또는 DNF를 사용하여 Python 3 및 Upgrade Pip : Sudoyumupdatepython3 (또는 SudodnfupdatePython3), PIP3INSTALL-UPGRADEPIP를 설치하는 것이 좋습니다. CUDA 및 CUDNN (GPU 가속도) : NVIDIAGPU를 사용하는 경우 Cudatool을 설치해야합니다.

CentOS 시스템에서 Pytorch GPU 가속도를 활성화하려면 Cuda, Cudnn 및 GPU 버전의 Pytorch를 설치해야합니다. 다음 단계는 프로세스를 안내합니다. CUDA 및 CUDNN 설치 CUDA 버전 호환성 결정 : NVIDIA-SMI 명령을 사용하여 NVIDIA 그래픽 카드에서 지원하는 CUDA 버전을보십시오. 예를 들어, MX450 그래픽 카드는 CUDA11.1 이상을 지원할 수 있습니다. Cudatoolkit 다운로드 및 설치 : NVIDIACUDATOOLKIT의 공식 웹 사이트를 방문하여 그래픽 카드에서 지원하는 가장 높은 CUDA 버전에 따라 해당 버전을 다운로드하여 설치하십시오. CUDNN 라이브러리 설치 :

EU의 일부 Windows 내부 채널에서 Microsoft의 Windows 검색 기능 개선이 테스트되었습니다. 이전에 통합 Windows 검색 기능은 사용자에 의해 비판을 받았으며 경험이 좋지 않았습니다. 이 업데이트는 검색 기능을 두 부분으로 나눕니다. 로컬 검색 및 Bing 기반 웹 검색을 위해 사용자 경험을 향상시킵니다. 검색 인터페이스의 새 버전은 기본적으로 로컬 파일 검색을 수행합니다. 온라인으로 검색 해야하는 경우 "Microsoft BingwebSearch"탭을 클릭하여 전환해야합니다. 전환 후 검색 바에는 사용자가 키워드를 입력 할 수있는 "Microsoft Bingwebsearch :"가 표시됩니다. 이 움직임은 로컬 검색 결과와 Bing 검색 결과의 혼합을 효과적으로 피합니다.
