2022년은 확실히 AIGC의 원년이라고 할 수 있습니다. 구글 검색 트렌드로 볼 때, 2022년에는 AI 페인팅과 AI 생성 예술에 대한 검색량이 급증할 것입니다.
올해 AI 페인팅이 폭발적으로 증가한 가장 중요한 이유는 Stable Diffusion의 오픈 소스이며, 이는 최근 몇 년 동안의 급속한 Diffusion Model 개발과도 떼려야 뗄 수 없는 OPENAI와 결합되어 이미 개발된 텍스트 언어입니다. 모델 GPT-3을 사용하면 텍스트에서 이미지로의 생성 프로세스가 더 쉬워집니다.
GAN은 2014년 탄생부터 2018년 StyleGAN까지 이미지 생성 분야에서 큰 발전을 이루었습니다. 자연의 포식자와 먹이가 함께 경쟁하고 진화하는 것처럼 GAN의 원리는 단순히 두 개의 신경망을 사용하는 것입니다. 하나는 생성자로, 다른 하나는 판별자로 사용하여 결과가 적합한지 여부를 판단할 수 있도록 합니다. 여부에 관계없이 두 사람은 모델을 훈련하기 위해 서로 경쟁합니다.
GAN(Generative Adversarial Network)은 지속적인 개발을 통해 좋은 결과를 얻었지만, 생성된 결과의 다양성 부족, 모드 붕괴(찾은 후 생성기가 작동하지 않음) 등 항상 극복하기 어려운 몇 가지 문제가 있습니다. 최고의 모드) 더 좋은 점은 훈련이 어렵다는 것입니다. 이러한 어려움으로 인해 AI가 만든 예술 작품이 실용적인 제품을 생산하기가 어려워졌습니다.
GAN에서 수년간의 병목 현상이 발생한 후 과학자들은 모델을 훈련하기 위한 매우 마법 같은 확산 모델 방법을 고안했습니다. 마르코프 체인을 사용하여 원본 이미지에 노이즈 포인트를 지속적으로 추가합니다. 결국에는 무작위 노이즈 이미지가 되며, 훈련 신경망은 이 과정을 역전시켜 점차적으로 무작위 노이즈 이미지를 원래 이미지로 복원할 수 있습니다. 이러한 방식으로 신경망은 처음부터 이미지를 생성할 수 있습니다. 텍스트에서 이미지를 생성하기 위해 설명 텍스트가 처리되어 원본 이미지에 노이즈로 추가됩니다. 이를 통해 신경망은 텍스트에서 이미지를 생성할 수 있습니다.
확산 모델을 사용하면 모델 학습이 더 쉬워집니다. 생성된 이미지의 품질도 매우 높을 수 있으며, 생성된 결과는 큰 영향을 미칠 수 있습니다. 차세대 AI가 믿을 수 없는 '상상력'을 가질 수 있는 이유.
물론, 기술은 획기적인 발전을 이루었습니다. NVIDIA가 1월 말에 출시한 StyleGAN-T의 업그레이드 버전은 Stable Diffusion과 비교하면 동일한 컴퓨팅 성능에서 사진을 생성하는 데 3초가 걸립니다. StyleGAN -T는 0.1초밖에 걸리지 않습니다. 그리고 저해상도 이미지에서는 StyleGAN-T가 확산 모델보다 우수하지만 고해상도 이미지 생성에서는 여전히 확산 모델이 우세합니다. StyleGAN-T는 Stable Diffusion만큼 널리 사용되지 않기 때문에 이 글에서는 Stable Diffusion을 주로 소개합니다.
올해 초 AI 페인팅계는 Disco Diffusion, DALL-E2 및 Midjouney 간의 싸움을 경험했습니다. 가장 강력한 AI 페인팅 모델인 Stable Diffusion은 AI 커뮤니티에 카니발을 일으켰습니다. 기본적으로 새로운 모델과 새로운 오픈 소스 라이브러리가 매일 탄생하고 있습니다. 특히 Auto1111의 WebUI 버전이 출시된 이후 Stable Diffusion을 사용하는 것은 클라우드에 배포하든 로컬에 배포하든 매우 간단한 문제가 되었습니다. 커뮤니티의 지속적인 발전으로 Dreambooth 및 deforum과 같은 많은 우수한 프로젝트가 탄생했습니다. Diffusion WEBUI 버전용 플러그인이 추가되어 모델 미세 조정, 애니메이션 생성 등의 기능을 한 번에 완료할 수 있습니다.
다음은 현재 Stable Diffusion
Stable Diffusion 기능과 함께 사용할 수 있는 게임플레이 및 기능에 대한 소개입니다. 소개 (아래 사진은 SD1.5 모델 출력) | ||||||
Introduction |
Input |
Output |
||||
text2img |
텍스트 설명을 통해 사진을 생성하고, 텍스트 설명을 통해 아티스트 스타일과 아트 유형을 지정할 수 있습니다. 다음은 아티스트 Greg Rutkowski 스타일의 예입니다. |
꽃무늬 셔츠를 입고 오른손으로 턱을 괴고 사진을 찍고 있는 아름다운 소녀, 작성자: Greg Rutkowski |
|
|||
img2img | 사진과 텍스트 설명으로 사진 생성 | 꽃무늬 셔츠를 입고 오른손으로 턱을 괴고 사진을 찍기 위해 포즈를 취하는 아름다운 소녀, 작성자: Greg 러트카시
|
꽃무늬 셔츠를 입고 오른손으로 턱을 괴고 사진을 찍기 위해 부드럽게 웃고 있는 아름다운 소녀, 작성자: Greg Rutkowski
|
text2img 현재 NAI는 단부루 웹사이트의 공개 이미지를 데이터셋으로 기반으로 학습되고 있지만, 단부루 자체에 대한 저작권 문제로 인해 NovelAI는 상대적으로 논란이 많았고 상용 서비스에서도 모델이 유출되었으니 활용해 보세요. 조심해서. |
||
|
img2img
*오른쪽 예시의 텍스트 설명은 사진 내용과 AI 추론을 바탕으로 작성되었습니다. 작가의 스타일은 무작위입니다 꽃무늬 셔츠를 입고 오른손으로 턱을 괴고 사진을 찍고 있는 아름다운 소녀.
|
|||||
AI 페인팅 |
|
|
사용자가 제공한 여러 사진을 기반으로 주제에 대한 모델을 훈련합니다. 이 모델은 설명을 기반으로 주제가 포함된 모든 사진을 생성하는 데 사용할 수 있습니다. |
이 사진 세트는 Stable Diffusion 1.5 모델을 기반으로 한 동료 사진 20장을 사용하여 여러 가지 양식화된 프롬프트 출력과 함께 2000년 스텝아웃 모델을 훈련합니다. 프롬프트 예(그림 1): alicepoizon의 초상화, 매우 상세한 vfx 초상화, unreal 엔진, greg rutkowski, loish, rhads, caspar david Friedrich, makoto shinkai 및 lois van baarle, ilya kuvshinov, rossdraws, elegent, tom bagshaw , alphonse mucha, 전역 조명, 상세하고 복잡한 환경 *alicepoizon은 이 모델을 훈련할 때 이 캐릭터에 부여된 이름입니다 |
이 사진 세트는 Dewu Digital Collection ME.X에서 훈련한 미세 조정된 스타일 모델을 사용하여 생성되었습니다. |
|
레오나르도 디카프리오 |
||||||
| ||||||
스칼렛 요한슨 |
|
샘플 | ||||
는 더욱 편리한 AI 페인팅 경험을 제공하며 다양한 스타일의 맞춤형 대형 모델을 다양하게 사용할 수 있습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ |
AI 페인팅 2종 상용화 서비스. midjouney는 높은 제품화 수준을 갖춘 고유한 모델을 보유하고 있으며 DallE 2는 유료 API 서비스를 제공하며 더 높은 품질의 생성 효과를 제공합니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ 제공 기존 Dreambooth + Stable Diffusion 서비스의 비용은 1회당 약 18~25위안입니다. 15~20장의 사용자 사진을 업로드하고 약 20장의 맞춤형 예술 사진을 생성합니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ |
https://www.php.cn/link/81d7118d88d5570189ace943bd14f142 현재 주류 AI 오픈소스 커뮤니티는 github과 유사하게 파인튜닝(fine-tuned)을 한 사용자가 많습니다. 다운로드하여 자신의 서버나 로컬 컴퓨터에 배포할 수 있는 안정적인 확산 모델. 예를 들어 오른쪽의 pix2pix 모델은 GPT3가 결합된 Stable Diffusion 모델로 위에서 언급한 인페인팅 기능을 자연어 설명을 통해 완성할 수 있습니다. ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ |
7. 나만의 안정적인 확산 WEBUI 서비스 구축
이 호스트로 이미지를 생성하세요. 이미지의 경우 www.codewithgpu.com에서 패키지된 알고리즘 이미지를 선택할 수 있습니다. 여기서는 https://www.codewithgpu.com/i/AUTOMATIC1111/stable-diffusion-webui/Stable-Diffusion-for-NovelAI 이미지를 예로 들어 선택하고 생성합니다.
|
이 기사에서는 AI 페인팅에 대한 몇 가지 관련 정보를 소개합니다. 관심 있는 친구들은 직접 서비스를 배포하고 DreamBooth 또는 최신 Lora를 사용하여 대형 모델을 미세 조정하는 방법을 배울 수도 있습니다. 2023년에는 AIGC의 인기가 계속 높아지면서 AI로 인해 우리의 일과 삶이 크게 바뀔 것이라고 믿습니다. 얼마 전 ChatGPT의 출시가 우리에게 큰 충격을 주었습니다. 처음 인터넷에 들어왔을 때 정보를 검색하는 능력처럼 AI를 활용하여 업무를 지원하는 방법을 배우는 것도 미래에는 매우 중요한 능력이 될 것입니다.
9. 참고문헌https://sspai.com/post/76277
신경망 연구노트 6 - 제너레이티브 AI 페인팅 이면의 GAN 및 확산에 대한 예비 이해https://blog.csdn.net/qq_45848817/article/details/127808815
instruct-pix2pix
위 내용은 올해 큰 인기를 끌고 있는 AI 그림놀이 방법의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!