ChatGPT와 Midjourney의 인기로 인해 기술 확산 모델이 "생성 AI" 혁명의 기반이 되었습니다.
심지어 업계 연구자들의 높은 관심을 받고 있으며, 그 인기는 한때 세계를 공격했던 GAN을 훨씬 능가합니다.
확산 모델이 가장 강력할 때, 일부 네티즌들은 갑자기 다음과 같은 하이 프로필을 발표했습니다.
확산 모델의 시대는 끝났습니다! 일관성 모델이 왕이 되었습니다!
대체 무슨 일이 일어나고 있는 걸까요? ? ?
OpenAI가 지난 3월 블록버스터이자 가치 있는 논문 "Consistency Models"를 발표한 것으로 밝혀졌고, 오늘 GitHub에 모델 가중치를 공개했습니다.
논문 주소: https://arxiv.org/abs/2303.01469
프로젝트 주소: https://github.com/openai/consistency_models
"일관성 모델"은 훈련 속도 측면에서 확산 모델을 뒤집습니다. "한 단계로 생성"할 수 있으며 확산 모델보다 훨씬 빠르게 간단한 작업을 완료할 수 있으며 계산이 10~2000배 더 적게 필요합니다.
그럼 이게 얼마나 빠른 걸까요?일부 네티즌들은 256x256 해상도의 이미지 64개를 약 3.5초 만에 생성하는 것과 같다고 했는데, 이는
초당 18개의 이미지에 해당합니다!
또한 최신 모델의 주요 장점 중 하나는 "적대적 훈련" 없이도 고품질 샘플을 얻을 수 있다는 것입니다.이 연구
는 Turing Big Three의 Hinton 학생 중 한 명이자 AlexNet의 주요 프로모터인 Ilya Sutskever와 DALL-E를 개발한 중국 학자 Mark Chen 및 Prafulla Dhariwal이 작성했습니다. 2, 연구 내용이 얼마나 하드코어한지 상상할 수 있습니다.
일부 네티즌들은 '일관성 모델'이 향후 연구 방향이라고 말하기도 했습니다. 앞으로는 확산 모델을 비웃을 것입니다.그럼 확산모형도 사라진다는 건가요?
더 빠르고, 더 강하고, 대결이 필요 없습니다
현재 이 논문은 아직 완성되지 않은 버전이고 연구가 계속 진행 중입니다.
2021년, OpenAI CEO 샘 알트만(Sam Altman)은 무어의 법칙이 모든 분야에 어떻게 적용되어야 하는지에 대해 논의하는 블로그를 작성했습니다.
알트만은 얼마 전 트위터에서 인공지능의 '도약'에 대해 공개적으로 이야기했습니다. 그는 "우주의 지능 수가 18개월마다 두 배로 증가한다는 새로운 버전의 무어의 법칙이 곧 나타날 수도 있다"고 말했습니다.
그러나 OpenAI의 수석 과학자 Ilya Sutskever가 이끄는 팀이 실시한 최신 연구는 Altman의 주장을 강력하게 뒷받침합니다.
2022년이 AIGC 원년이라고 하는데, 많은 모델이 등장하는 이유가 확산 모델에 기반을 두고 있기 때문입니다.
확산 모델의 인기는 점차 GAN을 대체했으며 현재 업계에서 가장 효과적인 이미지 생성 모델이 되었습니다. 예를 들어 DALL.E 2와 Google Imagen은 모두 확산 모델입니다.
그러나 새로 제안된 "일관성 모델"은 더 짧은 시간에 확산 모델과 동일한 품질의 콘텐츠를 출력할 수 있음이 입증되었습니다.
이 "일관성 모델"은 GAN과 유사한 단일 단계 생성 프로세스를 사용하기 때문입니다.
반대로 확산 모델은 반복적인 샘플링 프로세스를 사용하여 이미지의 노이즈를 점차적으로 제거합니다.
이 방법은 인상적이기는 하지만 좋은 결과를 얻기 위해 수백에서 수천 단계를 수행해야 하는데, 이는 운영 비용이 많이 들 뿐만 아니라 속도도 느립니다.
확산 모델의 연속적인 반복 생성 프로세스는 "일관성 모델"보다 10~2000배 더 많은 계산을 소비하고 학습 프로세스 중에 추론 속도도 느려집니다.
"일관성 모델"의 힘은 필요할 때 샘플 품질과 컴퓨팅 리소스 간의 균형을 맞추는 능력에 있습니다.
또한 이 모델은 이미지 패치, 색상화 또는 스트로크 안내 이미지 편집과 같은 제로샷 데이터 편집 작업도 수행할 수 있습니다.
LSUN 침실 256^256
에서 증류로 훈련된 일관성 모델을 사용한 제로샷 이미지 편집 "일관성 모델"은 수학 방정식을 사용할 때 데이터를 노이즈 및 유사한 데이터 포인트에 대해 결과 출력이 일관되도록 보장하여 이들 사이의 원활한 전환을 가능하게 합니다.이러한 유형의 방정식을 "확률 흐름 상미분 방정식"(확률 흐름 ODE)이라고 합니다.
이 연구에서는 이러한 유형의 모델을 입력 데이터와 출력 데이터 간의 자체 일관성을 유지하기 때문에 "일관성"이라고 명명했습니다.
이러한 모델은 증류 모드 또는 격리 모드에서 훈련할 수 있습니다.
증류 모드에서는 모델이 사전 훈련된 확산 모델에서 데이터를 추출하여 단일 단계로 실행할 수 있습니다.
분리 모드에서는 모델이 확산 모델과 완전히 독립되어 완전히 독립된 모델이 됩니다.
두 훈련 방법 모두 "적대 훈련"을 삭제한다는 점은 주목할 가치가 있습니다.
적대적 훈련이 실제로 더 강력한 신경망을 생성한다는 점을 인정해야 하지만 그 과정은 더 우회적입니다. 즉, 잘못 분류된 적대적 샘플 세트를 도입한 다음 올바른 레이블을 사용하여 대상 신경망을 재교육합니다.
따라서 적대적 훈련은 딥러닝 모델 예측의 정확성을 약간 감소시킬 뿐만 아니라 로봇 응용에 예상치 못한 부작용을 가져올 수도 있습니다.
실험 결과에 따르면 "일관성 모델"을 훈련하는 데 사용된 증류 기술이 확산 모델에 사용된 것보다 더 나은 것으로 나타났습니다.
"일관된 모델"은 CIFAR10 이미지 세트와 ImageNet 64x64 데이터 세트에서 각각 3.55와 6.20이라는 최신 FID 점수를 달성했습니다.
이것은 간단히 달성됩니다. 확산 모델의 품질 + GAN의 속도, 이중 완벽성입니다.
2월 Sutskever는 다음과 같은 트윗을 게시했습니다.
많은 사람들은 위대한 AI 발전에는 새로운 "아이디어"가 포함되어야 한다고 믿습니다. 하지만 그렇지 않습니다. AI의 가장 큰 발전 중 다수는 잘만 수행하면 믿을 수 없을 만큼 친숙하고 겸손한 아이디어의 형태로 이루어졌습니다.
최신 연구가 이를 증명합니다. 오래된 개념을 기반으로 한 미세 조정이 모든 것을 바꿀 수 있다는 것입니다.
OpenAI의 공동 창립자이자 수석 과학자인 Ilya Sutskever자세히 설명할 필요 없이 "최고 리더"의 단체 사진만 보시면 됩니다.
(사진 맨 오른쪽)
Song 飏연구 과학자 오픈AI.
이전에 그는 칭화대학교에서 수학과 물리학 학사 학위를, 스탠포드 대학교에서 컴퓨터 공학 석사 및 박사 학위를 받았습니다. 또한 그는 Google Brain, Uber ATG 및 Microsoft Research에서 인턴으로 일했습니다.
머신러닝 연구자로서 그는 복잡한 고차원 데이터를 모델링, 분석 및 생성하는 확장 가능한 방법을 개발하는 데 중점을 두고 있습니다. 그의 관심 분야는 생성 모델링, 표현 학습, 확률적 추론, 인공 지능 보안, 과학용 AI 등 다양한 분야에 걸쳐 있습니다.
Mark Chen은 OpenAI의 다중 모드 및 최첨단 연구 부서의 책임자이자 미국 컴퓨터 올림피아드 팀의 코치입니다.
이전에 그는 MIT에서 수학과 컴퓨터 과학 학사 학위를 취득했으며 Jane Street Capital을 비롯한 여러 자기매매 회사에서 퀀트 트레이더로 일했습니다.
OpenAI에 합류한 후 팀을 이끌고 DALL-E 2를 개발하고 GPT-4에 비전을 도입했습니다. 또한 Codex 개발을 주도하고 GPT-3 프로젝트에 참여하여 Image GPT를 만들었습니다.
Prafulla Dhariwal은 OpenAI의 연구 과학자로서 생성 모델 및 비지도 학습 분야에 종사하고 있습니다. 그 전에는 MIT에서 학부생으로 컴퓨팅, 수학, 물리학을 공부했습니다.
흥미롭게도 이미지 생성 분야에서는 확산 모델이 GAN을 이길 수 있는데, 이는 그가 2021년 NeurIPS 논문에서 제안한 것입니다.
OpenAI가 오늘 일관성 모델의 소스 코드를 공개했습니다.
드디어 Open AI로 돌아왔습니다.
매일 수많은 놀라운 혁신과 발표에 직면합니다. 네티즌들은 "좀 쉴까, 아니면 속도를 낼까?"라고 물었다.
이는 확산 모델에 비해 연구원의 모델 학습 비용을 크게 절약할 수 있습니다.
일부 네티즌들은 실시간 편집, NeRF 렌더링, 실시간 게임 렌더링 등 "일관성 모델"의 미래 사용 사례도 제시했습니다.
현재 데모는 없지만 이미지 생성 속도를 크게 높일 수 있으며 항상 승리할 수 있다는 점은 확인할 가치가 있습니다.
전화 접속에서 광대역으로 직접 업그레이드했습니다.
뇌-컴퓨터 인터페이스와 거의 실시간으로 생성되는 초현실적인 이미지.
위 내용은 OpenAI는 새로운 일관성 모델을 출시하고 GAN 속도는 18FPS에 도달하며 실시간으로 고품질 이미지를 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!