AI 세계를 휩쓸 차세대 돌파구는 어디일까요?
많은 사람들이 3D 모델 생성기라고 예측합니다.
연초 출시된 DALL-E 2가 천재적인 브러시로 모두를 놀라게 한 데 이어 OpenAI가 텍스트에서 직접 3D 모델을 생성할 수 있는 최신 이미지 생성 모델 'POINT-E'를 화요일에 출시했습니다.
문서 링크: https://arxiv.org/pdf/2212.08751.pdf
몇 시간 동안 작동하려면 여러 개의 GPU가 필요한 경쟁사(예: Google의 DreamFusion)와 비교하여 POINT - E는 단 하나의 GPU로 몇 분 만에 3D 이미지를 생성합니다.
POINT-E는 기본적으로 편집자의 실제 테스트를 거쳐 프롬프트 입력 후 몇 초 만에 3D 이미지를 출력할 수 있습니다. 또한 출력 이미지는 사용자 정의 편집, 저장 및 기타 기능도 지원합니다.
주소: https://huggingface.co/spaces/openai/point-e
네티즌들도 다양한 프롬프트 입력을 시도하기 시작했습니다.
하지만 출력 결과가 항상 만족스러운 것은 아닙니다.
일부 네티즌들은 POINT-E가 메타의 메타버스 비전을 실현할 수 있을지도 모른다고 하더군요?
POINT-E는 공간상의 점들의 데이터 집합인 포인트 클라우드(point cloud)를 통해 3D 이미지를 생성한다는 점에 유의해야 합니다.
간단히 말하면, 3차원 모델을 통해 데이터를 수집하여 공간에서 3차원 형태를 나타내는 포인트 클라우드 데이터를 얻는 것입니다.
포인트 클라우드는 계산적인 관점에서 합성하기 쉽지만, 현재 Point-E의 단점인 개체의 섬세한 모양이나 질감을 포착할 수 없습니다.
이러한 한계를 해결하기 위해 Point-E 팀은 Point-E의 포인트 클라우드를 메시로 변환하는 추가 인공 지능 시스템을 훈련했습니다.
Point-E 포인트 클라우드를 메시로 변환
Point-E는 독립적인 메시 생성 모델 외에도 두 가지 모델로 구성됩니다.
텍스트-이미지 변환 모델 (텍스트-이미지 모델) 및 이미지 변환 3D 모델(이미지-3D 모델).
텍스트-이미지 변환 모델은 OpenAI의 DALL-E 2 및 Stable Diffusion과 유사하며, 단어와 시각적 개념 간의 연관성을 이해하기 위해 레이블이 지정된 이미지에 대해 훈련되었습니다.
그런 다음 3D 객체와 짝을 이루는 이미지 세트가 3D 변환 모델에 입력되어 모델이 둘 사이를 효율적으로 변환하는 방법을 학습합니다.
프롬프트가 입력되면 텍스트-이미지 변환 모델은 합성 렌더링 객체를 생성하고, 이는 이미지-이미지 변환 3D 모델에 공급된 다음 포인트 클라우드를 생성합니다.
OpenAI 연구원들은 Point-E가 수백만 개의 3D 개체 및 관련 메타데이터 데이터 세트에 대해 교육을 받았다고 말합니다.
완벽하지는 않습니다. Point-E의 이미지-3D 모델은 때때로 텍스트-이미지 모델의 이미지를 이해하지 못해 텍스트 힌트와 일치하지 않는 모양이 발생합니다. 그럼에도 불구하고 이전의 최첨단 기술보다 훨씬 빠릅니다.
그들은 논문에 다음과 같이 적었습니다.
우리의 방법은 평가에서 최첨단 기술보다 성능이 떨어지지만 짧은 시간 안에 샘플을 생성합니다. 이를 통해 특정 응용 프로그램에 대한 실용성을 높이고 더 높은 품질의 3D 개체를 발견할 수 있습니다.
Point-E 아키텍처 및 작동 메커니즘
Point-E 모델은 먼저 텍스트-이미지 확산 모델을 사용하여 단일 합성 뷰를 생성한 다음 두 번째 확산 모델을 사용하여 3D 포인트 클라우드를 생성합니다. 이미지는 조건부입니다.
이 방법은 샘플링 품질 측면에서 아직 최첨단은 아니지만 1~2배 더 빠르므로 일부 사용 사례에서는 실용적인 절충안을 제공합니다.
다음 그림은 모델의 상위 수준 파이프라인 다이어그램입니다.
단일 세대 모델을 훈련하고 텍스트에 따라 포인트 클라우드를 직접 생성하는 대신 생성 프로세스를 세 단계로 나눕니다.
먼저 텍스트 제목을 조건으로 포괄적인 보기를 생성합니다.
다음으로 합성 뷰를 기반으로 대략적인 포인트 클라우드(1,024포인트)를 생성합니다.
마지막으로 저해상도 포인트 클라우드와 합성 뷰를 조건으로 한 미세한 포인트 클라우드(4,096포인트)가 생성되었습니다.
수백만 개의 3D 모델로 모델을 훈련한 후 데이터 세트의 데이터 형식과 품질이 크게 다르다는 사실을 발견했으며, 이로 인해 더 높은 데이터 품질을 보장하기 위해 다양한 후처리 단계를 개발하게 되었습니다.
모든 데이터를 공통 형식으로 변환하기 위해 Blender를 사용하여 각 3D 모델을 20개의 임의 카메라 각도에서 RGBAD 이미지로 렌더링했습니다(Blender는 여러 3D 형식을 지원하며 최적화된 렌더링 엔진과 함께 제공됨).
각 모델에 대해 Blender 스크립트는 모델을 경계 큐브로 정규화하고 표준 조명 설정을 구성한 다음 마지막으로 Blender에 내장된 실시간 렌더링 엔진을 사용하여 RGBAD 이미지를 내보냅니다.
그런 다음 Render를 사용하여 각 개체를 색상이 지정된 점 구름으로 변환합니다. 먼저, 각 RGBAD 이미지의 각 픽셀에 대한 포인트를 계산하여 각 개체에 대해 밀집된 포인트 클라우드를 구성합니다. 이러한 포인트 클라우드에는 일반적으로 고르지 않게 분포된 수십만 개의 포인트가 포함되어 있으므로 가장 먼 포인트 샘플링을 사용하여 균일한 4K 포인트 클라우드를 생성합니다.
렌더링에서 직접 포인트 클라우드를 구축함으로써 3D 메쉬에서 직접 샘플링하거나, 모델에 포함된 포인트를 샘플링하거나, 특이한 파일 형식으로 저장된 3D 모델을 처리할 때 발생할 수 있는 다양한 문제를 피할 수 있습니다.
마지막으로 다양한 경험적 방법을 사용하여 데이터 세트에서 품질이 낮은 모델의 빈도를 줄입니다.
먼저 각 포인트 클라우드의 SVD를 계산하여 평면 객체를 제거하고 최소 특이값이 특정 임계값보다 높은 객체만 유지합니다.
다음으로 CLIP 기능을 기준으로 데이터세트를 클러스터링합니다(각 개체에 대해 모든 렌더링에서 기능의 평균을 냅니다).
일부 클러스터에는 품질이 낮은 모델 범주가 많이 포함되어 있는 반면 다른 클러스터에는 더 다양하거나 해석 가능한 것으로 나타났습니다.
우리는 이러한 클러스터를 서로 다른 품질의 여러 버킷으로 분할하고 결과 버킷의 가중치 혼합을 최종 데이터 세트로 사용합니다.
OpenAI 연구원들은 Point-E의 포인트 클라우드가 3D 프린팅과 같은 실제 객체를 만드는 데에도 사용될 수 있다고 지적했습니다.
추가 메시 변환 모델을 사용하면 시스템이 게임 및 애니메이션 개발 워크플로우에 들어갈 수도 있습니다.
현재 모든 시선은 2D 아트 생성기에 쏠려 있지만 모델 합성 AI는 차세대 산업 파괴자가 될 수 있습니다.
3D 모델은 영화와 TV, 인테리어 디자인, 건축 및 다양한 과학 분야에서 널리 사용됩니다.
현재 3D 모델을 제작하는 데는 보통 몇 시간이 걸리며, Point-E의 등장은 이러한 단점을 보완해줍니다.
연구원들은 Point-E에는 교육 데이터에서 상속된 편견, 위험한 객체를 생성하는 데 사용될 수 있는 모델에 대한 보호 조치 부족 등 현 단계에서 여전히 많은 결함이 있다고 말합니다.
Point-E는 단지 시작점일 뿐이며 텍스트-3D 합성 분야의 "추가 작업"에 영감을 주기를 바랍니다.
위 내용은 GPU는 몇 초 만에 3D 모델을 생성할 수 있습니다! OpenAI의 새로운 작업: Point-E는 텍스트를 사용하여 3D 포인트 클라우드 모델을 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!