


GPU는 몇 초 만에 3D 모델을 생성할 수 있습니다! OpenAI의 새로운 작업: Point-E는 텍스트를 사용하여 3D 포인트 클라우드 모델을 생성할 수 있습니다.
AI 세계를 휩쓸 차세대 돌파구는 어디일까요?
많은 사람들이 3D 모델 생성기라고 예측합니다.
연초 출시된 DALL-E 2가 천재적인 브러시로 모두를 놀라게 한 데 이어 OpenAI가 텍스트에서 직접 3D 모델을 생성할 수 있는 최신 이미지 생성 모델 'POINT-E'를 화요일에 출시했습니다.
문서 링크: https://arxiv.org/pdf/2212.08751.pdf
몇 시간 동안 작동하려면 여러 개의 GPU가 필요한 경쟁사(예: Google의 DreamFusion)와 비교하여 POINT - E는 단 하나의 GPU로 몇 분 만에 3D 이미지를 생성합니다.
POINT-E는 기본적으로 편집자의 실제 테스트를 거쳐 프롬프트 입력 후 몇 초 만에 3D 이미지를 출력할 수 있습니다. 또한 출력 이미지는 사용자 정의 편집, 저장 및 기타 기능도 지원합니다.
주소: https://huggingface.co/spaces/openai/point-e
네티즌들도 다양한 프롬프트 입력을 시도하기 시작했습니다.
하지만 출력 결과가 항상 만족스러운 것은 아닙니다.
일부 네티즌들은 POINT-E가 메타의 메타버스 비전을 실현할 수 있을지도 모른다고 하더군요?
POINT-E는 공간상의 점들의 데이터 집합인 포인트 클라우드(point cloud)를 통해 3D 이미지를 생성한다는 점에 유의해야 합니다.
간단히 말하면, 3차원 모델을 통해 데이터를 수집하여 공간에서 3차원 형태를 나타내는 포인트 클라우드 데이터를 얻는 것입니다.
포인트 클라우드는 계산적인 관점에서 합성하기 쉽지만, 현재 Point-E의 단점인 개체의 섬세한 모양이나 질감을 포착할 수 없습니다.
이러한 한계를 해결하기 위해 Point-E 팀은 Point-E의 포인트 클라우드를 메시로 변환하는 추가 인공 지능 시스템을 훈련했습니다.
Point-E 포인트 클라우드를 메시로 변환
Point-E는 독립적인 메시 생성 모델 외에도 두 가지 모델로 구성됩니다.
텍스트-이미지 변환 모델 (텍스트-이미지 모델) 및 이미지 변환 3D 모델(이미지-3D 모델).
텍스트-이미지 변환 모델은 OpenAI의 DALL-E 2 및 Stable Diffusion과 유사하며, 단어와 시각적 개념 간의 연관성을 이해하기 위해 레이블이 지정된 이미지에 대해 훈련되었습니다.
그런 다음 3D 객체와 짝을 이루는 이미지 세트가 3D 변환 모델에 입력되어 모델이 둘 사이를 효율적으로 변환하는 방법을 학습합니다.
프롬프트가 입력되면 텍스트-이미지 변환 모델은 합성 렌더링 객체를 생성하고, 이는 이미지-이미지 변환 3D 모델에 공급된 다음 포인트 클라우드를 생성합니다.
OpenAI 연구원들은 Point-E가 수백만 개의 3D 개체 및 관련 메타데이터 데이터 세트에 대해 교육을 받았다고 말합니다.
완벽하지는 않습니다. Point-E의 이미지-3D 모델은 때때로 텍스트-이미지 모델의 이미지를 이해하지 못해 텍스트 힌트와 일치하지 않는 모양이 발생합니다. 그럼에도 불구하고 이전의 최첨단 기술보다 훨씬 빠릅니다.
그들은 논문에 다음과 같이 적었습니다.
우리의 방법은 평가에서 최첨단 기술보다 성능이 떨어지지만 짧은 시간 안에 샘플을 생성합니다. 이를 통해 특정 응용 프로그램에 대한 실용성을 높이고 더 높은 품질의 3D 개체를 발견할 수 있습니다.
Point-E 아키텍처 및 작동 메커니즘
Point-E 모델은 먼저 텍스트-이미지 확산 모델을 사용하여 단일 합성 뷰를 생성한 다음 두 번째 확산 모델을 사용하여 3D 포인트 클라우드를 생성합니다. 이미지는 조건부입니다.
이 방법은 샘플링 품질 측면에서 아직 최첨단은 아니지만 1~2배 더 빠르므로 일부 사용 사례에서는 실용적인 절충안을 제공합니다.
다음 그림은 모델의 상위 수준 파이프라인 다이어그램입니다.
단일 세대 모델을 훈련하고 텍스트에 따라 포인트 클라우드를 직접 생성하는 대신 생성 프로세스를 세 단계로 나눕니다.
먼저 텍스트 제목을 조건으로 포괄적인 보기를 생성합니다.
다음으로 합성 뷰를 기반으로 대략적인 포인트 클라우드(1,024포인트)를 생성합니다.
마지막으로 저해상도 포인트 클라우드와 합성 뷰를 조건으로 한 미세한 포인트 클라우드(4,096포인트)가 생성되었습니다.
수백만 개의 3D 모델로 모델을 훈련한 후 데이터 세트의 데이터 형식과 품질이 크게 다르다는 사실을 발견했으며, 이로 인해 더 높은 데이터 품질을 보장하기 위해 다양한 후처리 단계를 개발하게 되었습니다.
모든 데이터를 공통 형식으로 변환하기 위해 Blender를 사용하여 각 3D 모델을 20개의 임의 카메라 각도에서 RGBAD 이미지로 렌더링했습니다(Blender는 여러 3D 형식을 지원하며 최적화된 렌더링 엔진과 함께 제공됨).
각 모델에 대해 Blender 스크립트는 모델을 경계 큐브로 정규화하고 표준 조명 설정을 구성한 다음 마지막으로 Blender에 내장된 실시간 렌더링 엔진을 사용하여 RGBAD 이미지를 내보냅니다.
그런 다음 Render를 사용하여 각 개체를 색상이 지정된 점 구름으로 변환합니다. 먼저, 각 RGBAD 이미지의 각 픽셀에 대한 포인트를 계산하여 각 개체에 대해 밀집된 포인트 클라우드를 구성합니다. 이러한 포인트 클라우드에는 일반적으로 고르지 않게 분포된 수십만 개의 포인트가 포함되어 있으므로 가장 먼 포인트 샘플링을 사용하여 균일한 4K 포인트 클라우드를 생성합니다.
렌더링에서 직접 포인트 클라우드를 구축함으로써 3D 메쉬에서 직접 샘플링하거나, 모델에 포함된 포인트를 샘플링하거나, 특이한 파일 형식으로 저장된 3D 모델을 처리할 때 발생할 수 있는 다양한 문제를 피할 수 있습니다.
마지막으로 다양한 경험적 방법을 사용하여 데이터 세트에서 품질이 낮은 모델의 빈도를 줄입니다.
먼저 각 포인트 클라우드의 SVD를 계산하여 평면 객체를 제거하고 최소 특이값이 특정 임계값보다 높은 객체만 유지합니다.
다음으로 CLIP 기능을 기준으로 데이터세트를 클러스터링합니다(각 개체에 대해 모든 렌더링에서 기능의 평균을 냅니다).
일부 클러스터에는 품질이 낮은 모델 범주가 많이 포함되어 있는 반면 다른 클러스터에는 더 다양하거나 해석 가능한 것으로 나타났습니다.
우리는 이러한 클러스터를 서로 다른 품질의 여러 버킷으로 분할하고 결과 버킷의 가중치 혼합을 최종 데이터 세트로 사용합니다.
애플리케이션 전망
OpenAI 연구원들은 Point-E의 포인트 클라우드가 3D 프린팅과 같은 실제 객체를 만드는 데에도 사용될 수 있다고 지적했습니다.
추가 메시 변환 모델을 사용하면 시스템이 게임 및 애니메이션 개발 워크플로우에 들어갈 수도 있습니다.
현재 모든 시선은 2D 아트 생성기에 쏠려 있지만 모델 합성 AI는 차세대 산업 파괴자가 될 수 있습니다.
3D 모델은 영화와 TV, 인테리어 디자인, 건축 및 다양한 과학 분야에서 널리 사용됩니다.
현재 3D 모델을 제작하는 데는 보통 몇 시간이 걸리며, Point-E의 등장은 이러한 단점을 보완해줍니다.
연구원들은 Point-E에는 교육 데이터에서 상속된 편견, 위험한 객체를 생성하는 데 사용될 수 있는 모델에 대한 보호 조치 부족 등 현 단계에서 여전히 많은 결함이 있다고 말합니다.
Point-E는 단지 시작점일 뿐이며 텍스트-3D 합성 분야의 "추가 작업"에 영감을 주기를 바랍니다.
위 내용은 GPU는 몇 초 만에 3D 모델을 생성할 수 있습니다! OpenAI의 새로운 작업: Point-E는 텍스트를 사용하여 3D 포인트 클라우드 모델을 생성할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

Boston Dynamics Atlas가 공식적으로 전기 로봇 시대에 돌입했습니다! 어제 유압식 Atlas가 역사의 무대에서 "눈물을 흘리며" 물러났습니다. 오늘 Boston Dynamics는 전기식 Atlas가 작동 중이라고 발표했습니다. 상업용 휴머노이드 로봇 분야에서는 보스턴 다이내믹스가 테슬라와 경쟁하겠다는 각오를 다진 것으로 보인다. 새 영상은 공개된 지 10시간 만에 이미 100만 명이 넘는 조회수를 기록했다. 옛 사람들은 떠나고 새로운 역할이 등장하는 것은 역사적 필연이다. 올해가 휴머노이드 로봇의 폭발적인 해라는 것은 의심의 여지가 없습니다. 네티즌들은 “로봇의 발전으로 올해 개막식도 인간처럼 생겼고, 자유도도 인간보다 훨씬 크다. 그런데 정말 공포영화가 아닌가?”라는 반응을 보였다. 영상 시작 부분에서 아틀라스는 바닥에 등을 대고 가만히 누워 있는 모습입니다. 다음은 입이 떡 벌어지는 내용이다

AI는 실제로 수학을 변화시키고 있습니다. 최근 이 문제에 주목하고 있는 타오저쉬안(Tao Zhexuan)은 '미국수학회지(Bulletin of the American Mathematical Society)' 최신호를 게재했다. '기계가 수학을 바꿀 것인가?'라는 주제를 중심으로 많은 수학자들이 그들의 의견을 표현했습니다. 저자는 필즈상 수상자 Akshay Venkatesh, 중국 수학자 Zheng Lejun, 뉴욕대학교 컴퓨터 과학자 Ernest Davis 등 업계의 유명 학자들을 포함해 강력한 라인업을 보유하고 있습니다. AI의 세계는 극적으로 변했습니다. 이 기사 중 상당수는 1년 전에 제출되었습니다.

Google이 추진하는 JAX의 성능은 최근 벤치마크 테스트에서 Pytorch와 TensorFlow를 능가하여 7개 지표에서 1위를 차지했습니다. 그리고 JAX 성능이 가장 좋은 TPU에서는 테스트가 이루어지지 않았습니다. 개발자들 사이에서는 여전히 Tensorflow보다 Pytorch가 더 인기가 있습니다. 그러나 앞으로는 더 큰 모델이 JAX 플랫폼을 기반으로 훈련되고 실행될 것입니다. 모델 최근 Keras 팀은 기본 PyTorch 구현을 사용하여 세 가지 백엔드(TensorFlow, JAX, PyTorch)와 TensorFlow를 사용하는 Keras2를 벤치마킹했습니다. 첫째, 그들은 주류 세트를 선택합니다.

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

표적 탐지는 자율주행 시스템에서 상대적으로 성숙한 문제이며, 그 중 보행자 탐지는 가장 먼저 배포되는 알고리즘 중 하나입니다. 대부분의 논문에서 매우 포괄적인 연구가 수행되었습니다. 그러나 서라운드 뷰를 위한 어안 카메라를 사용한 거리 인식은 상대적으로 덜 연구되었습니다. 큰 방사형 왜곡으로 인해 표준 경계 상자 표현은 어안 카메라에서 구현하기 어렵습니다. 위의 설명을 완화하기 위해 확장된 경계 상자, 타원 및 일반 다각형 디자인을 극/각 표현으로 탐색하고 인스턴스 분할 mIOU 메트릭을 정의하여 이러한 표현을 분석합니다. 제안된 다각형 형태의 모델 fisheyeDetNet은 다른 모델보다 성능이 뛰어나며 동시에 자율 주행을 위한 Valeo fisheye 카메라 데이터 세트에서 49.5% mAP를 달성합니다.

FP8 이하의 부동 소수점 수량화 정밀도는 더 이상 H100의 "특허"가 아닙니다! Lao Huang은 모든 사람이 INT8/INT4를 사용하기를 원했고 Microsoft DeepSpeed 팀은 NVIDIA의 공식 지원 없이 A100에서 FP6을 실행하기 시작했습니다. 테스트 결과에 따르면 A100에 대한 새로운 방법 TC-FPx의 FP6 양자화는 INT4에 가깝거나 때로는 더 빠르며 후자보다 정확도가 더 높은 것으로 나타났습니다. 또한 오픈 소스로 제공되고 DeepSpeed와 같은 딥 러닝 추론 프레임워크에 통합된 엔드투엔드 대규모 모델 지원도 있습니다. 이 결과는 대형 모델 가속화에도 즉각적인 영향을 미칩니다. 이 프레임워크에서는 단일 카드를 사용하여 Llama를 실행하면 처리량이 듀얼 카드보다 2.65배 더 높습니다. 하나
