하나의 GPU, 초당 20개의 모델! NVIDIA의 새로운 장난감은 GET3D를 사용하여 우주를 창조합니다.
아브라카다브라!
2D 생성 3D 모델 측면에서 NVIDIA는 자칭 "세계적 수준"의 연구인 GET3D를 공개했습니다.
모델은 2D 이미지 교육을 마친 후 충실도가 높은 질감과 복잡한 기하학적 세부 정보가 포함된 3D 모양을 생성합니다.
얼마나 강력합니까?
모양, 질감, 재료 사용자 정의
GET3D는 명시적인 질감의 3D 메시를 생성하는 기능 때문에 이름이 붙여졌습니다.
문서 주소: https://arxiv.org/pdf/2209.11163.pdf
즉, 그것이 만들어내는 형태는 삼각형 메쉬의 형태입니다. 종이 모델과 동일하고 텍스처 소재로 덮여 있습니다.
핵심은 이 모델이 다양한 고품질 모델을 생성할 수 있다는 점입니다.
예를 들어, 자동차 바퀴, 조명 및 창문, 오토바이 백미러, 자동차 타이어의 질감... .
길 양쪽의 독특한 건물, 윙윙거리는 다양한 차량, 지나가는 다양한 사람들...
수동 모델링을 통해 동일한 3D 가상 세계를 만들고 싶다면 시간이 많이 걸립니다.
이전의 3D 생성 AI 모델은 수동 모델링보다 빠르지만, 더욱 풍부하고 세부적인 모델을 생성하는 능력은 여전히 부족합니다.
최신 역 렌더링 방법도 다양한 각도에서 촬영한 2D 이미지를 기반으로 3D 개체만 생성할 수 있으며 개발자는 한 번에 하나의 3D 개체만 만들 수 있습니다.
GET3D는 다릅니다.
개발자는 생성된 모델을 게임 엔진, 3D 모델러 및 영화 렌더러로 쉽게 가져와서 편집할 수 있습니다.
제작자가 GET3D 생성 모델을 그래픽 애플리케이션으로 내보낼 때 장면 내에서 모델이 움직이거나 회전할 때 사실적인 조명 효과를 적용할 수 있습니다.
그림에 표시된 대로:
또한 GET3D는 텍스트 안내 모양을 생성할 수도 있습니다.
NVIDIA의 또 다른 AI 도구인 StyleGAN-NADA를 사용하면 개발자는 텍스트 프롬프트를 사용하여 이미지에 특정 스타일을 추가할 수 있습니다.
예를 들어, 렌더링된 자동차를 불타버린 자동차나 택시로 바꿀 수 있습니다.
일반 집을 벽돌집, 불타는 집, 유령의 집으로 바꿔보세요.
아니면 호랑이 무늬와 판다 무늬의 특징을 어떤 동물에게나 적용해 보세요...
단순히 심슨 가족의 "동물의 숲"입니다...
NVIDIA는 단일 NVIDIA GPU로 훈련할 때 GET3D가 초당 약 20개의 객체를 생성할 수 있다고 소개했습니다.
여기서 학습하는 훈련 데이터 세트가 더 크고 다양할수록 출력도 더 다양하고 상세해집니다.
NVIDIA는 연구팀이 A100 GPU를 사용하여 단 2일 만에 약 100만 개의 이미지에 대한 모델을 훈련했다고 밝혔습니다.
연구 방법 및 프로세스
GET3D 프레임워크의 주요 기능은 질감이 있는 3차원 모양을 합성하는 것입니다.
생성 프로세스는 두 부분으로 나뉩니다. 첫 번째 부분은 모든 토폴로지의 표면 메쉬를 출력할 수 있는 기하학 분기입니다. 다른 부분은 표면 지점을 쿼리할 수 있는 텍스처 필드를 생성하는 텍스처 분기입니다.
훈련 과정에서 미분 가능한 래스터라이저를 사용하여 결과 텍스처 메시를 2차원 고해상도 이미지로 효율적으로 렌더링합니다. 전체 프로세스는 분리 가능하므로 2D 판별기의 기울기를 전파하여 이미지로부터 적대적인 훈련을 수행할 수 있습니다.
이후 그라데이션은 2D 판별기에서 두 개의 생성기 분기로 전파됩니다.
연구원들은 모델을 평가하기 위해 광범위한 실험을 수행했습니다. 그들은 먼저 GET3D로 생성된 3D 텍스처 메시의 품질을 ShapeNet 및 Turbosquid 데이터 세트를 사용하여 생성된 기존 메시와 비교했습니다.
다음으로 연구진은 비교 결과를 바탕으로 후속 연구에서 모델을 최적화하고 더 많은 실험을 수행했습니다.
GET3D 모델은 기하학과 질감에서 상분리가 가능합니다.
그림과 같이 동일한 지오메트리 히든코드로 생성된 모양이 각 행에 표시되고 텍스처 코드가 변경됩니다.
기하학 코드를 변경하면서 동일한 텍스처 숨김 코드로 생성된 모양을 각 열에 표시합니다.
또한, 연구진은 각 행의 동일한 텍스처 은닉 코드로 생성된 도형에 왼쪽에서 오른쪽으로 기하학 은닉 코드를 삽입했습니다.
위에서 아래로 텍스처 코드를 삽입하면서 동일한 기하학 히든 코드로 생성된 모양. 결과는 각 보간이 생성된 모델에 의미가 있음을 보여줍니다.
각 모델의 하위 그래프 내에서 GET3D는 모든 범주의 다양한 모양 간에 부드러운 전환을 생성할 수 있습니다.
각 줄에 작은 노이즈를 추가하여 숨겨진 코드를 로컬에서 방해합니다. 이러한 방식으로 GET3D는 비슷해 보이지만 약간 다른 모양을 로컬로 생성할 수 있습니다.
연구원들은 GET3D의 향후 버전이 카메라 포즈 추정 기술을 사용하여 개발자가 합성 데이터 세트가 아닌 실제 데이터로 모델을 교육할 수 있다고 지적합니다.
향후에는 개선을 통해 개발자는 한 번에 하나의 개체 범주에 대해 교육할 필요 없이 다양한 3D 모양에 대해 한 번에 GET3D를 교육할 수 있습니다.
Nvidia의 인공 지능 연구 부사장인 Sanja Fidler는 다음과 같이 말했습니다.
GET3D는 AI 기반 3D 콘텐츠 제작의 민주화에 한 걸음 더 가까워졌습니다. 즉석에서 질감이 있는 3D 모양을 생성하는 기능은 개발자에게 획기적인 변화를 가져올 수 있으며, 가상 세계를 다양한 흥미로운 개체로 빠르게 채울 수 있도록 도와줍니다.
저자 소개
논문의 제1저자인 Jun Gao는 토론토 대학 머신러닝 그룹의 박사과정 학생이고 그의 지도교수는 Sanja Fidler입니다.
훌륭한 학업 자격 외에도 그는 NVIDIA 토론토 인공 지능 연구소의 연구 과학자이기도 합니다.
그의 연구는 구조화된 기하학적 표현 학습을 목표로 주로 딥 러닝(DL)에 중점을 두고 있습니다. 동시에 그의 연구는 2D 및 3D 이미지와 비디오에 대한 인간의 인식으로부터 통찰력을 이끌어냅니다.
이렇게 뛰어난 학생이 북경대학교 출신이에요. 그는 2018년에 학사 학위를 취득했습니다. 북경대학교에 재학하는 동안 왕리웨이(Wang Liwei) 교수와 함께 일했습니다.
졸업 후 그는 스탠포드 대학교, MSRA 및 NVIDIA에서도 인턴을 했습니다.
Jun Gao의 강사들은 업계의 리더이기도 합니다.
Fidler는 토론토 대학의 부교수이자 Vector Institute의 교수이며 공동 창립 멤버이기도 합니다.
그녀는 가르치는 것 외에도 NVIDIA의 인공 지능 연구 부사장이기도 하며 토론토의 연구소를 이끌고 있습니다.
토론토에 오기 전에 그녀는 시카고에 있는 Toyota Institute of Technology의 연구 조교수였습니다. 이 연구소는 시카고 대학교 캠퍼스에 위치하고 있으며 학술 기관으로 간주됩니다.
Fidler의 연구 분야는 컴퓨터 비전(CV) 및 기계 학습(ML)에 중점을 두고 CV와 그래픽의 교차점, 3D 비전, 3D 재구성 및 합성, 이미지 주석의 대화형 방법 등에 중점을 둡니다.
위 내용은 하나의 GPU, 초당 20개의 모델! NVIDIA의 새로운 장난감은 GET3D를 사용하여 우주를 창조합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제









이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

AMD는 올해 2분기에 FSR 3.1을 출시하겠다는 2024년 3월 초기 약속을 이행했습니다. 3.1 릴리스를 실제로 차별화하는 것은 프레임 생성 측면과 업스케일링 측면의 분리입니다. 이를 통해 Nvidia 및 Intel GPU 소유자가 FSR 3을 적용할 수 있습니다.

최근 출시된 Beelink GTi 14의 눈에 띄는 기능 중 하나는 미니 PC 아래에 숨겨진 PCIe x8 슬롯이 있다는 것입니다. 출시 당시 회사는 이를 통해 외부 그래픽 카드를 시스템에 연결하는 것이 더 쉬워질 것이라고 밝혔습니다. Beelink에는 n이 있습니다

오픈 LLM 커뮤니티는 백개의 꽃이 피어 경쟁하는 시대입니다. Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 등을 보실 수 있습니다. 훌륭한 연기자. 그러나 GPT-4-Turbo로 대표되는 독점 대형 모델과 비교하면 개방형 모델은 여전히 많은 분야에서 상당한 격차를 보이고 있습니다. 일반 모델 외에도 프로그래밍 및 수학을 위한 DeepSeek-Coder-V2, 시각 언어 작업을 위한 InternVL과 같이 핵심 영역을 전문으로 하는 일부 개방형 모델이 개발되었습니다.

이 사이트는 6월 2일 진행 중인 Huang Jen-Hsun 2024 타이페이 컴퓨터 쇼 기조 연설에서 Huang Jen-Hsun이 생성 인공 지능이 전체 소프트웨어 스택의 재구성을 촉진할 것이라고 소개하고 NIM(Nvidia Inference Microservices) 클라우드를 시연했다고 보도했습니다. 네이티브 마이크로서비스. NVIDIA는 "AI 공장"이 새로운 산업 혁명을 일으킬 것이라고 믿습니다. Huang Renxun은 Microsoft가 개척한 소프트웨어 산업을 예로 들어 생성 인공 지능이 전체 스택 재편을 촉진할 것이라고 믿습니다. 모든 규모의 기업이 AI 서비스를 쉽게 배포할 수 있도록 NVIDIA는 올해 3월 NIM(Nvidia Inference Microservices) 클라우드 네이티브 마이크로서비스를 출시했습니다. NIM+는 출시 시간을 단축하도록 최적화된 클라우드 기반 마이크로서비스 제품군입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해
