一块GPU，每秒20个模型！英伟达新玩具用GET3D造元宇宙-人工智能-PHP中文网

形状、纹理、材质自定义

研究方法与过程

作者介绍

首页

科技周边

人工智能

一块GPU，每秒20个模型！英伟达新玩具用GET3D造元宇宙

PHPz

Apr 12, 2023 pm 11:16 PM

gpu 模型英伟达

Abracadabra！

在2D生成3D模型上，英伟达亮出了自称「世界级」研究：GET3D。

通过2D图像训练后，该模型可生成具有高保真纹理和复杂几何细节的3D形状。

究竟有多厉害？

形状、纹理、材质自定义

GET3D之所以得名，是因为它能够生成显式纹理3D网格（Generate Explicit Textured 3D meshes ）。

论文地址：https://arxiv.org/pdf/2209.11163.pdf

也就是说，它创建的形状是三角形网格的形式，就像纸模型一样，上面覆盖着纹理材质。

关键是，这个模型可以生成多种多样，且高质量的模型。

比如，椅子腿上的各种轮子；汽车的车轮，灯和车窗；动物的耳朵、角；摩托车的后视镜，车轮胎上的纹理；高跟鞋，人类衣服...

街道两旁的独特建筑，不同的车辆呼啸而过，还有不同的人群穿梭而过...

若想通过手动建模做出同样的3D虚拟世界非常耗时。

尽管先前的3D生成AI模型虽然比手动建模更快，但它们在生成更多丰富细节模型的能力还是欠缺。

即便是，最新的逆向渲染方法也只能基于从各个角度拍摄的2D图像生成3D对象，开发人员一次只能构建一个3D物体。

GET3D可就不一样了。

开发者可以轻松地将生成模型导入到游戏引擎、3D建模器和电影渲染器中，对它们进行编辑。

当创建者将GET3D生成的模型导出到图形应用程序，他们就可以在模型所在的场景中移动或旋转时应用逼真的照明效果。

如图所示：

另外，GET3D还可以做到文本引导形状生成。

通过使用英伟达的另一个AI工具StyleGAN-NADA，开发人员可以使用文本提示为图像添加特定的风格。

比如，可以将渲染后的汽车变成一辆烧毁的汽车或出租车

将一个普通的房子改造成砖房、着火的房子，甚至是鬼屋。

或者将老虎纹、熊猫纹的特色应用在任何动物身上...

简直就是辛普森一家的「动物森友会」...

英伟达介绍，在单个英伟达GPU上训练，GET3D每秒可以生成大约20个对象。

在此，它所学习的训练数据集越大、越多样化，输出的多样性和详细程度就越高。

英伟达称，研究团队仅用2天时间，就使用A100 GPU在大约100万张图像上训练了模型。

研究方法与过程

GET3D框架，主要作用是合成有纹理的三维形状。

生成过程分为两个部分：第一部分是几何分支，可以输出任意拓扑结构的表面网格。另一部分则是纹理分支，它会产生一个纹理场，由此可以在表面点上进行查询。

在训练过程中，一个可微分光栅化器被用来高效渲染所产生的纹理网格，并渲染成二维的高分辨率图像。整个过程是可分的，允许通过传播二维判别器的梯度，从图像中进行对抗性训练。

之后，梯度从二维判别器传播到两个发生器分支。

研究人员又进行了广泛的实验来评估该模型。他们首先将GET3D生成的三维纹理网格的质量与现有的使用ShapeNet和Turbosquid数据集生成的做比较。

接下来，研究人员根据对比结果在之后的研究中对模型进行了优化，并做了更多实验。

GET3D模型在几何形状和纹理能够实现相分离。

如图，在每一行中展示了由相同的几何隐藏代码生成的形状，同时更改了纹理代码。

在每一列中展示了由相同的纹理隐藏代码生成的形状，同时更改了几何代码。

另外，研究人员在每一行中相同的纹理隐藏代码生成的形状，从左到右插入几何隐藏代码。

并由相同的几何隐藏代码生成的形状，同时从上到下插入纹理代码。结果显示，每个插值对生成模型都是有意义的。

在每个模型的子图中，GET3D能够在所有类别的不同形状之间的生成实现平滑过渡。

在每一行中，通过添加一个小噪声来局部扰乱隐藏代码。通过这种方式，GET3D能够在局部生成外观相似但略有差异的形状。

研究人员指出，未来版本的GET3D可以使用摄像机姿态估计技术，让开发人员训练模型的现实世界的数据，而不是合成数据集。

未来，通过改进，开发人员可以在各种3D形状上一次性训练GET3D，而不需要一次在一个对象类别上训练它。

英伟达人工智能研究副总裁Sanja Fidler表示，

GET3D让我们离人工智能驱动的3D内容创作大众化又近了一步。它即时生成带纹理3D形状的能力可能会改变开发人员的游戏规则，帮助他们用各种有趣的对象快速填充虚拟世界。

作者介绍

论文一作Jun Gao是多伦多大学机器学习小组的博士生，导师是Sanja Fidler。

除了学历优异以外，他还是英伟达多伦多人工智能实验室的研究科学家。

他的研究主要集中在深度学习（DL），目标直指结构化几何表示学习。同时，他的研究还从人类对2D和3D图像、视频的感知中获得见解。

这么一位优秀的高材生，来自北京大学。他于2018年本科毕业，获得学士学位。在北大期间，他和王立威教授一同工作。

毕业后他还在斯坦福大学、MSRA和英伟达进行过实习。

Jun Gao的导师同样是业内翘楚。

Fidler是多伦多大学的副教授，Vector研究所的一名教师，同时，她还是该研究所的联合创始成员之一。

教学之外，她还是英伟达公司的人工智能研究副总裁，领导着多伦多的一个研究实验室。

在来到多伦多之前，她是芝加哥丰田技术研究所的研究助理教授。该研究所位于芝加哥大学校园内，算是个学术机构。

Fidler的研究领域集中在计算机视觉（CV）和机器学习（ML），聚焦于CV和图形学的交叉领域、三维视觉，以及三维重建与合成，还有图像注释的互动方法等等。

以上是一块GPU，每秒20个模型！英伟达新玩具用GET3D造元宇宙的详细内容。更多信息请关注PHP中文网其他相关文章！

本站声明

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

热AI工具

热工具

热门话题

gmail邮箱登陆入口在哪里

7529

CakePHP 教程

1378

steam的账户名称是什么格式

win11激活密钥永久

NYT连接提示和答案

显示更多

Related knowledge

Beelink EX显卡扩展坞承诺GPU性能零损失 Aug 11, 2024 pm 09:55 PM

最近推出的 Beelink GTi 14 的突出特点之一是迷你 PC 下方有一个隐藏的 PCIe x8 插槽。该公司在发布时表示，这将使外部显卡更容易连接到系统。 Beelink有n

替代MLP的KAN，被开源项目扩展到卷积了 Jun 01, 2024 pm 10:03 PM

本月初，来自MIT等机构的研究者提出了一种非常有潜力的MLP替代方法——KAN。KAN在准确性和可解释性方面表现优于MLP。而且它能以非常少的参数量胜过以更大参数量运行的MLP。比如，作者表示，他们用KAN以更小的网络和更高的自动化程度重现了DeepMind的结果。具体来说，DeepMind的MLP有大约300,000个参数，而KAN只有约200个参数。KAN与MLP一样具有强大的数学基础，MLP基于通用逼近定理，而KAN基于Kolmogorov-Arnold表示定理。如下图所示，KAN在边上具

英伟达对话模型ChatQA进化到2.0版本，上下文长度提到128K Jul 26, 2024 am 08:40 AM

开放LLM社区正是百花齐放、竞相争鸣的时代，你能看到Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1等许多表现优良的模型。但是，相比于以GPT-4-Turbo为代表的专有大模型，开放模型在很多领域依然还有明显差距。在通用模型之外，也有一些专精关键领域的开放模型已被开发出来，比如用于编程和数学的DeepSeek-Coder-V2、用于视觉-语言任务的InternVL

AMD FSR 3.1 推出：帧生成功能也适用于 Nvidia GeForce RTX 和 Intel Arc GPU Jun 29, 2024 am 06:57 AM

AMD 兑现了 24 年 3 月的最初承诺，将于今年第二季度推出 FSR 3.1。 3.1 版本的真正与众不同之处在于帧生成方面与升级方面的解耦。这使得 Nvidia 和 Intel GPU 所有者可以应用 FSR 3。

'AI 工厂”将推动软件全栈重塑，英伟达提供 Llama3 NIM 容器供用户部署 Jun 08, 2024 pm 07:25 PM

本站6月2日消息，在目前正在进行的黄仁勋2024台北电脑展主题演讲上，黄仁勋介绍生成式人工智能将推动软件全栈重塑，展示其NIM（NvidiaInferenceMicroservices）云原生微服务。英伟达认为“AI工厂”将掀起一场新产业革命：以微软开创的软件行业为例，黄仁勋认为生成式人工智能将推动其全栈重塑。为方便各种规模的企业部署AI服务，英伟达今年3月推出了NIM（NvidiaInferenceMicroservices）云原生微服务。NIM+是一套经过优化的云原生微服务，旨在缩短上市时间

全面超越DPO：陈丹琦团队提出简单偏好优化SimPO，还炼出最强8B开源模型 Jun 01, 2024 pm 04:41 PM

为了将大型语言模型（LLM）与人类的价值和意图对齐，学习人类反馈至关重要，这能确保它们是有用的、诚实的和无害的。在对齐LLM方面，一种有效的方法是根据人类反馈的强化学习（RLHF）。尽管RLHF方法的结果很出色，但其中涉及到了一些优化难题。其中涉及到训练一个奖励模型，然后优化一个策略模型来最大化该奖励。近段时间已有一些研究者探索了更简单的离线算法，其中之一便是直接偏好优化（DPO）。DPO是通过参数化RLHF中的奖励函数来直接根据偏好数据学习策略模型，这样就无需显示式的奖励模型了。该方法简单稳定

无需OpenAI数据，跻身代码大模型榜单！UIUC发布StarCoder-15B-Instruct Jun 13, 2024 pm 01:59 PM

在软件技术的前沿，UIUC张令明组携手BigCode组织的研究者，近日公布了StarCoder2-15B-Instruct代码大模型。这一创新成果在代码生成任务取得了显着突破，成功超越CodeLlama-70B-Instruct，登上代码生成性能榜单之巅。 StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略，整个训练流程公开透明，且完全自主可控。该模型通过StarCoder2-15B生成了数千个指令，响应对StarCoder-15B基座模型进行微调，无需依赖昂贵的人工标注数

LLM全搞定！OmniDrive：集3D感知、推理规划于一体（英伟达最新） May 09, 2024 pm 04:55 PM

写在前面&笔者的个人理解这篇论文致力于解决当前多模态大语言模型（MLLMs）在自动驾驶应用中存在的关键挑战，即将MLLMs从2D理解扩展到3D空间的问题。由于自动驾驶车辆（AVs）需要针对3D环境做出准确的决策，这一扩展显得尤为重要。3D空间理解对于AV来说至关重要，因为它直接影响车辆做出明智决策、预测未来状态以及与环境安全互动的能力。当前的多模态大语言模型（如LLaVA-1.5）通常仅能处理较低分辨率的图像输入（例如），这是由于视觉编码器的分辨率限制，LLM序列长度的限制。然而，自动驾驶应用需

See all articles

一块GPU，每秒20个模型！英伟达新玩具用GET3D造元宇宙

形状、纹理、材质自定义

研究方法与过程

作者介绍

热AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

热门文章

热工具

记事本++7.3.1

SublimeText3汉化版

禅工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

热门话题