指定された入力 (テキスト プロンプト、画像、3D 形状など) から 3D コンテンツを作成すると、コンピューター ビジョンやグラフィックスの分野で重要な用途が得られます。しかし、この問題は難しく、通常、プロのアーティスト (テクニカル アーティスト) が 3D コンテンツを作成するのに多くの時間とコストを費やす必要があります。同時に、多くのオンライン 3D モデル ライブラリのリソースは、通常、マテリアルのない裸の 3D モデルです。これらを現在のレンダリング エンジンに適用したい場合は、高品質のマテリアル、ライト、法線マップを作成するテクニカル アーティストが必要です。彼らのために。 。したがって、自動化され、多様でリアルな 3D モデル アセット生成を実現する方法があれば有望です。
したがって、華南理工大学、香港理工大学、異次元知能、彭城研究所、およびその他の機関の研究チームは、テキスト駆動型の3 次元モデル スタイライゼーション メソッド - TANGO、このメソッドは、指定された 3D モデルとテキストに対して、より現実的な SVBRDF マテリアル、法線マップ、およびライトを自動的に生成でき、低品質の 3D モデルに対する堅牢性が優れています。この研究は NeurIPS 2022 に採択されました。
プロジェクトのホームページ: https://cyw-3d.github.io/tango/
モデル効果特定のテキスト入力と 3D モデルに対して、TANGO は 3D モデルの表面で自己交差することなく、より精細で写真のようにリアルな詳細を生成できます。以下の図 1 に示すように、TANGO は滑らかなマテリアル (金、銀など) にリアルな反射効果を提示するだけでなく、不均一なマテリアル (レンガなど) のポイントごとの法線を推定することもできます。でこぼこした効果。
図 1. TANGO の様式化された結果
TANGO は実際のレンダリング結果の鍵は、シェーディング モデルの各コンポーネント (SVBRDF、法線マップ、ライト) を正確に分離し、個別に学習することです。最終的に、これらの分離されたコンポーネントは球面ガウス微分可能レンダラーを通じて出力され、CLIP に送信されてテキストが入力されます。損失を計算します。コンポーネントを分離する理論的根拠を実証するために、研究では各コンポーネントを視覚化しました。図 2 (a) は「レンガで作られた靴」の様式化された結果を示し、(b) は 3D モデルの元の法線方向を示し、(c) は 3D モデル上の各点に対して TANGO によって予測された法線方向を示します。 、(d)(e)(f)はそれぞれSVBRDFの拡散反射、粗さ、鏡面反射パラメータを表します。(g)はTANGOによって予測される球面ガウス関数で表される環境光です。
#図 2 分離されたレンダリング コンポーネントの視覚化
同時に, ResearchはTANGOが出力した結果を編集することもできます。たとえば、図 3 では、他のライト マップを使用して TANGO の結果を再照明することができ、図 4 では、粗さと鏡面反射率のパラメータを編集して、オブジェクト表面の反射の度合いを変更できます。
図 3 TANGO の様式化された結果を再ライトする
図 4 オブジェクトのマテリアルの編集 さらに、TANGO は予測法線マップを使用してオブジェクト表面の詳細を追加するため、頂点の数が少ない 3 次元モデルに対しても非常に堅牢です。図 5 に示すように、元のランプとエイリアンのモデルにはそれぞれ 41160 個と 68430 個の顔がありましたが、研究者らは元のモデルをダウンサンプリングして、わずか 5000 個の顔を持つモデルを取得しました。元のモデルとダウンサンプリングされたモデルでの TANGO のパフォーマンスは基本的に同様ですが、Text2Mesh では低品質モデルで深刻な自己交差現象が見られることがわかります。 #図 5 ロバストネス テスト TANGO は主に、テキストに基づいて 3 次元オブジェクトを様式化する方法に焦点を当てています。この分野で最も関連性のある現在の研究は Text2Mesh です。Text2Mesh は、事前トレーニングされたモデル CLIP をガイドとして使用し、3D モデルの表面頂点の色と位置オフセットを予測して様式化を実現します。ただし、単にサーフェスの頂点カラーを予測するだけでは非現実的なレンダリング効果が生じることが多く、不規則な頂点オフセットにより深刻な自己交差が発生する可能性があります。そこで本研究では、従来の物理ベースのレンダリングパイプラインを利用して、レンダリングプロセス全体をSVBRDFマテリアル、法線マップ、ライトの予測プロセスに分離し、分離された要素をそれぞれ球面ガウス関数で表現します。この物理ベースのデカップリング手法により、TANGO はリアルなレンダリング効果を正確に生成でき、優れた堅牢性を備えています。 #図 6 TANGO のフローチャート #pとの交点とその交点の法線方向#npを求めます。次に、#xxp と np が SVBRDF ネットワークとノーマル ネットワークに送信され、ポイントの材料パラメーターとメソッドが予測されます。 . ラインの方向と同時に、複数の球面ガウス関数を使用してシーン内の照明を表現します。研究では、トレーニングの反復ごとに、微分可能な球面ガウス レンダラーを使用して画像をレンダリングし、次に CLIP モデルの画像エンコーダーを使用して拡張画像をエンコードし、最後に CLIP モデルが勾配を逆伝播してすべての学習可能なパラメーターを更新します。 概要 既存の方法と比較して、TANGO は低品質の 3D モデルであっても非常に堅牢です。ただし、自己交差を避けながら法線で点ごとに幾何学的なディテールを与える手法では、表現できる素材表面の凹凸度合いも若干低下してしまうため、頂点オフセットに基づくTANGOやText2Meshは、本研究では有効であると考えられる。これは良い予備的な試みであり、さらなる追跡調査のきっかけとなるでしょう。 この論文では、入力テキストに基づいて 3D モデルのリアルな外観スタイルを生成し、低品質のモデルに対して堅牢な新しい手法である TANGO を提案します。外観スタイルを SVBRDF、局所的な幾何学的変化 (点ごとの法線)、および照明条件から切り離し、これらを球面ガウス関数として表現およびレンダリングすることで、CLIP を損失監視として使用し、学習することができます。
以上が一言で言えば、3D モデルは写真レベルの詳細に至るまで、リアルな外観スタイルを生成できます。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。