ゲーム向けの高精度かつ低コストの 3D 顔再構成ソリューション、Tencent AI Lab ICCV 2023 論文の解釈
3D 顔再構成は、ゲーム映画やテレビ制作、デジタル ピープル、AR/VR、顔認識と編集などの分野で広く使用されている主要なテクノロジーであり、その目標は、1 つまたは複数の画像から高品質の画像を取得することです。 3D顔モデル。スタジオでの複雑な撮影システムの助けを借りて、現在業界で成熟したソリューションは、本物の人間に匹敵する毛穴レベルの精度で再構成効果を達成できます[2]。しかし、それらの製造コストは高く、サイクルタイムは長く、これらは通常、S レベルの映画、テレビ、またはゲーム プロジェクトでのみ使用されます。
近年、低コストの顔再構成技術に基づくインタラクティブなゲームプレイ(ゲームキャラクターの顔つまみゲームプレイ、AR/VR仮想画像生成など)が市場に歓迎されています。携帯電話で撮影した1枚または複数枚の写真など、毎日入手できる写真を入力するだけで、すぐに3Dモデルを取得できます。しかし、既存の手法では画像品質が制御できず、再構成結果の精度が低く、顔の細部を表現することができません[3-4]。忠実度の高い 3D 顔を低コストで取得する方法は依然として未解決の問題です。
顔再構成の最初のステップは、顔の表情方法を定義することです。しかし、既存の主流の顔パラメータ化モデルでは表現能力が限られています。多視点画像などのより多くの制約情報があっても、再構成精度は難しいです。そこで、Tencent AI Lab は、顔事前分布を使用し、ガウス混合モデルを使用して顔マスキングを表現するパラメトリック顔モデルとして、改良された Adaptive Skinning Model (以下、ASM) を提案しました。自動的に解決できます。
テストにより、ASMメソッドはトレーニングを必要とせずに少数のパラメータのみを使用するため、顔の表現能力と多視点顔再構成の精度が大幅に向上し、SOTAレベルを革新することがわかりました# ##。当該論文がICCV-2023に採択されましたので、以下に論文の詳細を説明します。
論文タイトル: ASM: 高品質 3D 顔モデリングのための適応スキニング モデル
研究課題: 低コスト、高精度の 3D 顔再構成問題
2D 画像からより有益な 3D 画像を取得するモデルは次のとおりです。無限の解を持つ過小決定問題。これを解決可能にするために、研究者は再構成に顔事前分布を導入します。これにより、解決の難易度が軽減され、より少ないパラメータで顔の 3D 形状が表現されます。つまり、パラメトリック顔モデルです。現在のパラメトリック顔モデルのほとんどは、1999 年に Blanz と Vetter によって最初に提案された 3D Morphable Model (3DMM) とその改良版に基づいています [5]。この記事では、複数の異なる顔の線形または非線形の組み合わせによって顔が得られると仮定し、数百もの実際の顔の高精度 3D モデルを収集して顔ベース ライブラリを構築し、パラメータ化された顔を組み合わせて新しい特徴を表現します. 顔モデル。その後の研究では、より多様な素顔モデルを収集し [6、7]、次元削減方法を改善することで 3DMM を最適化しました [8、9]。 しかし、3DMMの顔型モデルは堅牢性は高いものの、表現力が不十分です。 3DMMは、入力画像にブレや遮蔽がある場合でも平均的な精度で安定して顔モデルを生成できますが、複数の高画質画像を入力とした場合、3DMMの表現能力には限界があり、より多くの入力情報を活用できないため、再構成精度に限界が生じます。この限界は 2 つの側面から生じています。第一に、手法自体の限界です。第二に、この手法は顔モデル データの収集に依存しています。データ取得コストが高いだけでなく、次の理由により実用化が困難です。顔データの機密性を重視し、広範に再利用します。ASM 手法: スケルトンスキンモデルの再設計
既存の 3DMM 顔モデルの表現力不足の問題を解決するために、この記事では「スケルトン」を紹介します。 -Skinned Model」をベースラインの表情として使用します。スケルトンスキンモデルは、ゲームやアニメーションの制作過程でゲームキャラクターの顔の形状や表情を表現するために使用される一般的な顔モデリング手法です。仮想ボーン ポイントを介して人間の顔のメッシュ頂点に接続されます。スキン ウェイトは、メッシュ頂点上のボーンのインフルエンス ウェイトを決定します。使用する場合、ボーンの動きを制御するだけで、間接的にボーンの動きを制御できます。メッシュの頂点。 通常、スケルトン - スキン モデルでは、アニメーターが正確なボーンの配置とスキン ウェイトの描画を実行する必要があり、これには制作閾値が高く、制作サイクルが長いという特徴があります。しかし、実際の人間の顔は、人によって骨や筋肉の形状が大きく異なり、固定的なスケルトンスキニングシステムで現実のさまざまな顔の形状を表現するのは難しいため、この記事では既存のスケルトンスキニングを使用します。システム さらなる設計に基づいて、ガウス混合スキニング重み (GMM Skinning Weights) と動的骨結合システム (Dynamic Bone Binding)に基づいて、骨をさらに改善する適応型骨スキニング モデル ASM が提案されます。スキニング 表現力と柔軟性により、ターゲットの顔ごとに固有のスケルトン - スキン モデルを適応的に生成し、より豊かな顔の詳細を表現します。 ASM では、さまざまな顔をモデリングするスケルトン - スキン モデルの表現力を向上させるために、スケルトン - スキン モデルのモデリング方法を新たに設計しました。
#スキニング (LBS) アルゴリズムは、ボーンの動き (回転、平行移動、スケーリング) を制御することにより、メッシュ頂点の変形を制御します。従来のボーン スキニングは、スキン ウェイト マトリックスとボーン バインディングの 2 つの部分で構成されており、ASM はこれら 2 つの部分を個別にパラメータ設定して、適応性のあるボーン スキニング モデルを実現します。次に、スキンウェイトマトリックスとボーンバインディングのパラメトリックモデリング手法をそれぞれ紹介します。
式 1: 従来のスケルトンスキンモデルの LBS 式## FORMULA 2:ASMのLBSフォーミュラ
####The Skin Weight行列は mxn 次元の行列で、m はボーンの数、n はメッシュ上の頂点の数です。この行列は、各メッシュの頂点上の各ボーンの影響係数を保存するために使用されます。一般に、スキン ウェイト マトリックスは非常にスパースです。たとえば、Unity では、各メッシュ頂点は最大 4 つのボーンによってのみ影響を受けます。これらの 4 つのボーンを除き、頂点上の他のボーンの影響係数は 0 です。 。従来のボーンスキン モデルでは、スキン ウェイトはアニメーターによって描画され、スキン ウェイトが一度取得されると、使用時に変更されなくなります。近年、大量のデータとニューラル ネットワークの学習を組み合わせてスキニング ウェイトを自動的に生成する研究 [1] が試みられていますが、このような解決策には 2 つの問題があります。 3D 顔またはスキニングの場合、ウェイト データを取得するのはさらに困難です。第 2 に、ニューラル ネットワークを使用してスキン ウェイトをモデル化すると、パラメータの冗長性が大幅に高まります。
訓練なしで少ないパラメータで顔全体の皮膚重みを完全に表現できる皮膚重みモデリング手法はありますか?
一般的なスキニング ウェイトを観察すると、次の特性がわかります: 1. スキニング ウェイトは局所的に滑らかです; 2. メッシュ頂点が現在のボーン位置から離れるほど、対応するスキニング係数は次のようになります。通常はより小さいです。 ; そして、この特性は混合ガウス モデル (GMM) と非常に一致しています。したがって、この記事では、頂点とボーンの間の特定の距離関数に基づいてスキニング ウェイト マトリックスをガウス混合関数としてモデル化するガウス混合スキニング ウェイト (GMM スキニング ウェイト) を提案します。これにより、一連の GMM 係数を使用してスキニングを表現できるようになります。特定のボーンの重みが分散されます。スキン ウェイトのパラメータをさらに圧縮するために、顔のメッシュ全体を 3 次元空間から UV 空間に転送します。これにより、2 次元 GMM を使用し、頂点から UV 距離を使用するだけで済みます。特定の頂点の現在のボーンのマスキングを計算するためのボーン、スキン ウェイト係数。ダイナミックボーンバインディング
スキンウェイトのパラメトリックモデリングにより、少数のパラメータでスキンウェイトマトリックスを表現できるだけでなく、そこで、本記事では動的にボーンを結合する方法(Dynamic Bone Binding)を提案します。本記事ではスキンウェイトと同様にボーンの結合位置をUV空間上の座標点としてモデリングしており、UV空間内で任意に移動することができます。フェイス メッシュの頂点の場合、事前定義された UV マッピング関係を通じて、頂点を UV 空間内の固定座標にマッピングすることができます。ただし、ボーンは UV 空間で事前定義されていないため、そのためにはバインドされたボーンを 3 次元空間から UV 空間に転送する必要があります。この記事のこのステップは、ボーンと周囲の頂点の座標を補間することで実装されており、計算された補間係数を頂点の UV 座標に適用して、ボーンの UV 座標を取得します。逆も同様で、ボーン座標を UV 空間から 3 次元空間に転送する必要がある場合、現在のボーンの UV 座標と隣接する頂点の UV 座標の間の補間係数も計算し、 3次元空間上の同一頂点への補間係数を設定し、3次元座標上で、対応するボーンの3次元空間座標を補間することができます。このモデリング手法により、ボーンのバインディング位置とスキン ウェイト係数を UV 空間内の一連の係数に統一します。 ASM を使用する場合、フェイス メッシュ頂点の変形を、UV 空間でのボーン結合位置のオフセット係数、UV 空間でのガウス混合スキニング係数、およびボーンのモーション係数の組み合わせに変換します。スケルトンスキンモデルの表現力が向上し、より豊かな顔の詳細を生成できるようになります。
#sotAレベルに達する
パラメトリック顔モデルの登録を使用します。高精度の顔スキャン モデル (登録) の手法は、PCA 手法 (BFM [6]、FLAME [7]) に基づく従来の 3DMM と ASM を組み合わせたものです。 ]、FaceScape [10])、ニューラルネットワーク次元削減法に基づく 3DMM(CoMA [8]、ImFace [9])、および業界をリードする骨スキンモデル(MetaHuman)を比較しました。結果は、ASM の発現能力が LYHM と FaceScape の両方のデータセットで SOTA レベルに達していることを示しています。
##図 2: LYHM と FaceScape での登録精度の誤差分布
#図 3: LYHM 視覚化の結果とFaceScape での登録のエラー ヒート マップ
マルチビュー顔再構成におけるアプリケーション
Florence MICC のデータを使用しました。このセットはパフォーマンスをテストしました多視点顔再構成タスクにおける ASM の再構成精度と、Coop (屋内近距離カメラ、表情のない人々) テスト セットでの再構成精度は SOTA レベルに達しました。
###図4:フィレンツェMICCデータセットの3Dフェイス再構築の結果
多視点再構成タスクにおける再構成結果の写真枚数の割合をFaceScapeデータセットでテストした結果、写真枚数が5枚程度の場合、ASMは他の表情手法と比較して最高の再構成精度を達成できることがわかりました。 。
##この研究は解決に向けて重要な一歩を踏み出しました低コストで忠実度の高い人間の顔を取得するという業界の課題。私たちが提案する新しいパラメトリック顔モデルは、表情能力を大幅に向上させ、多視点顔再構成の精度の上限を新たなレベルに引き上げます。この手法は、ゲーム制作における3Dキャラクターモデリング、顔の自動挟み込みゲームプレイ、AR/VRにおけるアバター生成など、さまざまな分野で活用可能です。 顔の表情能力が大幅に向上した後、再構成結果の精度をさらに向上させるために、多視点画像からより強力な一貫性制約を構築する方法が、現在の顔再構成分野における新たなボトルネックおよび新たな課題となっています。これは私たちの今後の研究の方向性でもあります。 参考文献 [1] Noranart Vesdapunt、Mitch Rundle、HsiangTao Wu、Baoyuan Wang. Jnr: コンパクトな 3D フェイスのためのジョイントベースのニューラル リグ表現In Computer Vision – ECCV 2020: 第 16 回欧州会議、英国グラスゴー、2020 年 8 月 23 ~ 28 日、議事録、パート XVIII 16、389 ~ 405 ページ。Springer、2020. [2] Thabo Beeler、Bernd Bickel、Paul Beardsley、Bob Sumner、Markus Gross. 顔のジオメトリの高品質なシングルショット キャプチャ. ACM SIGGRAPH 2010 論文、1 ~ 9 ページ。2010. #[3] Yu Deng、Jiaolong Yang、Sicheng Xu、Dong Chen、Yunde Jia、Xin Tong. 弱教師学習による正確な 3D 顔再構成: 単一画像から画像セットへ. IEEE 論文集コンピューター ビジョンとパターン認識ワークショップに関する /CVF カンファレンス、0 ~ 0 ページ、2019. [4] Yao Feng、Haiwen Feng、Michael J Black、Timo Bolkart。アニメーションの学習野生の画像からの詳細な 3D 顔モデル。ACM Transactions on Graphics (ToG)、40 (4):1–13、2021. [5] Volker Blanz および Thomas Vetter. 3D 顔の合成のためのモーファブル モデル. コンピュータ グラフィックスとインタラクティブ技術に関する第 26 回年次会議議事録、187 ~ 194 ページ、1999. [6] Pascal Paysan 、Reinhard Knothe、Brian Amberg、Sami Romdhani、および Thomas Vetter. ポーズと照明の不変顔認識のための 3D 顔モデル. 2009 年、高度なビデオおよび信号ベースの監視に関する第 6 回 IEEE 国際会議、296 ~ 301 ページ. Ieee、2009. [8] Anurag Ranjan、Timo Bolkart、soubhik Sanyal、Michael J Black. 畳み込みメッシュ オートエンコーダーを使用した 3D フェイスの生成。コンピューター ビジョンに関する欧州会議 (ECCV)、704 ~ 720 ページ、2018 年. [9] Mingwu Zheng、Hongyu Yang、Di Huang、Liming Chen. Imface: A nonlinear 3d暗黙的なニューラル表現を備えたモーファブル顔モデルコンピュータ ビジョンとパターン認識に関する IEEE/CVF 会議議事録、20343 ~ 20352 ページ、2022. [10] Haotian Yang、Hao Zhu 、Yanru Wang、Mingkai Huang、Qiu Shen、Ruigang Yang、および Xun Cao. Facescape: 大規模で高品質の 3D 顔データセットと詳細なリグ可能な 3D 顔予測. コンピュータ ビジョンとパターン認識に関する IEEE/CVF 会議の議事録 ,ページ 601–610、2020.
以上がゲーム向けの高精度かつ低コストの 3D 顔再構成ソリューション、Tencent AI Lab ICCV 2023 論文の解釈の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに 近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。
