仮想現実、拡張現実、ゲーム、人間とコンピューターの対話の分野では、多くの場合、仮想キャラクターが画面外のプレイヤーと対話できるようにする必要があります。このインタラクションはリアルタイムであり、仮想キャラクターがオペレーターの動きに応じて動的に調整する必要があります。アバターで椅子を動かすなど、一部のインタラクションにはオブジェクトが関与するため、オペレーターの手の正確な動きに特別な注意が必要です。インテリジェントでインタラクティブな仮想キャラクターの出現は、人間のプレイヤーと仮想キャラクターの間の社会体験を大幅に強化し、新しいエンターテイメントの方法をもたらします。
本研究では、人間と仮想人間の間のインタラクションタスク、特に物体を伴うインタラクションタスクに焦点を当て、オンライン全身動作応答合成と呼ばれる新しいタスクを提案します。新しいタスクは、人間の動きに基づいて仮想人間の反応を生成します。これまでの研究は主に人間と人間のインタラクションに焦点を当てており、タスク内のオブジェクトは考慮されておらず、生成される身体反応には手の動きは含まれていませんでした。また、これまでの作品ではタスクをオンライン推論として扱っておらず、実際の状況では仮想人間が実装状況に基づいて次のステップを予測します。
新しいタスクをサポートするために、著者らはまず、それぞれ HHI と CoChair という名前の 2 つのデータセットを構築し、統一された手法を提案しました。具体的には、著者はまず社会的アフォーダンス表現を構築します。これを行うために、彼らは社会的アフォーダンス ベクトルを選択し、SE (3) 等変ニューラル ネットワークを使用してベクトルのローカル座標系を学習し、最後にその社会的アフォーダンスを正規化します。さらに、著者は仮想人間が予測に基づいて意思決定できるようにするための社会的アフォーダンス予測のスキームも提案しています。
研究結果によると、この方法は HHI および CoChair データセットに対して高品質のリアクション アクションを効果的に生成でき、1 秒あたり 25 フレームのリアルタイム推論速度を達成できます。 A100。さらに、著者らは、既存の人間のインタラクション データセットである Interhuman および Chi3D での検証を通じて、この手法の有効性も実証しています。
詳細については、次の論文アドレスを参照してください。 [https://arxiv.org/pdf/2312.08983.pdf]。これがパズルを解く方法を探しているプレイヤーの助けになれば幸いです。
謎解き方法の詳細については、プロジェクトのホームページ https://yunzeliu.github.io/iHuman/ をご覧ください。
この記事では、オンラインの全身動作反応合成タスクをサポートするために、著者は 2 つのデータセットを構築しました。 1 つは 2 人によるインタラクションのデータセット HHI で、もう 1 つは 2 人によるオブジェクトとのインタラクションのデータセット CoChair です。これら 2 つのデータセットは、全身運動合成の分野をさらに調査するための貴重なリソースを研究者に提供します。 HHI データセットは 2 人の人物間のさまざまなインタラクションを記録し、CoChair データセットは 2 人の人物とオブジェクト間のインタラクションを記録します。これらのデータ セットの確立により、研究者はより多くの実験を行うことができます
HHI データ セットは、大規模な全身動作反応データ セットです。インタラクション カテゴリ、10 ペアの人間の骨格タイプ、合計 5000 のインタラクション シーケンス。
#HHI データセットには 3 つの特徴があります。 1 つ目の特徴は、体と手のインタラクションを含む、複数人の全身インタラクションが含まれていることです。著者は、複数人での交流においては手の相互作用を無視することはできず、握手やハグ、引き継ぎなど手を通じて豊富な情報が伝達されると考えています。 2 番目の特徴は、HHI データセットが行動の開始者と応答者を明確に区別できることです。たとえば、握手、方向の指さし、挨拶、引き継ぎなどの状況において、HHI データセットはアクションの開始者を特定できるため、研究者が問題をより適切に定義して評価するのに役立ちます。 3 番目の特徴は、HHI データセットには、より多様なタイプのインタラクションと反応が含まれていることです。2 人の人物間の 30 種類のインタラクションだけでなく、同じアクターに対する複数の合理的な反応も含まれています。たとえば、誰かがあなたに挨拶したとき、うなずいたり、片手、または両手で応答したりすることができます。これも自然な特徴ですが、これまでのデータセットではほとんど注目されず、議論されていませんでした。CoChair は、大規模な複数人およびオブジェクトのインタラクション データセットであり、8 つの異なる椅子、5 つのインタラクション モード、10 ペアの異なるスケルトン、合計 3000 のシーケンスが含まれています。 CoChair には 2 つの重要な特徴があります。 まず、CoChair にはコラボレーション プロセスにおける情報の非対称性があります。すべてのアクションには、実行者/開始者 (持ち込み荷物の目的地を知っている) と応答者 (目的地を知らない) がいます。第二に、さまざまな持ち運びモードがあります。データセットには、片手固定キャリー、片手移動キャリー、両手固定キャリー、両手移動キャリー、両手フレキシブルキャリーの 5 つの持ち運びモードが含まれています。 ソーシャル アフォーダンス ベクトルは、ソーシャル アフォーダンス情報をエンコードする物体または人を指します。人間が仮想人間と対話するとき、通常、人間は直接的または間接的に仮想人間と接触することになる。そして、物に関して言えば、人間は通常、物に触れます。 インタラクションにおける直接的または潜在的な接触情報をシミュレートするには、人間、ベクトル自体、およびそれらの間の関係を同時に表すベクトルを選択する必要があります。この研究では、キャリアとは、人間が接触する可能性のある物体または仮想人間テンプレートを指します。 これに基づいて、著者は社会的アフォーダンスのキャリア中心の表現を定義します。具体的には、ベクトルが与えられると、人間の行動をエンコードして、密な人間と車両の共同表現を取得します。この表現に基づいて、著者らは、人間の行動の動き、ベクトルの動的幾何学的特性、および各タイムステップでの人と車両の関係を含む社会的アフォーダンス表現を提案します。 ソーシャル アフォーダンス表現は、単一フレームの表現ではなく、開始時点から特定のタイム ステップまでのデータ フローを指すことに注意してください。この方法の利点は、キャリアの局所領域と人間の行動の動きを密接に関連付け、ネットワーク学習に便利な表現を形成することです。 著者は、ソーシャル アフォーダンス表現を通じて、表現空間を単純化するためにソーシャル アフォーダンス正規化をさらに採用します。最初のステップは、ベクトルのローカル フレームワークを学習することです。 SE (3) 等変ネットワークを通じて、キャリアのローカル座標系が学習されます。具体的には、まず人間の動作を各ローカル座標系の動作に変換する。次に、人間のキャラクターのアクションを各点の視点から高密度にエンコードして、高密度のベクトル中心のアクション表現を取得します。これは、「観察者」を車両上の各ローカル ポイントにバインドし、各「観察者」が一人称視点から人間の行動をコード化すると考えることができます。このアプローチの利点は、人間、仮想人間、およびオブジェクト間の接触によって生成される情報をモデル化しながら、ソーシャル アフォーダンスの正規化によってソーシャル アフォーダンスの分布が簡素化され、ネットワーク学習が促進されることです。 トレーニング段階では、仮想人間は人間のすべての行動を観察できます。現実世界の予測フェーズでは、仮想人間は人間の行動の過去のダイナミクスを観察することしかできません。提案された予測モジュールは、仮想人間の知覚を改善するために人間がとる行動を予測できます。著者らは、動き予測モジュールを使用して、人間のアクターの動作とオブジェクトの動作を予測します。 2 人の対話では、著者は HumanMAC を予測モジュールとして使用しました。 2 人の人物とオブジェクトのインタラクションでは、著者は InterDiff に基づいて動き予測モジュールを構築し、人物とオブジェクトの接触が安定しているという事前条件を追加して、オブジェクトの動きを予測する難しさを単純化しました。 ############実験############### 定量的テストにより、この調査方法がすべての指標において既存の方法よりも優れていることが示されています。この方法における各設計の有効性を検証するために、著者らは HHI データセットでアブレーション実験を実施しました。ソーシャル アフォーダンスの正規化がないと、この方法のパフォーマンスが大幅に低下することがわかります。これは、ソーシャル アフォーダンス正規化を使用して特徴空間の複雑さを簡素化する必要があることを示唆しています。ソーシャル アフォーダンスの予測がないと、私たちの方法は人間の俳優の行動を予測する能力を失い、パフォーマンスの低下につながります。ローカル座標系を使用する必要性を検証するために、グローバル座標系を使用した場合の効果も比較しましたが、ローカル座標系の方が大幅に優れていることがわかります。これは、ローカル座標系を使用してローカル ジオメトリと潜在的な接触を記述することの価値も示しています。 視覚化の結果から、過去と比較して、記事の方法を使用して訓練された仮想キャラクターはより速く反応し、より良くできることがわかります。ローカルのジェスチャーを正確にキャプチャし、共同でより現実的で自然な把握アクションを生成します。 研究の詳細については、元の論文を参照してください。 #方法
以上が心の知能指数が高く、手を伸ばせばすぐに次の行動に協力してくれるNPCが登場します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。