歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！-AI-php.cn

はじめに

著者の個人的な理解

人間の動きのランダム性と主観性により、人の将来の軌道を予測することは、現在でも依然として困難な問題です。ただし、シーンの制約 (フロアプラン、道路、障害物など) と人間対人間、または人間対オブジェクトのインタラクティブ性により、制約のあるシーンでの人間の動きのパターンは、通常、ある程度限られた法則に従います。したがって、この場合、個人の軌跡もこれらの法則のいずれかに従う必要があります。言い換えれば、ある人のその後の軌跡は、他の人によってたどられた可能性が高いということです。この仮定に基づいて、この記事のアルゴリズム (SHENet) は、暗黙のシーンルールを学習することによって人の将来の軌道を予測します。具体的には、シーン内の人物や環境の過去のダイナミクスに内在する規則性をシーン履歴と呼びます。次に、シーン履歴情報は、歴史的なグループの軌跡と、個人と環境の間の相互作用の 2 つのカテゴリに分類されます。これら 2 種類の情報を軌道予測に活用するために、本論文では、シーン履歴をシンプルかつ効果的な方法で活用する新しいフレームワーク Scene History Mining Network (SHENet) を提案します。特に、この設計の 2 つのコンポーネントは、将来の経路の候補として代表的なグループの軌跡を抽出するために使用されるグループ軌跡ライブラリモジュールと、個人の過去の軌跡間の相互作用をモデル化するために使用されるクロスモーダル相互作用モジュールです。とその周囲の環境を考慮して軌道を改善します。また、SHENetでは、前述した人間の動きのランダム性や主観による真の軌道の不確実性を軽減するために、学習プロセスや評価指標に滑らかさを取り入れています。最後に、さまざまな実験データセットで検証し、SOTA 手法と比較して優れたパフォーマンスを実証しました。

はじめに

Human Trajectory Prediction (HTP) は、ビデオクリップから対象者の将来の進路を予測することを目的としています。これは、車両が歩行者の状態を事前に感知し、衝突の可能性を回避できるため、スマート交通にとって非常に重要です。 HTP 機能を備えた監視システムは、警備員が容疑者の逃走経路を予測するのに役立ちます。近年多くの研究が行われていますが、主にこのタスクの 2 つの課題、つまり人間の動きのランダム性と主観性のため、十分に信頼でき、現実世界のシナリオでの応用に一般化できるものはほとんどありません。ただし、制約のある現実世界のシナリオでは、その課題が絶対に解決できないわけではありません。図 1 に示すように、このシーンで以前にキャプチャされたビデオを考慮すると、人間の移動パターンは通常、このシーンの対象者が従ういくつかの基本法則に従うため、対象者の将来の軌跡 (赤いボックス) はより予測可能になります。したがって、軌道を予測するには、まずこれらのパターンを理解する必要があります。私たちは、これらの規則性が、歴史的な人間の軌跡 (図 1 左)、個人の過去の軌跡、周囲の環境、およびそれらの間の相互作用 (図 1 右) に暗黙的にコード化されており、これらをシーン履歴と呼ぶと主張します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 1: シーン履歴を利用する概略図: 人の軌跡を予測するための歴史的なグループの軌跡と個々の環境の相互作用。

私たちは歴史情報を 2 つのカテゴリに分類します: 歴史的グループ軌跡 (HGT) と個人と環境の相互作用 (ISI)。 HGT は、シーン内のすべての歴史的な軌跡のグループ表現を指します。 HGT を使用する理由は、シーン内に新しいターゲット人物がいるとすると、その人物の軌跡は、歴史的な軌跡の単一のインスタンスよりも、グループの軌跡の 1 つとの類似性、主観性、規則性が高くなる可能性が高いためです。前述のランダム性。ただし、グループの軌跡は個人の過去の状態や対応する環境とはあまり関連がなく、個人の将来の軌跡にも影響を与える可能性があります。 ISI は、コンテキスト情報を抽出することにより、履歴情報をより完全に活用する必要があります。既存の手法では、個人の過去の軌跡と歴史的軌跡の類似性が考慮されることはほとんどありません。ほとんどの試みは個人と環境の間の相互作用のみを調査しており、個人の軌跡、環境の意味情報、およびそれらの間の関係をモデル化することに多大な労力が費やされています。 MANTRA は再構成方法でトレーニングされたエンコーダーを使用して類似性をモデル化し、MemoNet は履歴軌跡の意図を保存することで類似性を簡素化しますが、どちらもグループレベルではなくインスタンスレベルで類似性の計算を実行するため、トレーニングされたユーザーの能力に影響を受けやすくなります。コーダー。上記の分析に基づいて、HTP に HGT と ISI を共同利用する、シンプルかつ効果的なフレームワーク、Scene History Mining Network (SHENet) を提案します。特に、このフレームワークは、(i) Group Trajectory Base (GTB) モジュール、および (ii) Cross-Modal Interaction (CMI) モジュールの 2 つの主要コンポーネントで構成されます。 GTB は、すべての過去の個別軌道から代表的なグループ軌道を構築し、将来の軌道予測のための候補経路を提供します。 CMI は、観察された個々の軌道と周囲の環境を個別にエンコードし、クロスモーダル変換器を使用してそれらの相互作用をモデル化し、検索された候補軌道を改良します。

さらに、上記の 2 つの特性 (つまり、ランダム性と主観性) の不確実性を軽減するために、トレーニングプロセスと現在の評価メトリクス、平均および最終変位誤差 (つまり、ADE と最終変位誤差) に曲線を導入します。 FDE) 平滑化 (CS)。これにより、2 つの新しいインジケーター CS-ADE および CS-FDE が得られます。さらに、HTP 研究の発展を促進するために、PAV と呼ばれるさまざまな運動パターンを含む新しい挑戦的なデータセットを収集しました。このデータセットは、MOT15 データセットから固定カメラビューと複雑な人間の動きを含むビデオを選択することによって取得されます。

この研究の貢献は次のように要約できます: 1) HTP の個々の軌跡を検索するためにグループ履歴を導入します。 2) 我々は、HTP のための 2 種類のシーン履歴 (つまり、歴史的なグループの軌跡と個人と環境の相互作用) を共同利用する、シンプルかつ効果的なフレームワーク SHENet を提案します。 3) 新しい挑戦的なデータセット PAV を構築しました; さらに、人間の移動パターンのランダム性と主観性を考慮して、より優れたベースライン HTTP パフォーマンスを達成するために、新しい損失関数と 2 つの新しい指標が提案されています。 4) SHENet の優れたパフォーマンスと各コンポーネントの有効性を実証するために、ETH、UCY、および PAV について包括的な実験を実施しました。

方法

全体の紹介

提案されたシーン履歴マイニングネットワーク (SHENet) のアーキテクチャを図 2 に示します。これは 2 つの主要コンポーネントで構成されます。軌道ライブラリモジュール (GTB) とクロスモーダルインタラクションモジュール (CMI)。形式的には、シーンの観察ビデオ内のすべての軌跡、シーン画像、および最後のタイムステップでの対象人物の過去の軌跡が与えられるとします。 p はタイムステップ t における人の位置を表します。SHENet では、可能な限り真の軌跡に近づくように、次のフレームでの歩行者の将来の位置を予測する必要があります。提案された GTB は、最初にを代表的なグループ軌道に圧縮します。次に、観測された軌道をキーとして使用して、最も近い代表グループの軌道を将来の軌道の候補として検索します。同時に、過去の軌跡とシーンの画像がそれぞれ軌跡エンコーダとシーンエンコーダに送信され、それぞれ軌跡特徴とシーン特徴が生成されます。エンコードされた特徴はクロスモーダルトランスフォーマーに入力され、グラウンドトゥルースの軌道からオフセットが学習されます。をに加算すると、最終的な予測が得られます。トレーニング段階中に、までの距離がしきい値よりも大きい場合、人の軌跡 (つまり、と ) が軌跡ライブラリに追加されます。トレーニングが完了すると、バンクは推論用に固定されます。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 2: SHENet のアーキテクチャは、グループ軌跡ライブラリモジュール (GTB) とクロスモーダルインタラクションモジュール (CMI) の 2 つのコンポーネントで構成されています。 GTB は、すべての履歴軌跡を代表的なグループ軌跡のセットにクラスタリングし、最終的な軌跡予測の候補を提供します。 GTBはトレーニングフェーズにおいて、予測軌跡の誤差に基づいて対象者の軌跡をグループ軌跡ライブラリに組み込むことで表現能力を拡張します。 CMIは、対象人物の過去の軌跡と観察されたシーンをそれぞれ特徴抽出のための軌跡エンコーダとシーンエンコーダの入力として取り、クロスモーダルコンバータとリファインメントを通じて過去の軌跡とその周囲環境との相互作用を効果的にモデル化します。候補軌道を提供するために実行されます。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 3: クロスモーダル変圧器の図。軌跡特徴とシーン特徴はクロスモーダル変換器に入力され、探索軌跡とグラウンドトゥルース軌跡の間のオフセットが学習されます。

グループ軌跡ライブラリモジュール

グループ軌跡ライブラリモジュール (GTB) は、シーン内に代表的なグループ軌跡を構築するために使用されます。 GTB のコア機能は、バンクの初期化、軌道検索、軌道更新です。

軌道ライブラリの初期化 記録された多数の軌道の冗長性により、それらを単に使用するのではなく、疎な代表的な軌道のセットを次のように生成します。軌跡ライブラリの初期値。具体的には、トレーニングデータ内の軌跡をとして表し、各を観察された軌跡と将来の軌跡のペアに分割します。これにより、は、観測セットと対応する将来セットに分割されます。次に、、の各軌跡ペア間のユークリッド距離を計算し、K-medoids クラスタリングアルゴリズムを通じて軌跡クラスタを取得します。の初期メンバーシップは、同じクラスターに属する軌跡の平均です (アルゴリズム 1、ステップ 1 を参照)。の各軌跡は、人々のグループの移動パターンを表します。

軌跡の検索と更新 グループ軌跡ライブラリでは、各軌跡を過去と未来のペアとして表示できます。数値的には、、ここでは過去の軌跡と未来の軌跡の組み合わせを表し、は内の過去と未来のペアの数です。軌跡が与えられた場合、観測されたをキーとして使用して、の過去の軌跡との類似性スコアを計算し、代表的なセックス軌跡を見つけます。は、最大の類似性に基づいてスコア付けされます (アルゴリズム 1、ステップ 2 を参照)。類似度関数は、代表的な軌道

にオフセット歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

(式 2 を参照) を追加することにより、次のように表すことができます。観測者の予測軌道

を取得します (図 2 を参照)。ほとんどの場合、初期軌道ライブラリはうまく機能しますが、ライブラリ (アルゴリズム 1、ステップ 3 を参照) の一般化を改善するために、距離に基づいてを更新するかどうかを決定します。閾値 θ 。

クロスモーダル相互作用モジュール

このモジュールは、個人の過去の軌跡と環境情報の間の相互作用に焦点を当てています。これは、人間の動きとシーン情報をそれぞれ学習する 2 つのシングルモーダルエンコーダーと、それらの相互作用をモデル化するクロスモーダルトランスフォーマーで構成されます。

軌道エンコーダ 軌道エンコーダは、セルフアテンション (SA) を持つ Transformer ネットワークのマルチヘッドアテンション構造を使用します。層。 SA レイヤーは、さまざまなタイムステップで人間の動きをのサイズでキャプチャし、次元からまでの動きの特徴を投影します。ここで、はtrajectory エンコーダの埋め込み次元。したがって、軌道エンコーダを使用して人間の動きの表現を取得します。

シーンエンコーダ 事前学習済みの Swin Transformer は特徴表現において魅力的なパフォーマンスを備えているため、これをシーンエンコーダとして採用します。サイズのシーンの意味論的特徴を抽出します。ここで、 (事前トレーニングされたシーンエンコーダーの ) は、人や道路などの意味論的クラスの数です。 ## とは空間解像度です。後続のモジュールが動き表現と環境情報を簡単に融合できるようにするために、意味論的特徴をサイズ () から () に再変更し、多層の知覚層を通じて次元 () から () に投影します。その結果、シーンエンコーダを使用してシーン表現を取得します。

クロスモーダルトランスフォーマーシングルモーダルエンコーダーは、独自のモダリティから特徴を抽出し、人間の動きと環境情報の間の相互作用を無視します。層を備えたクロスモーダル変換器は、この相互作用を学習することで候補軌道を改良することを目的としています (セクション 3.2 を参照)。環境情報に制約される重要な人間の動作を捉えるストリームと、人間の動作に関連する環境情報を抽出するストリームの2ストリーム構造を採用しています。クロスアテンション (CA) レイヤーとセルフアテンション (SA) レイヤーは、クロスモーダルコンバーターの主要コンポーネントです (図 3 を参照)。環境の影響を受ける重要な人体の動きを捕捉し、動きに関連した環境情報を取得するために、CA 層は 1 つのモダリティをクエリとして扱い、もう 1 つのモダリティを 2 つのモダリティと相互作用するキーと値として扱います。 SA レイヤーは、内部接続の改善を促進し、シーンに制約されたモーションまたはモーション関連の環境情報内の要素 (クエリ) と他の要素 (キー) の間の類似性を計算するために使用されます。したがって、クロスモーダルトランスフォーマー () を介してマルチモーダル表現を取得します。探索軌跡と真の軌跡の間のオフセットを予測するには、最後の要素 (LE) ## を取得します。 ## およびグローバルプーリング層 (GPL) の後の出力。オフセットは次のように表すことができます:

ここで [; ] はベクトル連結を表し、MLP は多層知覚層です。歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

SHENet の全体的なフレームワークをエンドツーエンドでトレーニングして、目的関数を最小化します。トレーニング中、シーンエンコーダは ADE20K で事前トレーニングされているため、セグメンテーション部分をフリーズし、MLP ヘッドのパラメータを更新します (セクション 3.3 を参照)。既存の作業に従って、ETH/UCY データセットの予測軌跡とグラウンドトゥルース軌跡の間の平均二乗誤差 (MSE) を計算します:

。

より困難な PAV データセットでは、カーブスムージング (CS) 回帰損失を使用します。これは、個々のバイアスの影響を軽減するのに役立ちます。軌道を平滑化した後に MSE を計算します。 CS 損失は次のように表すことができます。

ここで、CS は曲線平滑化関数 [2] を表します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！実験

実験設定

データセット

ETH、UCY、PAV、Stanford Drone Dataset (SDD) データセットでの手法を評価します。シングルモーダル手法では軌跡データのみに焦点を当てますが、マルチモーダル手法ではシーン情報を考慮する必要があります。 ETH/UCY データセットと比較すると、PAV は PETS09-S2L1 (PETS)、ADL-Rundle-6 (ADL)、Venice-2 (VENICE) などの複数のモーションモードでより困難です。これらのデータは次のとおりです。静的カメラからキャプチャされ、HTP タスクに十分な軌道を提供します。ビデオをトレーニングセット (80%) とテストセット (20%) に分割し、PETS/ADL/VENICE にはそれぞれ 2,370/2,935/4,200 のトレーニングシーケンスと 664/306/650 のテストシーケンスが含まれています。さまざまな方法の長期予測結果を比較できるように、

観測フレームを使用して将来の

フレームを予測します。

ETH/UCY や PAV データセットとは異なり、SDD は大学キャンパスの鳥瞰図からキャプチャされた大規模なデータセットです。これは、対話する複数のエージェント (歩行者、自転車、自動車など) とさまざまなシナリオ (歩道や交差点など) で構成されます。前作に続き、過去 8 フレームを使用して未来の 12 フレームを予測します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 4: 提案されたメトリクス CS-ADE および CS-FDE の図。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 5: 曲線平滑化後のいくつかのサンプルの視覚化。

評価指標 ETHおよびUCYデータセットについては、HTPの標準指標である平均変位誤差(ADE)と最終変位誤差(FDE)を使用します。 ADE はすべてのタイムステップにおける予測軌道と真の軌道の間の平均誤差であり、FDE は最終タイムステップにおける予測軌道と真の軌道の間の誤差です。 PAV の軌道には多少のジッターがあります (急なターンなど)。したがって、合理的な予測では、従来の指標 ADE および FDE を使用した非現実的な予測とほぼ同じ誤差が生じる可能性があります (図 7(a) を参照)。軌道自体のパターンと形状に焦点を当て、ランダム性と主観性の影響を軽減するために、CS-ADE および CS-FDE である CS-Metric を提案します (図 4 を参照)。 CS-ADE は次のように計算されます:

ここで、CS は曲線平滑化関数であり、セクション 3.4 の Lcs と同じように定義されます。 CS-ADE と同様に、CS-FDE は軌道を滑らかにした後、最終的な変位誤差を計算します。滑らかな軌道に変換します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

実装詳細

SHENetでは、グループ軌跡ライブラリの初期サイズがに設定されています。軌跡エンコーダとシーンエンコーダの両方に 4 つのセルフアテンション (SA) 層があります。クロスモーダル Transformer には 6 つの SA レイヤーとクロスアテンション (CA) レイヤーがあります。すべての埋め込み寸法を 512 に設定します。軌跡エンコーダの場合、サイズ歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

(ETH/UCY では

、PAV では

) の人間の動き情報を学習します。シーンエンコーダーの場合、サイズ 150 × 56 × 56 のセマンティック特徴を出力します。サイズを150×56×56から150×3136に変更し、150×3136から150×512に投影します。 4 つの NVIDIA Quadro RTX 6000 GPU で 100 エポックのモデルをトレーニングし、1e − 5 の固定学習率で Adam オプティマイザーを使用します。アブレーション実験表 1 では、Group Trajectory Library (GTB) モジュールと軌跡 Encoder ( TE)、シーンエンコーダー (SE)、およびクロスモーダルインタラクション (CMI) モジュール。

GTB の影響

まず、GTB のパフォーマンスを調査します。 CMI (TE、SE、CMT) と比較して、GTB は PETS の FDE を 21.2% 改善します。これは大幅な改善であり、GTB の重要性を示しています。ただし、GTB (表 1 行 1) だけでは十分ではなく、パフォーマンスは CMI よりもわずかに劣ります。そこで、CMI モジュール内のさまざまな部品の役割を調査しました。

TE と SE の影響

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

TE と SE のパフォーマンスを評価するために、TE から抽出された軌跡の特徴と SE から抽出されたシーンの特徴を連結します (表 1 の 3 行目)。、より小さな動きで ADL と VENICE のパフォーマンスが向上します (TE 単独と比較して)。これは、軌道予測に環境情報を組み込むことで結果の精度が向上することを示しています。

CMT の効果表 1 の 3 行目と比較すると、CMT (表 1 の 4 行目) はモデルのパフォーマンスを大幅に向上させることができ、PETS 上で連結された TE と SE のパフォーマンスよりも優れており、ADE は 7.4% 向上していることに注目してください。 GTB 単独の場合、完全な CMI は ADE を平均 12.2% 改善します。

SOTA との比較

ETH/UCY データセット上の最先端のメソッドとモデルを比較します: SS-LSTM、Social-STGCN、MANTRA、AgentFormer、YNet。結果を表 2 にまとめます。私たちのモデルは平均 FDE を 0.39 から 0.36 に削減し、最先端の手法である YNet と比較して 7.7% 改善しました。特に、軌道が大きく動く場合、私たちのモデルは ETH に関する以前の手法を大幅に上回り、ADE と FDE をそれぞれ 12.8% と 15.3% 改善しました。

表 2: ETH/UCY データセットにおける最先端 (SOTA) メソッドの比較。 * は、単峰性アプローチよりも小さいセットを使用することを示します。上位 20 位の最高のものを使用して評価します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

表 3: PAV データセットの SOTA メソッドとの比較。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

長期予測におけるモデルのパフォーマンスを評価するために、軌道ごとに観測フレームを使用して PAV で実験を実施しました。個の将来のフレーム。表 3 は、以前の HTP メソッド (SS-LSTM、Social-STGCN、Next、MANTRA、YNet) とのパフォーマンスの比較を示しています。 YNet の最新の結果と比較すると、提案された SHENet CS-ADE と CS-FDE は、それぞれ平均 3.3% と 10.5% の改善を達成しています。 YNet は軌跡のヒートマップを予測するため、軌跡の動きが小さい場合 (VENICE など)、パフォーマンスが向上します。それにもかかわらず、私たちの方法は VENICE で依然として競争力があり、より大きな動きや交差を伴う PETS では他の方法よりも大幅に優れています。特に、私たちの方法は YNet と比較して PETS 上で CS-FDE を 16.2% 改善します。また、従来の ADE/FDE メトリクスでも大きな進歩を遂げました。

分析

距離閾値θ θは、軌道ライブラリの更新を決定するために使用されます。 θの代表的な値は、軌道長に基づいて設定されます。予測誤差の絶対値は、一般に、グラウンドトゥルースの軌跡がピクセル単位で長いほど大きくなります。ただし、それらの相対誤差は同等です。したがって、誤差が収束すると、θ はトレーニング誤差の 75% に設定されます。実験では、PETS では θ = 25、ADL では θ = 6 に設定しました。表 4 に示すように、「75% トレーニング誤差」は実験結果から得られます。

表 4: PAV データセットのさまざまなパラメーター θ の比較。結果は 3 つのケースの平均です。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

表 5: PAV データセット上のクラスター K の初期数の比較。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

K 中心点のクラスターの数 以下に示すように、初期クラスター K の異なる数を設定した場合の影響を研究しました。表 5 に示します。特に初期クラスター数が 24 ～ 36 の場合、クラスターの初期数は予測結果の影響を受けないことがわかります。したがって、実験では K を 32 に設定できます。

銀行の複雑さの分析 検索と更新の時間計算量はそれぞれ O(N) と O(1) です。それらの空間複雑さは O(N) です。グループ軌跡の数 N≤1000。クラスタリングプロセスの時間計算量は ββ、空間計算量は ββ です。 β はクラスタリング軌跡の数です。はクラスターの数、はクラスタリング手法の反復数です。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 6: 私たちのアプローチと最先端の手法の定性的な視覚化。青い線は観測された軌跡です。赤と緑の線は、予測された軌跡と実際の軌跡を示します。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

図 7: CS を使用しない場合と使用する場合の定性的な視覚化。

定性的結果

図 6 は、SHENet およびその他の手法の定性的結果を示しています。対照的に、人が道端まで歩いて引き返すという非常に困難なケース (緑の曲線) では、他のすべての方法ではうまく処理できないのに、私たちが提案する SHENet ではまだ処理できることに驚いています。これは、特別に設計された歴史的グループ軌跡ライブラリモジュールの役割によるものと考えられます。さらに、記憶ベースの方法 MANTRA [20] とは対照的に、私たちは個人だけでなくグループの軌跡を検索します。これはより汎用性が高く、より困難なシナリオにも適用できます。図 7 には、曲線平滑化 (CS) を使用した場合と使用した場合の YNet と SHENet の定性的な結果が含まれています。最初の行は、MSE 損失を使用した結果を示します。ある程度のノイズを伴う過去の軌道 (突然の急な方向転換など) の影響を受け、YNet の予測軌道点は密集しており、明確な方向を提示できませんが、私たちの方法は過去のグループ軌道に基づいて潜在的な経路を提供できます。 2 つの予測は視覚的に異なりますが、数値誤差 (ADE/FDE) はほぼ同じです。対照的に、私たちが提案する CS 損失の定性的結果は、図 7 の 2 行目に示されています。提案された CS はランダム性と主観性の影響を大幅に軽減し、YNet と私たちの方法を通じて合理的な予測を生成することがわかります。

結論

この文書では、HTP シナリオの歴史を最大限に活用する新しいアプローチである SHENet を提案します。 SHENet には、すべての歴史的な軌跡に基づいてグループ軌跡ライブラリを構築し、ライブラリから観察された人物の代表的な軌跡を取得するための GTB モジュールが含まれており、この代表的な軌跡を洗練するための CMI モジュール (人間の動きと環境情報の間の相互作用) も含まれています。当社は HTP ベンチマークで SOTA パフォーマンスを達成しており、当社のアプローチは、困難なシナリオにおける大幅な改善と汎用性を実証しています。しかし、現在の枠組みでは、堤防の建設プロセスが人間の動きのみに焦点を当てているなど、まだ解明されていない部分がいくつかあります。今後の作業には、インタラクティブな情報 (人の動きやシーンの情報) を使用した軌跡ライブラリのさらなる探索が含まれます。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！元のリンク: https://mp.weixin.qq.com/s/GE-t4LarwXJu2MC9njBInQ

以上が歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7465

CakePHP チュートリアル

1376

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

Windows 11 のスマートアプリコントロール: オンまたはオフにする方法 Jun 06, 2023 pm 11:10 PM

インテリジェントアプリコントロールは、ランサムウェアやスパイウェアなど、データに損害を与える可能性のある不正なアプリから PC を保護する Windows 11 の非常に便利なツールです。この記事では、スマートアプリコントロールとは何か、その仕組み、および Windows 11 でスマートアプリコントロールをオンまたはオフにする方法について説明します。 Windows 11 のスマートアプリコントロールとは何ですか? Smart App Control (SAC) は、Windows 1122H2 更新プログラムで導入された新しいセキュリティ機能です。 Microsoft Defender またはサードパーティのウイルス対策ソフトウェアと連携して、デバイスの速度を低下させたり、予期しない広告を表示したり、その他の予期しないアクションを実行したりする可能性のある不要なアプリをブロックします。スマートなアプリケーション

飛び回ったり、口を開けたり、見つめたり、眉毛を上げたりする顔の特徴をAIが完璧に模倣し、ビデオ詐欺を防ぐことは不可能 Dec 14, 2023 pm 11:30 PM

これほど強力なAIの模倣能力では、それを防ぐことは本当に不可能です。 AIの発展は今ここまで進んでいるのか？前足で顔の特徴を浮き上がらせ、後ろ足で全く同じ表情を再現し、見つめたり、眉を上げたり、口をとがらせたり、どんなに大袈裟な表情でも完璧に真似しています。難易度を上げて、眉毛を高く上げ、目を大きく開き、口の形も歪んでいるなど、バーチャルキャラクターアバターで表情を完璧に再現できます。左側のパラメータを調整すると、右側の仮想アバターもそれに合わせて動きが変化し、口や目の部分がアップになります。同じです（右端）。この研究は、GaussianAvatars を提案するミュンヘン工科大学などの機関によるものです。

MotionLM: マルチエージェント動作予測のための言語モデリング技術 Oct 13, 2023 pm 12:09 PM

この記事は自動運転ハート公式アカウントより許可を得て転載しておりますので、転載については出典元までご連絡ください。原題: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 論文リンク: https://arxiv.org/pdf/2309.16534.pdf 著者の所属: Waymo 会議: ICCV2023 論文のアイデア: 自動運転車の安全計画のために、将来の動作を確実に予測するロードエージェントの数は非常に重要です。この研究では、連続的な軌跡を離散的なモーショントークンのシーケンスとして表現し、マルチエージェントのモーション予測を言語モデリングタスクとして扱います。私たちが提案するモデル MotionLM には次の利点があります。

数年後にはプログラマーが減少するということをご存知ですか? Nov 08, 2023 am 11:17 AM

「ComputerWorld」誌はかつて、IBM がエンジニアが必要な数式を書いて提出できる新しい言語 FORTRAN を開発したため、「プログラミングは 1960 年までに消滅するだろう」という記事を書きました。コンピューターを実行すればプログラミングは終了します。画像数年後、私たちは新しいことわざを聞きました: ビジネスマンは誰でもビジネス用語を使って問題を説明し、コンピュータに何をすべきかを伝えることができます。COBOL と呼ばれるこのプログラミング言語を使用することで、企業はもはやプログラマーを必要としません。その後、IBM は従業員がフォームに記入してレポートを作成できるようにする RPG と呼ばれる新しいプログラミング言語を開発したと言われており、会社のプログラミングニーズのほとんどはこれで完了できます。

フーリエ知能万能ヒューマノイドロボット「GR-1」の予約販売が始まります！ Sep 27, 2023 pm 08:41 PM

この人型ロボットは身長 1.65 メートル、体重 55 キログラム、体に 44 の自由度があり、素早く歩き、障害物を素早く回避し、斜面を着実に上り下りし、衝撃干渉に耐えることができます。フーリエインテリジェンスの汎用人型ロボット GR-1 の予約販売が開始されましたロボット講堂フーリエインテリジェンスの汎用人型ロボットフーリエ GR-1 の予約販売が開始されました。 GR-1 は、高度にバイオニックな体幹構成と擬人化された動作制御を備えており、全身 44 度の自由度を持ち、歩行、障害物を回避、障害物を横切り、坂道を上り下りし、干渉に耐え、さまざまな道路に適応する能力を備えています。一般的な人工知能システムであり、理想的なキャリアです。公式ウェブサイトの先行販売ページ: www.fftai.cn/order#FourierGR-1# フーリエ知能を書き直す必要があります。

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！ Oct 17, 2023 am 11:13 AM

軌道予測はここ 2 年間で注目を集めていますが、そのほとんどは車両の軌道予測の方向に焦点を当てています。本日、自動運転ハートは、歩行者軌道予測のアルゴリズムを NeurIPS - SHENet で共有します。制限されたシーンでは、人間の行動パターンは通常、ある程度、限られたルールに従っています。この仮定に基づいて、SHENet は暗黙のシーンルールを学習することで人の将来の軌道を予測します。この記事は自動運転ハート様よりオリジナル記事として認定されました！著者の個人的な理解では、人間の動きにはランダム性と主観性があるため、現時点では人の将来の軌道を予測することは依然として困難な問題です。ただし、制約のあるシーンでの人間の動きのパターンは、シーンの制約 (フロアプラン、道路、障害物など) や人間対人間、または人間対オブジェクトの対話性によって異なることがよくあります。

ファーウェイは、心拍数に基づいてユーザーの感情状態を評価できるスマートウェアラブル分野でXuanjiセンシングシステムを発売する Aug 29, 2024 pm 03:30 PM

最近、ファーウェイは、Xuanjiセンシングシステムを搭載した新しいスマートウェアラブル製品を9月に発売すると発表しました。これはファーウェイの最新スマートウォッチとなる予定です。この新製品は、高度な感情的健康モニタリング機能を統合し、正確性、包括性、スピード、柔軟性、オープン性、拡張性という 6 つの特徴を備えた包括的な健康評価をユーザーに提供します。このシステムはスーパーセンシングモジュールを使用し、マルチチャンネル光路アーキテクチャ技術を最適化することで、心拍数、血中酸素、呼吸数などの基本的な指標の監視精度を大幅に向上させます。さらに、Xuanji センシングシステムは、心拍数データに基づく感情状態の研究も拡張しており、生理学的指標に限定されず、ユーザーの感情状態やストレスレベルを評価することもでき、60 以上のスポーツのモニタリングをサポートしています。健康指標、心臓血管、呼吸器、神経、内分泌、

スマートカースケートボードシャーシを 1 つの記事で読む May 24, 2023 pm 12:01 PM

01 スケートボードシャーシとはいわゆるスケートボードシャーシは、バッテリー、電装系、サスペンション、ブレーキ等をシャーシ上に予め一体化し、ボディとシャーシの分離・デカップリング設計を実現したものです。このタイプのプラットフォームに基づいて、自動車会社は初期の研究開発とテストのコストを大幅に削減しながら、さまざまなモデルを作成する市場の需要に迅速に対応できます。特に無人運転時代においては、クルマのレイアウトは走行中心ではなく空間性を重視したものとなり、スケートボード型シャシーはアッパーキャビンの開発可能性をさらに広げることができる。もちろん、上の写真のように、スケートボードのシャーシを見たときに、「ああ、耐荷重のないボディだ」という第一印象に囚われてはいけません。当時は電気自動車がなかったため、数百キログラムのバッテリーパックも、ステアリングコラムを不要にするステアリングバイワイヤーシステムも、ブレーキバイワイヤーシステムもありませんでした。

See all articles

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

著者の個人的な理解

はじめに

関連研究

方法

全体の紹介

グループ軌跡ライブラリモジュール

クロスモーダル相互作用モジュール

実験設定

データセット

SOTA との比較

分析

定性的結果

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

歩行者軌跡予測に有効な手法と一般的なBase手法は何ですか?トップカンファレンスの論文を共有！

著者の個人的な理解

はじめに

関連研究

方法

全体の紹介

グループ軌跡ライブラリ モジュール

クロスモーダル相互作用モジュール

実験設定

データセット

SOTA との比較

分析

定性的結果

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

グループ軌跡ライブラリモジュール