VectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行う
arXiv 論文「VectorFlow: 交通占有と流量予測のための画像とベクトルの結合」、2022 年 8 月 9 日、清華大学勤務。
# 道路管理者の将来の行動を予測することは、自動運転における重要なタスクです。既存のモデルはエージェントの将来の行動を予測することに大きな成功を収めていますが、複数のエージェントの協調的な行動を効果的に予測することは依然として課題です。最近、誰かが 占有フロー フィールド (OFF) 表現を提案しました。これは、占有グリッドとフローの組み合わせを通じて道路管理者の共同の将来の状態を表し、一貫した予測をサポートします。
この研究では、新しい占有流動フィールド予測器、ラスター化された交通画像から特徴を学習する画像エンコーダー、および継続的なエージェントの軌跡と地図の状態情報をキャプチャするベクトル エンコーダーを提案します。両方を組み合わせて、正確な占有と流動の予測を生成します。 。 2 つのエンコード機能は、最終的な予測を生成する前に、複数のアテンション モジュールによって融合されます。このモデルは、Waymo Open Dataset Occupancy and Flow Prediction Challenge で 3 位にランクされ、遮蔽占有とフロー予測タスクで最高のパフォーマンスを達成しました。
OFF 表現 (「Occupancy Flow Fields for Motion Forecasting in Autonomous Driving」、arXiv 2203.03875、3、2022) は、各グリッド セルに i) 確率が含まれる時空間グリッドです。任意のエージェントがユニットを占有していること、および ii) そのユニットを占有しているエージェントの移動の流れを表します。占有フロー フィールドを予測する計算の複雑さはシーン内の道路管理者の数に依存しないため、効率とスケーラビリティが向上します。
写真はOFFフレーム図です。エンコーダの構造は以下の通りです。最初のステージは 3 種類の入力ポイントをすべて受け取り、PointPillars からインスピレーションを得たエンコーダーで処理します。信号機と道路ポイントはグリッド上に直接配置されます。各入力タイム ステップ t でのエージェントの状態エンコードは、各エージェント BEV ボックスから固定サイズの点グリッドを均一にサンプリングし、これらの点を、配置された関連するエージェント状態属性 (時間 t のワンホット エンコードを含む) と組み合わせます。グリッド上で。各ピラーは、それに含まれるすべてのポイントのエンベディングを出力します。デコーダの構造は以下の通りです。 2 番目のレベルは、各ピラーの埋め込みを入力として受け取り、グリッドごとのセル占有率とフロー予測を生成します。デコーダ ネットワークは EfficientNet に基づいており、EfficientNet をバックボーンとして使用して各ピラーの埋め込みを処理して特徴マップ (P2、...P7) を取得します。ここで、Pi は入力から 2^i ダウンサンプリングされます。次に、BiFPN ネットワークを使用して、これらのマルチスケール機能を双方向で融合します。次に、最高解像度の特徴マップ P2 を使用して、すべてのタイム ステップにおけるすべてのエージェント クラス K の占有率とフロー予測を回帰します。具体的には、デコーダは占有とフローを予測しながら、各グリッド セルのベクトルを出力します。
この記事では、次の問題設定が行われます。シーン内の交通エージェントの 1 秒間の履歴と、マップ座標などのシーン コンテキストを考慮すると、目標は、i) 将来の観測占有率、ii) 将来のオクルージョンの占有率、および iii) シーン内の 8 つの将来のウェイポイントにおけるすべての車両の将来の流れを予測することです。各ウェイポイントは 1 秒の間隔をカバーします。
入力をラスター化されたイメージとベクトルのセットに処理します。画像を取得するために、観測エージェントの軌跡と地図データを考慮して、自動運転車 (SDC) のローカル座標を基準にして過去の各タイム ステップでラスタライズされたグリッドが作成されます。ラスター化されたイメージと一致するベクトル化された入力を取得するには、同じ変換に従い、入力エージェントとマップ座標を SDC のローカル ビューに対して回転および移動します。
エンコーダーは、ラスター化された表現をエンコードする VGG-16 モデルと、ベクトル化された表現をエンコードする VectorNe モデルの 2 つの部分で構成されます。ベクトル化された機能は、クロス アテンション モジュールを通じて VGG-16 の最後の 2 つのステップの機能と融合されます。 FPN スタイルのネットワークを通じて、融合されたフィーチャは元の解像度にアップサンプリングされ、入力ラスター化フィーチャとして使用されます。
デコーダーは、エンコーダーの出力を占有流動フィールド予測にマッピングする単一の 2D 畳み込み層です。これは、次の 8 秒間の各時間を表す一連の 8 つのグリッド マップで構成されます。占有率と流動予測。
写真が示すように:
torchvision の標準 VGG-16 モデルをラスタライズ エンコーダとして使用し、VectorNet (コード https://github.com/Tsinghua -MAR##) に従います。 #S-Lab/DenseTNT) の実装。 VectorNet への入力は、i) B×Nr×9 の形状の道路要素ベクトルのセットで構成されます。ここで、B はバッチ サイズ、Nr=10000 は道路要素ベクトルの最大数、最後の次元 9 は各ベクトルを表し、ベクトル ID 2 つのエンドポイントの位置 (x、y) と方向 (cosθ、sinθ)、ii) シーン内の最大 128 のエージェントのベクトルを含む、B×1280×9 の形状を持つエージェント ベクトルのセット、ここで、各エージェントは観測位置から 10 個のベクトルを持ちます。
VectorNet に従い、最初に各交通要素の ID に従ってローカル マップを実行し、次にすべてのローカル フィーチャに対してグローバル マップを実行して、形状 B×128×N のベクトル化されたフィーチャを取得します。N は交通量です。パス要素とインテリジェンスを含む要素の合計。特徴のサイズは MLP 層を通じてさらに 4 倍に拡大され、最終的なベクトル化特徴 V が得られます。その形状は B × 512 × N であり、その特徴サイズは画像特徴のチャネル サイズと一致します。 VGG の各レベルの出力特徴は、入力イメージと 512 の隠れ次元を基準にして {C1、C2、C3、C4、C5} として表され、ストライドは {1、2、4、8 です。 , 16} ピクセル。ベクトル化された特徴Vは、クロスアテンションモジュールを通じて形状B×512×16×16のラスタライズされた画像特徴C5と融合され、同じ形状のF5が得られる。クロスアテンションのクエリ項目は、256 個のトークンを含む B×512×256 形状に平坦化された画像特徴 C5 であり、キー項目と値項目は、N 個のトークンを含むベクトル化された特徴 V です。 次に、チャネル次元で F5 と C5 を接続し、2 つの 3×3 畳み込み層を通過して、B×512×16×16 の形状を持つ P5 を取得します。 P5 は FPN スタイルの 2×2 アップサンプリング モジュールを通じてアップサンプリングされ、C4 (B×512×32×32) に接続されて、C4 と同じ形状の U4 が生成されます。次に、交差注意を含む同じ手順に従って、V と U4 の間で別のラウンドの融合が実行され、P4 (B × 512 × 32 × 32) が得られます。最後に、P4 は FPN スタイルのネットワークによって徐々にアップサンプリングされ、{C3, C2, C1} と接続されて、B×512×256×256 の形状を持つ EP1 が生成されます。 P1 を 2 つの 3×3 畳み込み層に通過させて、B×128×256 の形状を持つ最終出力特徴を取得します。 デコーダは、入力チャネル サイズ 128、出力チャネル サイズ 32 (8 ウェイポイント × 4 出力次元) の単一 2D 畳み込み層です。 結果は次のとおりです:以上がVectorFlow: 画像とベクトルを組み合わせて交通占有率と流量予測を行うの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









インテリジェント アプリ コントロールは、ランサムウェアやスパイウェアなど、データに損害を与える可能性のある不正なアプリから PC を保護する Windows 11 の非常に便利なツールです。この記事では、スマート アプリ コントロールとは何か、その仕組み、および Windows 11 でスマート アプリ コントロールをオンまたはオフにする方法について説明します。 Windows 11 のスマート アプリ コントロールとは何ですか? Smart App Control (SAC) は、Windows 1122H2 更新プログラムで導入された新しいセキュリティ機能です。 Microsoft Defender またはサードパーティのウイルス対策ソフトウェアと連携して、デバイスの速度を低下させたり、予期しない広告を表示したり、その他の予期しないアクションを実行したりする可能性のある不要なアプリをブロックします。スマートなアプリケーション

これほど強力なAIの模倣能力では、それを防ぐことは本当に不可能です。 AIの発展は今ここまで進んでいるのか?前足で顔の特徴を浮き上がらせ、後ろ足で全く同じ表情を再現し、見つめたり、眉を上げたり、口をとがらせたり、どんなに大袈裟な表情でも完璧に真似しています。難易度を上げて、眉毛を高く上げ、目を大きく開き、口の形も歪んでいるなど、バーチャルキャラクターアバターで表情を完璧に再現できます。左側のパラメータを調整すると、右側の仮想アバターもそれに合わせて動きが変化し、口や目の部分がアップになります。同じです(右端)。この研究は、GaussianAvatars を提案するミュンヘン工科大学などの機関によるものです。

この記事は自動運転ハート公式アカウントより許可を得て転載しておりますので、転載については出典元までご連絡ください。原題: MotionLM: Multi-Agent Motion Forecasting as Language Modeling 論文リンク: https://arxiv.org/pdf/2309.16534.pdf 著者の所属: Waymo 会議: ICCV2023 論文のアイデア: 自動運転車の安全計画のために、将来の動作を確実に予測するロードエージェントの数は非常に重要です。この研究では、連続的な軌跡を離散的なモーション トークンのシーケンスとして表現し、マルチエージェントのモーション予測を言語モデリング タスクとして扱います。私たちが提案するモデル MotionLM には次の利点があります。

「ComputerWorld」誌はかつて、IBM がエンジニアが必要な数式を書いて提出できる新しい言語 FORTRAN を開発したため、「プログラミングは 1960 年までに消滅するだろう」という記事を書きました。コンピューターを実行すればプログラミングは終了します。画像 数年後、私たちは新しいことわざを聞きました: ビジネスマンは誰でもビジネス用語を使って問題を説明し、コンピュータに何をすべきかを伝えることができます。COBOL と呼ばれるこのプログラミング言語を使用することで、企業はもはやプログラマーを必要としません。その後、IBM は従業員がフォームに記入してレポートを作成できるようにする RPG と呼ばれる新しいプログラミング言語を開発したと言われており、会社のプログラミング ニーズのほとんどはこれで完了できます。

この人型ロボットは身長 1.65 メートル、体重 55 キログラム、体に 44 の自由度があり、素早く歩き、障害物を素早く回避し、斜面を着実に上り下りし、衝撃干渉に耐えることができます。フーリエインテリジェンスの汎用人型ロボット GR-1 の予約販売が開始されました ロボット講堂 フーリエインテリジェンスの汎用人型ロボット フーリエ GR-1 の予約販売が開始されました。 GR-1 は、高度にバイオニックな体幹構成と擬人化された動作制御を備えており、全身 44 度の自由度を持ち、歩行、障害物を回避、障害物を横切り、坂道を上り下りし、干渉に耐え、さまざまな道路に適応する能力を備えています。一般的な人工知能システムであり、理想的なキャリアです。公式ウェブサイトの先行販売ページ: www.fftai.cn/order#FourierGR-1# フーリエ知能を書き直す必要があります。

最近、ファーウェイは、Xuanjiセンシングシステムを搭載した新しいスマートウェアラブル製品を9月に発売すると発表しました。これはファーウェイの最新スマートウォッチとなる予定です。この新製品は、高度な感情的健康モニタリング機能を統合し、正確性、包括性、スピード、柔軟性、オープン性、拡張性という 6 つの特徴を備えた包括的な健康評価をユーザーに提供します。このシステムはスーパーセンシングモジュールを使用し、マルチチャンネル光路アーキテクチャ技術を最適化することで、心拍数、血中酸素、呼吸数などの基本的な指標の監視精度を大幅に向上させます。さらに、Xuanji センシング システムは、心拍数データに基づく感情状態の研究も拡張しており、生理学的指標に限定されず、ユーザーの感情状態やストレス レベルを評価することもでき、60 以上のスポーツのモニタリングをサポートしています。健康指標、心臓血管、呼吸器、神経、内分泌、

軌道予測はここ 2 年間で注目を集めていますが、そのほとんどは車両の軌道予測の方向に焦点を当てています。本日、自動運転ハートは、歩行者軌道予測のアルゴリズムを NeurIPS - SHENet で共有します。制限されたシーンでは、人間の行動パターンは通常、ある程度、限られたルールに従っています。この仮定に基づいて、SHENet は暗黙のシーン ルールを学習することで人の将来の軌道を予測します。この記事は自動運転ハート様よりオリジナル記事として認定されました!著者の個人的な理解では、人間の動きにはランダム性と主観性があるため、現時点では人の将来の軌道を予測することは依然として困難な問題です。ただし、制約のあるシーンでの人間の動きのパターンは、シーンの制約 (フロア プラン、道路、障害物など) や人間対人間、または人間対オブジェクトの対話性によって異なることがよくあります。

01 スケートボードシャーシとは いわゆるスケートボードシャーシは、バッテリー、電装系、サスペンション、ブレーキ等をシャーシ上に予め一体化し、ボディとシャーシの分離・デカップリング設計を実現したものです。このタイプのプラットフォームに基づいて、自動車会社は初期の研究開発とテストのコストを大幅に削減しながら、さまざまなモデルを作成する市場の需要に迅速に対応できます。特に無人運転時代においては、クルマのレイアウトは走行中心ではなく空間性を重視したものとなり、スケートボード型シャシーはアッパーキャビンの開発可能性をさらに広げることができる。もちろん、上の写真のように、スケートボードのシャーシを見たときに、「ああ、耐荷重のないボディだ」という第一印象に囚われてはいけません。当時は電気自動車がなかったため、数百キログラムのバッテリーパックも、ステアリングコラムを不要にするステアリングバイワイヤーシステムも、ブレーキバイワイヤーシステムもありませんでした。
