目次
前に書いてあり、著者の個人的な理解
関連研究のレビュー
LaneSegNet の詳細な説明
車線セグメント認識タスクの説明
LaneSegNet フレームワーク
実験結果
主な実験構造
アブレーション実験
ホームページ テクノロジー周辺機器 AI ICLR'24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

ICLR'24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

Jan 19, 2024 am 11:12 AM
通信網 モデル

前に書いてあり、著者の個人的な理解

地図は自動運転システムの下流アプリケーションにとって重要な情報であり、通常は車線または中央線で表されます。ただし、既存の地図学習の文献は主に、車線の幾何学ベースのトポロジー関係の検出や中心線の感知に焦点を当てています。どちらの方法も、車線と中心線の間の固有の関係、つまり、車線が中心線を結合する関係を無視します。 1 つのモデルで 2 種類の車線を単純に予測することは学習目標において相互に排他的ですが、本論文では幾何学的情報と位相情報をシームレスに組み合わせる新しい表現として車線セグメンテーションを提案し、LaneSegNet を提案します。これは、車線セグメントを生成して道路構造の完全な表現を取得する最初のエンドツーエンド マッピング ネットワークです。 LaneSegNet には 2 つの重要な変更があり、1 つはレーン アテンション モジュールで、長距離特徴空間内の主要エリアの詳細をキャプチャするために使用されます。もう 1 つは、参照点の同じ初期化戦略で、レーン アテンションのための位置事前分布の学習を強化します。 OpenLane-V2 データセットでは、LaneSegNet は、マップ要素検出 (4.8 mAP)、車線中心線認識 (6.9 DETl)、および新しく定義された車線セグメント認識 (5.6 mAP) という 3 つのタスクにおいて、以前の同様の製品に比べて大きな利点があります。さらに、14.7FPSのリアルタイム推論速度を実現しました。

オープンソースリンク: https://github.com/OpenDriveLab/LaneSegNet

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

要約すると、この記事の主な貢献は次のとおりです:

  • この記事では、新しい地図学習公式として、新しい車線セグメント認識を紹介します。幾何学的な要素と位相的な要素が含まれています。この分野に新たな洞察がもたらされることを期待しています。
  • この記事では、車線セグメント認識のために提案されたエンドツーエンド ネットワークである LaneSegNet について提案します。長距離の注意を捕捉するための頭から領域へのメカニズムを備えた車線注意モジュールと、車線の注意に先立って位置を強化するための参照点の同じ初期化戦略を含む、2 つの新しい修正が提案されています。

関連研究のレビュー

中心線の知覚: 車載センサー データからの中心線の知覚 (この記事の車線マップ学習との比較)同紙)が最近注目を集めている。 STSU は、中心線を検出する DETR のようなネットワークを提案し、その後、その接続性を判断するために多層パーセプトロン (MLP) モジュールを提案しました。 STSU に基づいて、Can らは、重複する行の正しい順序を保証する追加の最小ループ クエリを導入しました。 CenterLineDet は中心線を頂点として扱い、模倣学習を通じて訓練されたグラフ更新モデルを設計します。注目すべきは、テスラがレーンマップを文章として表現する「レーン言語」という概念を提案したことだ。彼らの注意ベースのモデルは、車線区分線とその接続性を再帰的に予測します。これらのセグメンテーション方法に加えて、LaneGAP では、追加の変換アルゴリズムを使用してレーン マップを復元するパス方法も導入されています。 TopoNet は、完全かつ多様な運転シーンのグラフを対象とし、ネットワーク内の中心線の接続性を明示的にモデル化し、交通要素をタスクに組み込みます。本研究ではセグメント法を採用してレーングラフを構築します。ただし、中心線をレーン グラフの頂点とするのではなく、レーン セグメントをモデリングする点で以前の方法とは異なります。これにより、セグメント レベルの幾何学的情報と意味情報を簡単に統合できます。

マップ要素の検出: 以前の研究では、投影エラーを克服するために、カメラ平面から 3D 空間までのマップ要素の検出を改善することに焦点を当てていました。 BEV センシングの人気の傾向に伴い、最近の研究はセグメンテーションおよびベクトル化手法を使用した HD マップの学習に焦点を当てています。マップのセグメンテーションは、車線、横断歩道、走行可能エリアなど、純粋な BEV グリッドのセマンティクスを予測します。これらの作品は主にパースペクティブ ビュー (PV) から BEV への変換モジュールが異なります。ただし、セグメント化されたマップは、下流モジュールで使用される直接情報を提供できません。 HDMapNet は、複雑な後処理を使用してセグメンテーション マップをグループ化およびベクトル化することで、この問題に対処します。

高密度セグメンテーションはピクセルレベルの情報を提供しますが、重なり合う要素の複雑な関係にはまだ触れられません。 VectorMapNet は、車線の位置を順番にデコードするために粗いキーポイントを使用して、各マップ要素を点のシーケンスとして直接表現することを提案しています。 MapTR は、モデリングの曖昧さを排除し、パフォーマンスと効率を向上させるために、統一された順列ベースの点列モデリング アプローチを検討します。 PivotNet は、アンサンブル予測フレームワークでピボットベースの表現を使用してマップ要素をさらにモデル化し、冗長性を削減し、精度を向上させます。 StreamMapNet は、マルチポイント アテンションと時間情報を利用して、リモート マップ要素検出の安定性を向上させます。実際、ベクトル化によって車線の方向情報も強化されるため、ベクトル化ベースの方法は、交互の監視を通じて中心線の認識に簡単に適応できます。この研究では、道路上のすべての HD マップ要素に対して、統一された学習しやすい表現 (車線セグメンテーション) を提案します。

LaneSegNet の詳細な説明

車線セグメント認識タスクの説明

車線セグメントのインスタンスには、道路の幾何学的側面と意味論的な側面が含まれています。ジオメトリに関しては、ベクトル化された中心線とそれに対応する車線境界から構成される線分として表すことができます。各ラインは、3D 空間内の順序付けられた点の集合として定義されます。あるいは、ジオメトリは、その車線内の運転可能エリアを定義する閉じた多角形として記述することもできます。

セマンティクスの観点からは、車線セグメント カテゴリ C (例: 車線セグメント、横断歩道) と左右の車線境界線のスタイル (例: 非表示、実線、破線) が含まれます。{} 。これらの詳細は、自動運転車に減速要件と車線変更の実現可能性に関する重要な洞察を提供します。

さらに、トポロジ情報はパス計画において重要な役割を果たします。この情報を表すために、車線セグメントに対して車線グラフが構築され、G = (V, E) として表されます。各車線セグメントは、集合 V で表されるグラフ内のノードであり、集合 E のエッジは車線セグメント間の接続を表します。このレーン グラフを保存するには隣接行列を使用します。行列要素 (i, j) は、j 番目のレーン セグメントが i 番目のレーン セグメントに続く場合にのみ 1 に設定され、それ以外の場合は 0 のままです。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

LaneSegNet フレームワーク

LaneSegNet の全体的なフレームワークを図 2 に示します。 LaneSegNet は、特定の BEV 範囲内の車線セグメントを認識するためにサラウンド画像を入力として受け取ります。このセクションでは、最初に、BEV 特徴を生成するために使用される LaneSeg エンコーダーを簡単に紹介します。次に、レーン セグメンテーション デコーダーとレーン アテンションを導入します。最後に、トレーニング損失とともにレーン セグメンテーション予測子を提案します。

車線セグメント エンコーダ

エンコーダは、車線セグメント抽出のためにサラウンド画像を BEV 特徴に変換します。標準の ResNet-50 バックボーンを利用して、生の画像から特徴マップを導き出します。次に、BEVFormer を使用した PV から BEV へのエンコーダ モジュールがビュー変換に使用されます。

LaneSeg Decoder

トランスフォーマーベースの検出方法では、デコーダーを利用して BEV 特徴から特徴を収集し、複数のレイヤーを通じてデコーダー クエリを更新します。各デコーダ層は、セルフ アテンション、クロス アテンション メカニズム、およびフィードフォワード ネットワークを利用してクエリを更新します。さらに、学習可能な位置クエリが採用されています。更新されたクエリは出力され、次のステージに供給されます。

複雑で細長い地図の形状のため、オンライン マッピング タスクでは長距離の BEV 特徴を収集することが重要です。以前の研究では、階層 (インスタンス ポイント) デコーダ クエリと変形可能なアテンションを利用して、各ポイント クエリの局所特徴を抽出しました。このアプローチでは長距離の情報の取得は回避されますが、クエリの数が増加するため、計算コストが高くなります。

レーン セグメントは、シーン グラフを構築するためのレーン インスタンス表現として、インスタンス レベルで優れた特性を備えています。私たちの目標は、マルチポイント クエリを使用することではなく、単一インスタンス クエリを使用して車線セグメントを表すことです。したがって、中心的な課題は、単一インスタンスのクエリを使用してグローバル BEV 機能に集中する方法です。

レーン アテンション : ターゲット検出では、変形可能なアテンションはターゲットの前の位置を使用し、ターゲット参照点に近いアテンション値のごく一部にのみ焦点を当てます。フィルターを使用すると、収束が高速化され、大幅に改善されます。レイヤーの反復中、参照点は予測ターゲットの中心に配置され、アテンション値のサンプリング位置が調整されます。アテンション値は、学習可能なサンプリング オフセットを介して参照点の周囲に分散されます。サンプル オフセットの意図的な初期化には、2D ターゲットに先行するジオメトリが含まれます。こうすることで、図 3a に示すように、多分岐機構は各方向の特性をうまく捉えることができます。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

地図学習のコンテキストにおいて、Li らは単純な変形可能な注意を使用して中心線を予測しました。ただし、図 3b に示すように、基準点の配置が単純であるため、単一範囲の注意を獲得できない可能性があります。さらに、ターゲットの細長い形状と複雑な視覚的手がかり (実線と破線の間のブレークポイントを正確に予測するなど) のため、このプロセスではタスクに追加の適応設計が必要です。これらすべての特性を考慮すると、ネットワークには、長距離のコンテキスト情報に注意を払うだけでなく、ローカルの詳細を正確に抽出する機能が必要です。したがって、遠距離の情報を効果的に認識するには、サンプリング位置を広いエリアに分散させることが推奨されます。一方、重要なポイントを特定するには、局所的な詳細を簡単に区別できる必要があります。単一のアテンション ヘッド内の値特徴間には競合関係がありますが、異なるヘッド間の値特徴はアテンション プロセス中に保持される可能性があることは注目に値します。したがって、この特性を明示的に利用して、特定の地域の局所的な特徴への注目を促進することが期待されます。

この目的のために、この記事ではヘッドから地域へのメカニズムを確立することを提案します。まず、車線セグメント エリア内に複数の参照ポイントを均等に配置します。次に、サンプリング位置がローカル エリア内の各参照点の周囲で初期化されます。複雑な局所的な詳細を保存するために、図 3c に示すように、各ヘッドが局所領域内の特定のサンプリング位置セットに焦点を当てるマルチブランチ メカニズムを使用します。

車線注意モジュールの数学的説明が提供されます。 BEV 特徴、i 番目のレーン セグメント クエリ特徴 qi、および入力としての参照点 pi のセットを指定すると、レーン アテンションは次のように計算されます。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

同じ初期化参照ポイント: Ref. ポイントの位置は、車線注意モジュールの機能を決定する要素です。各インスタンス クエリの対象領域を実際のジオメトリおよび位置に合わせるために、図 3c に示すように、各インスタンス クエリの参照点 p は前のレイヤーの車線セグメント予測に基づいて分散されます。そして繰り返し予測を改良します。

以前の研究では、最初の層に提供される参照ポイントは、位置クエリの埋め込みから導出された学習可能な事前確率で個別に初期化されるべきであると主張しました。ただし、位置クエリは入力画像から独立しているため、この初期化方法では、幾何学的な事前分布と位置事前分布を記憶するモデルの能力が制限される可能性があり、誤って生成された初期化位置がトレーニングに障害を引き起こす可能性もあります。

したがって、レーン セグメント デコーダーの最初の層に対して、同じ初期化戦略を提案します。最初の層では、各ヘッドは位置クエリによって生成された同じ参照点を取得します。従来の方法での参照点の分散初期化 (クエリごとに複数の参照点を初期化する) と比較して、同じ初期化により、複雑なジオメトリの干渉が除去されるため、位置事前分布の学習がより安定します。同じ初期化は直観に反しているように見えるかもしれませんが、動作することが観察されていることに注意してください。

レーンセグメント予測器

複数の予測ブランチで MLP を使用して、幾何学的、意味論的、およびトポロジー的な側面を考慮して、レーン セグメント クエリから最終的な予測レーン セグメントを生成します。 。

ジオメトリについては、まず、3 次元座標における中心線のベクトル化された点の位置を回帰する中心線回帰ブランチを設計しました。出力形式は次のとおりです。左右の車線境界が対称であるため、オフセットを予測するためにオフセット分岐を導入します。その形式は次のとおりです。したがって、左右の車線境界座標は次のように計算できます。

車線セグメントが走行可能なエリアとして概念化できると仮定して、インスタンス セグメンテーション ブランチを予測子に統合します。セマンティクスの観点からは、3 つの分類ブランチが C の分類スコアと C のスコアを並行して予測します。トポロジカル ブランチは、更新されたクエリ特徴を入力として受け取り、MLP を使用してレーン グラフ G の重み付き隣接行列を出力します。

トレーニング損失

LaneSegNet は DETR のようなパラダイムを採用し、ハンガリーのアルゴリズムを使用して予測とグラウンド トゥルース間の 1 対 1 の最適な割り当てを効率的に計算します。次に、分布結果に基づいてトレーニング損失が計算されます。損失関数は、幾何学的損失、分類損失、車線分類損失、トポロジカル損失の 4 つの部分で構成されます。

幾何学的損失は、予測された各車線セグメントの幾何学的構造を監視します。バイナリ マッチングの結果に従って、GT レーン セグメントが予測されたベクトル化された各レーン セグメントに割り当てられます。ベクトル化された幾何学的損失は、割り当てられた車線セグメントのペア間で計算されたマンハッタン距離として定義されます。

実験結果

主な実験構造

車線セグメントの認識: 表 1 では、新しく導入されたレーン セグメント対応ベンチマークで、LaneSegNet をいくつかの最先端のメソッド MapTR、MapTRv2、TopoNet と比較します。車線セグメント ラベルを使用してモデルを再トレーニングします。 LaneSegNet は、mAP において他の方法よりも最大 9.6% 優れたパフォーマンスを発揮し、平均距離誤差は相対的に 12.5% 減少します。 LaneSegNet-mini は、16.2 という高い FPS で以前の方法よりも優れたパフォーマンスを発揮します。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

定性的な結果を図 4 に示します。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

マップ要素の検出: 順序より公平な比較を行うために、LaneSegNet の予測車線セグメントを車線のペアに分解し、地図要素検出メトリクスを使用した最先端の方法と比較します。私たちは、分解された車線と横断歩道のラベルをいくつかの最先端の方法に入力して再トレーニングします。実験結果を表 2 に示します。これは、LaneSegNet がマップ要素検出タスクにおいて常に他の方法よりも優れていることを示しています。公平に比較​​すると、LaneSegNet は追加の監視により道路形状をより適切に復元します。これは、車線セグメント学習表現が道路の幾何学的情報の捕捉に優れていることを示しています。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

中心線認識: 表 3 では、LaneSegNet と最先端の中心線認識方法も比較しています。一貫性を保つために、再トレーニングのために中心線も車線セグメントから抽出されます。車線マップ認識タスクにおける LaneSegNet のパフォーマンスは、他の方法よりも大幅に高いと結論付けることができます。追加の地理的監視により、LaneSegNet は優れたトポロジ推論機能も実証します。推論能力は、強力な測位能力と検出能力に密接に関係していることが証明されています。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習

アブレーション実験

レーン セグメント式: 表 4 では、提案したレーン セグメント学習式設計の利点を検証するためにアブレーションを提供します。そしてトレーニングの効率化。最初の 2 行で個別にトレーニングされたモデルと比較して、中心線とマップ要素の共同トレーニングでは、行 4 に示すように 2 つの主要な指標で全体の平均 1.3 の改善がもたらされ、マルチタスク トレーニングの実現可能性が示されています。ただし、カテゴリを追加して単一のブランチで中心線とマップ要素をトレーニングする一般的なアプローチでは、パフォーマンスが大幅に低下します。上記の単純な単一分岐方法と比較して、車線セグメント ラベルを使用してトレーニングされたモデルは大幅なパフォーマンスの向上 (行 3 と行 5 の間の比較では、OLS で 7.2、mAP で 4.4) が得られ、マップ内のさまざまな道路情報間の正の相互作用が検証されます。学習定式化が実証されています。私たちのモデルは、特に中心線の認識(OLS 4.8)において、マルチブランチ手法よりも優れています。これは、マップ学習定式化において幾何学がトポロジカル推論を導くことができることを示しており、マルチブランチ モデルが CL のみのモデル (行 1 と 4 の間で 0.6 OLS) をわずかに上回るだけです。わずかな減少に関しては、これは予測結果の再形成プロセスから来ており、ライン分類のエラーによって引き起こされます。フォースモジュールアブレーションを表 5 に示します。公平な比較を容易にするために、フレームワーク内のレーン アテンション モジュールを別のアテンション デザインに置き換えます。慎重な設計により、レーン アテンションを備えた LaneSegNet はこれらの方法を大幅に上回り、大幅な改善を示しました (行 1 と比較して、mAP は 3.9 改善、TOPll は 1.2 改善)。さらに、階層クエリ設計と比較してクエリ数が減少するため、デコーダの遅延をさらに短縮できます (23.45 ミリ秒から 20.96 ミリ秒)。

ICLR24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習結論

この論文では、新しい地図学習公式として車線セグメント認識を提案し、この問題ネットワークに特化したエンドツーエンドのソリューションである LaneSegNet を提案します。ネットワークに加えて、長距離注意を捕捉するための頭部から領域へのメカニズムを採用する車線注意モジュールと、車線注意の位置を強化するための参照点の同じ初期化戦略を含む 2 つの革新的な機能強化が提案されています。学ぶ。 OpenLane-V2 データセットの実験結果は、私たちの設計の有効性を示しています。

制限と今後の課題

。計算上の制限のため、提案されている LaneSegNet をさらに追加のバックボーンに拡張することはしません。レーン セグメント認識と LaneSegNet の定式化は、下流のタスクに利益をもたらす可能性があり、将来的に検討する価値があります。

以上がICLR'24 写真なしの新しいアイデア! LaneSegNet: 車線セグメンテーション認識に基づく地図学習の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

ネットワークが Wi-Fi に接続できない場合は何が起こっているのでしょうか? ネットワークが Wi-Fi に接続できない場合は何が起こっているのでしょうか? Apr 03, 2024 pm 12:11 PM

1. Wi-Fi パスワードを確認します。入力した Wi-Fi パスワードが正しいことを確認し、大文字と小文字の区別に注意してください。 2. Wi-Fi が適切に動作しているかどうかを確認する: Wi-Fi ルーターが正常に動作しているかどうかを確認し、同じルーターに他のデバイスを接続して、デバイスに問題があるかどうかを判断できます。 3. デバイスとルーターを再起動します。デバイスまたはルーターに誤動作やネットワークの問題が発生する場合があり、デバイスとルーターを再起動すると問題が解決する場合があります。 4. デバイスの設定を確認します。デバイスのワイヤレス機能がオンになっていて、Wi-Fi 機能が無効になっていないことを確認します。

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

See all articles