


SOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案
ロボットに日常の物体を 3D で理解させることは、ロボット工学アプリケーションにおける大きな課題です。
未知の環境を探索する場合、オブジェクトの形状が多様であるため、既存のオブジェクトの姿勢推定方法では依然として満足のいくものではありません。
最近、浙江大学、バイトダンス人工知能研究所、香港中文大学の研究者が共同で、カテゴリレベルのオブジェクト形状の新しいフレームワークを提案しました。単一の RGB-D 画像からの姿勢推定。
文書アドレス: https://arxiv.org/abs/2210.01112
##プロジェクトリンク: https://zju3dv.github.io/gCasp#カテゴリ内のオブジェクトの形状変化を処理するには、研究者 意味論的なプリミティブ表現を採用して、さまざまな形状を統一された潜在空間にエンコードするこの表現は、観察された点群と推定された形状
の間に信頼できる対応関係を確立する鍵となります。次に、剛体相似変換に対して不変である
形状記述子を設計することにより、オブジェクトの形状と姿勢の推定が切り離され、それによってあらゆる姿勢がサポートされます。ターゲットオブジェクトの形状の最適化。実験により、提案された方法が公開データセットで最高の姿勢推定パフォーマンス を達成することが示されています。 研究背景
ロボットの認知・操作分野において、日常物体の形状や姿勢を推定することは基本的な機能であり、3Dを含むさまざまな応用が可能です。現場の理解、ロボット操作、自律倉庫保管。このタスクの初期の作業は、インスタンス レベルの姿勢推定に主に焦点を当てていました。これは主に、観察されたオブジェクトを特定の CAD モデルと位置合わせすることによってオブジェクトの姿勢を取得します。
ただし、特定のオブジェクトの正確なモデルを事前に取得するのは難しいため、このようなセットアップは現実のシナリオでは限定されます。
目に見えないが意味的によく知られたオブジェクトを一般化するために、カテゴリレベルのオブジェクト姿勢推定は、シーン内の同じカテゴリの実際のさまざまなインスタンスを潜在的に処理できるため、研究の注目が高まっています。
#既存のクラスレベルの姿勢推定方法は、通常、クラス内のインスタンスのピクセルレベルで正規化された座標を予測しようとするか、変形された座標を使用します。オブジェクトの姿勢を推定するための以前のモデル。
これらの研究は大きく進歩しましたが、同じカテゴリ内に大きな形状の違いがある場合、これらのワンショット予測方法は依然として困難に直面しています。
同じカテゴリ内のオブジェクトの多様性を処理するために、一部の作品では、ニューラル暗黙的表現を利用して、暗黙的表現でポーズと形状を繰り返し最適化することで、ターゲット オブジェクトの形状に適応します。スペースが広くなり、より良いパフォーマンスが得られました。
カテゴリ レベルのオブジェクトの姿勢推定には 2 つの主な課題があります。1 つはクラス内の大きな形状の違いであり、もう 1 つは形状と姿勢を結合する既存の手法です。より複雑な最適化問題を簡単に引き起こす可能性があります。
この論文では、研究者は、剛体相似変換に対して不変である形状記述子を設計することにより、オブジェクトの形状と姿勢の推定を分離し、それによって任意の姿勢をサポートしますターゲット オブジェクトの暗黙的な形状最適化。最後に、推定された形状と観測値の間の意味的な関連に基づいて、オブジェクトのスケールと姿勢が解決されます。
アルゴリズムの紹介
アルゴリズムは、意味プリミティブ抽出
、生成形状推定、およびの 3 つのモジュールで構成されます。オブジェクトの姿勢推定。
アルゴリズムの入力は単一の RGB-D 画像です。アルゴリズムは、事前トレーニングされたマスク R-CNN を使用して、RGB 画像のセマンティック セグメンテーションの結果を取得し、その点群を逆投影します。各オブジェクトはカメラの内部パラメータに基づいています。この手法は主に点群を処理し、最終的に各オブジェクトのスケールと 6DoF 姿勢を取得します。
セマンティックプリミティブ抽出
DualSDF[1] は、類似オブジェクトのセマンティックプリミティブの表現方法を提案しています。以下の図の左側に示すように、同じ種類のオブジェクトでは、各インスタンスは特定の数のセマンティック プリミティブに分割され、各プリミティブのラベルは特定の種類のオブジェクトの特定の部分に対応します。
観測点群からオブジェクトのセマンティック プリミティブを抽出するために、著者は点群セグメンテーション ネットワークを利用して、観測点群をラベル付きのセマンティック プリミティブにセグメント化します。
#生成形状推定
3D 生成モデル (DeepSDF など)ほとんどの場合、正規化された座標系で動作します。
ただし、現実世界の観察におけるオブジェクトと正規化された座標系の間には、同様の姿勢変換 (回転、平行移動、スケール) が発生します。
姿勢が不明な場合に現在の観察に対応する正規化された形状を解決するために、著者は意味論的なプリミティブ表現に基づいた同様の変換に対して不変な形状記述子を提案します。
#この記述子は次の図に示されており、さまざまなプリミティブで構成されるベクトル間の角度を記述します。
##著者は、この記述子を使用して現在の観測値と推定形状の間の誤差を測定し、勾配降下法を使用して推定形状と観測値の一貫性を高めます。そのプロセスを次の図に示します。
著者は、さらに形状最適化の例も示しています。
姿勢推定
最後に、点群を観察し、形状間の意味論的な起源を解決します。著者は、言語対応関係に基づいて、梅山アルゴリズムを使用して、観察された形状の姿勢を解決します。
#実験結果
同時に、著者は、NOCS が提供するトレーニング セットでトレーニングする必要があるパラメータの量も比較しました。著者は、目標に到達するには、少なくとも 230 万のパラメータが必要です。最先端レベル。
以上がSOTA を超えるために必要なパラメーターはわずか 10% です。浙江大学、Byte、Hong Kong Chinese が共同で「カテゴリレベルの姿勢推定」タスクの新しいフレームワークを提案の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングル カードを使用して Llama を実行すると、スループットはデュアル カードのスループットの 2.65 倍になります。 1つ
