オープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定!
0.この記事は何をするのですか?
提案された DepthFM: 多用途かつ高速な最先端の生成単眼深度推定モデル 。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。
この作品を一緒に読みましょう~
1. 論文情報
タイトル: DepthFM: フローマッチングによる高速単眼深度推定
著者: Ming Gui、Johannes S. Fischer、Ulrich Prestel、Pingchuan Ma、Dmytrokotovenko、Olga Grebenkova、Stefan Andreas Baumann、Vincent Tao Hu、Björn Ommer
機関: MCML
元のリンク: https://arxiv.org/abs/2403.13788
コードリンク: https://github.com/CompVis/ Depth-fm
公式ホームページ: https:// Depthfm.github .io/
2. 要約
は、下流の観光タスクやアプリケーションの多くにとって重要です。この問題に対する現在の識別方法は不鮮明なアーティファクトによって制限されていますが、最先端の生成方法は SDE の性質によりトレーニング サンプル速度が遅いという問題があります。ノイズから始めるのではなく、入力画像から深度画像への直接マッピングを求めます。解空間内の直線軌道が効率と高品質を提供するため、これはフロー マッチングによって効率的に構築できることがわかりました。私たちの研究は、事前トレーニングされた画像拡散モデルがフローマッチングの深いモデルのための十分な事前知識として使用できることを示しています。複雑な自然シーンのベンチマークでは、私たちの軽量アプローチは、少量の合成データのみでトレーニングされているにもかかわらず、有利な低計算コストで最先端のパフォーマンスを実証します。
3. 効果のデモ
DepthFM は、強力なゼロサンプル汎化機能を備えた高速推論フロー マッチング モデルで、強力な事前知識を利用でき、非常に使いやすいです。 . 未知の実像に簡単に一般化できます。合成データでトレーニングした後、モデルは未知の実際の画像に対して適切に一般化され、深度画像と正確に一致します。
他の最先端のモデルと比較して、DepthFM は 1 回の関数評価のみで非常に鮮明な画像を取得します。 Marigold の深度推定には DethFM の 2 倍の時間がかかりますが、同じ粒度で深度マップを生成することはできません。
4. 主な貢献
(1) 最先端の多機能高速単眼鏡DepthFMの提案深度推定モデル。従来の深度推定タスクに加えて、DepthFM は、深度修復や深度条件付き画像合成などの下流タスクでも最先端の機能を実証します。
(2) は、トレーニング データにほとんど依存せず、実世界の画像を必要とせずに、拡散モデルからフロー マッチング モデルへの強力な画像事前分布の転送が成功したことを示しています。
(3) は、フロー マッチング モデルが効率的であり、単一の推論ステップ内で深度マップを合成できることを示しています。
(4) DepthFM は合成データのみでトレーニングされているにもかかわらず、ベンチマーク データセットと自然画像で良好なパフォーマンスを発揮します。
(5) 表面法線損失を補助ターゲットとして使用して、より正確な深度推定を取得します。
(6) 深さの推定に加えて、その予測の信頼性も確実に予測できます。
5. 具体的な原則は何ですか?
トレーニング パイプライン。 トレーニングは、フロー マッチングと表面法線損失によって制限されます。フロー マッチングの場合、データ依存のフロー マッチングを使用して、グラウンド トゥルースの深さと対応する画像の間のベクトル フィールドを回帰します。さらに、表面法線の損失によって幾何学的なリアリズムが実現されます。
データ関連のフロー マッチング: DepthFM は、画像と深度のペアを利用して、画像分布と深度分布の間の直線ベクトル場を回帰します。このアプローチにより、パフォーマンスを犠牲にすることなく、効率的な複数ステップの推論が促進されます。
拡散事前分布からの微調整: 著者らは、強力な画像事前分布を基本画像合成拡散モデル (安定拡散 v2-1) からフロー マッチング モデルにほとんど変換せずに転送することに成功したことを実証します。依存関係トレーニング データを使用するため、現実世界の画像は必要ありません。
補助表面法線損失: DepthFM が合成データでのみトレーニングされていることを考慮すると、ほとんどの合成データ セットはグラウンド トゥルースの表面法線を提供し、表面法線損失は補助ターゲットとして使用されます。 DepthFM 深度推定の精度を向上させます。
6. Результаты экспериментов
DepthFM демонстрирует значительную способность к обобщению, обучаясь только на 63 тысячах чисто синтетических образцов, и может выполнять обучение нулевого уровня на наборах данных внутри и снаружи. Оценка глубины выстрела. В таблице 1 качественно показано сравнение производительности DepthFM с соответствующими современными моделями. В то время как другие модели часто полагаются на большие наборы данных для обучения, DepthFM использует богатые знания, присущие базовой модели, основанной на диффузии. Этот метод не только экономит вычислительные ресурсы, но и подчеркивает адаптивность и эффективность обучения модели.
Сравнение оценки глубины Marigold на основе диффузии, эталонного теста Flow Matching (FM) и модели DepthFM. Каждый метод оценивается с использованием только одного члена ансамбля и с различным количеством оценок функций (NFE) на двух общих эталонных наборах данных. По сравнению с базовой линией FM, DepthFM объединяет нормальные потери и связь, зависящую от данных во время обучения.
Качественные результаты для моделей Marigold и DepthFM при различном количестве функциональных оценок. Стоит отметить, что Marigold не дает никаких значимых результатов посредством одношагового вывода, в то время как результаты DepthFM уже показывают реальную карту глубины.
Выполните глубокое завершение в Hypersim. Слева: придание глубины. Средняя: Глубина оценивается на основе заданной частичной глубины. Справа: Истинная глубина.
#7.Резюме
DepthFM, метод сопоставления потоков для монокулярной оценки глубины. Путем изучения прямого сопоставления между входным изображением и глубиной, а не шумоподавления нормального распределения в карте глубины, этот подход значительно более эффективен, чем текущие решения на основе диффузии, но при этом обеспечивает мелкозернистые карты глубины без общих артефактов дискриминационной парадигмы. . DepthFM использует предварительно обученную модель диффузии изображения в качестве априорной, эффективно передавая ее в модель сопоставления глубокого потока. Таким образом, DepthFM обучается только на синтетических данных, но при этом хорошо обобщает естественные изображения во время вывода. Кроме того, было показано, что нормальные потери на вспомогательной поверхности улучшают оценку глубины. Облегченный подход DepthFM является конкурентоспособным, быстрым и обеспечивает надежные достоверные оценки.
Читатели, которых интересуют дополнительные экспериментальные результаты и подробности статьи, могут прочитать оригинальную статью
以上がオープンソース!ゾーイデプスを超えて! DepthFM: 高速かつ正確な単眼深度推定!の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック

DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

何?ズートピアは国産AIによって実現するのか?ビデオとともに公開されたのは、「Keling」と呼ばれる新しい大規模な国産ビデオ生成モデルです。 Sora も同様の技術的ルートを使用し、自社開発の技術革新を多数組み合わせて、大きく合理的な動きをするだけでなく、物理世界の特性をシミュレートし、強力な概念的結合能力と想像力を備えたビデオを制作します。データによると、Keling は、最大 1080p の解像度で 30fps で最大 2 分の超長時間ビデオの生成をサポートし、複数のアスペクト比をサポートします。もう 1 つの重要な点は、Keling は研究所が公開したデモやビデオ結果のデモンストレーションではなく、ショートビデオ分野のリーダーである Kuaishou が立ち上げた製品レベルのアプリケーションであるということです。さらに、主な焦点は実用的であり、白紙小切手を書かず、リリースされたらすぐにオンラインに移行することです。Ke Ling の大型モデルは Kuaiying でリリースされました。

最近、軍事界は、米軍戦闘機が AI を使用して完全自動空戦を完了できるようになったというニュースに圧倒されました。そう、つい最近、米軍のAI戦闘機が初めて公開され、その謎が明らかになりました。この戦闘機の正式名称は可変安定性飛行シミュレーター試験機(VISTA)で、アメリカ空軍長官が自ら飛行させ、一対一の空戦をシミュレートした。 5 月 2 日、フランク ケンダル米国空軍長官は X-62AVISTA でエドワーズ空軍基地を離陸しました。1 時間の飛行中、すべての飛行動作が AI によって自律的に完了されたことに注目してください。ケンダル氏は「過去数十年にわたり、私たちは自律型空対空戦闘の無限の可能性について考えてきたが、それは常に手の届かないものだと思われてきた」と語った。しかし今では、
