最近、Google の AI 夜景撮影動画が話題になっています。
ビデオ内のテクノロジーは RawNeRF と呼ばれ、その名前が示すように、NeRF の新しい亜種です。
NeRF は、2D 画像情報をトレーニング データとして使用して 3D シーンを復元する、完全に接続されたニューラル ネットワークです。
RawNeRF は、以前の NeRF と比較して多くの改善が加えられています。ノイズを完全に低減するだけでなく、カメラの視点を変更し、フォーカス、露出、トーン マッピングを調整します。 Google によるこの論文は 2021 年 11 月に公開され、CVPR 2022 に含まれています。
プロジェクトアドレス: https://bmild.github.io/rawnerf/ #夜のRawNeRF
以前、NeRFはトーンマップされた低ダイナミックレンジLDR画像を入力として使用していました。Google の RawNeRF は、シーンのダイナミック レンジ全体を保持できる線形の RAW 画像を直接トレーニングします。
合成ビューの分野では、暗い写真の処理が常に問題となっています。
この場合、画像には最小限の詳細しか含まれていないためです。そして、これらの画像により、新しいビューをつなぎ合わせることが困難になります。
幸いなことに、元のセンサーのデータ (RAW センサー データ) を使用する新しいソリューションがあります。
こんな感じの写真なので、さらに詳しく。
しかし、ノイズが多すぎるという問題がまだあります。
したがって、詳細を減らしてノイズを減らすか、詳細を増やしてノイズを増やすか、選択する必要があります。
良いニュースは、画像ノイズ低減テクノロジーを使用できることです。
#ノイズリダクション後の画像効果は良好であることがわかりますが、合成ビューとなると、この品質はまだ十分ではありません。
しかし、画像ノイズ除去テクノロジーは、単一の画像のノイズを除去できるため、画像のグループのノイズを除去することもできるというアイデアを提供します。
RawNeRF の効果を見てみましょう。
そして、さらに驚くべき機能があります。基盤となるデータをトーン マッピングして、暗い画像から詳細を抽出します。
たとえば、画像の焦点を変更すると、大きな被写界深度効果が生まれます。
さらに驚くべきことは、これがリアルタイムであることです。
#さらに、焦点の変化に応じて画像の露出も変化します。
次に、RawNeRF の 5 つの古典的なアプリケーション シナリオを見てみましょう。
1. 画像の鮮明さ
この画像を見てください。道路標識の情報を見ますか?
RawNeRF 処理後、道路標識上の情報がより鮮明になっていることがわかります。
次のアニメーションでは、オリジナルの NeRF テクノロジーと RawNeRF の画像合成の違いがはっきりとわかります。
実際、いわゆる NeRF はそれほど古いテクノロジーではなく、まだ 2 年しか経っていません...
RawNeRF はハイライト処理で非常に優れたパフォーマンスを示しており、右下隅のナンバー プレートの周囲のハイライトの変化も確認できます。
#2. 鏡面ハイライト
鏡面ハイライトは、キャプチャするのが非常に難しいオブジェクトです。カメラを動かしながら撮影すると、写真の変化が大きくなり、写真間の相対的な距離が遠くなります。 これらの要素は、アルゴリズムを学習する上で大きな課題です。
下の写真からわかるように、RawNeRF によって生成された鏡面ハイライトはかなり復元されていると言えます。
#3. 薄い構造
明るい場所でも、以前の技術ではフェンスがうまく表示されませんでした。そして、RawNeRF は、フェンスがたくさんある夜の写真を処理でき、適切に保持できます。
フェンスがナンバープレートと重なっている場合でも、効果は非常に優れています。
#4. 鏡の反射
道路上の反射は、より挑戦的な鏡面ハイライト。ご覧のとおり、RawNeRF も非常に自然かつ現実的に処理します。
#5. フォーカスを変更し、露出を調整します
このシーンでは、視点を変更し、常にフォーカスを変更し、同時に露出を調整してみましょう。
以前は、これらのタスクを完了するには、25 ~ 200 枚の写真のコレクションが必要でした。
さあ、撮影を完了するには数秒しかかかりません。
もちろん、RawNeRF は現時点では完璧ではなく、左側の RawNeRF 画像と右側の実際の写真の間にはまだいくつかの違いがあることがわかります。
しかし、RAWnerf は、ノイズに満ちた一連のオリジナル画像から現在のエフェクトに至るまで、大幅な進歩を遂げました。ご存知のとおり、2 年前のテクノロジーではこれを行うことはまったくできませんでした。
簡単に説明すると、NeRF トレーニング パイプラインはカメラによって処理された LDR 画像を受け取り、その後のシーンの再構築とビューのレンダリングは LDR に基づいて行われます。色空間。したがって、NeRF の出力は実際には後処理されており、大幅な修正や編集は不可能です。
対照的に、RawNeRF は線形の生の HDR 入力データで直接トレーニングされます。結果として得られるレンダリングは、元の写真と同様に、フォーカスや露出などを変更して編集できます。
#これによってもたらされる主な利点は、HDR ビューの合成とノイズ リダクション処理の 2 点です。
明るさが極端に変化するシーンでは、固定シャッター速度ではダイナミック レンジ全体を捉えるのに十分ではありません。 RawNeRF モデルは、短時間露光と長時間露光の両方を同時に最適化し、ダイナミック レンジ全体を復元できます。
たとえば、(b) の光の比率が大きいシーンでは、暗い部分の詳細を保持するために、より複雑なローカル トーン マッピング アルゴリズム (HDR 後処理など) が必要です。アウトドアシーンも同時にハイライト。
さらに、RawNeRF は、線形カラーを使用して、正しく飽和した「ぼやけた」ハイライトを備えた合成デフォーカス効果をレンダリングすることもできます。
画像ノイズ処理に関して、著者は完全に未処理の HDR 線形オリジナル画像に対して RawNeRF をさらにトレーニングして、数十、場合によっては数百の入力画像を処理できます。
この種の堅牢性は、RawNeRF が暗闇の中でシーンを再構築するタスクを見事に完了できることを意味します。
たとえば、(a) 1 本のキャンドルだけで照らされたこの夜のシーンでは、RawNeRF は、後処理によって破壊されてしまうノイズの多い生データから詳細を抽出できます (b、c) )。
著者紹介
この論文の筆頭著者、Ben Mildenhall は Google の研究者です。コンピューター ビジョンとグラフィックスの問題に取り組む研究科学者。
彼は、2015 年にスタンフォード大学でコンピューター サイエンスと数学の学士号を取得し、カリフォルニア大学バークレー校でコンピューター サイエンスの博士号を取得しました。 2020年に。
終了したばかりの CVPR 2022 は、ベンのハイライトの瞬間と言えます。
受理された 7 件の論文のうち 5 件が口頭発表を受賞し、1 件は最優秀学生論文の佳作を受賞しました。
ネチズンのコメント動画が公開されるとすぐに、すべてのネチズンを驚かせました。みんなで一緒に楽しみましょう。
#
テクノロジーの進歩のスピードを見ると、そう遠くないうちに、夜間に写真を撮ることを心配する必要がなくなりました。了解~
以上がGoogle の驚異的な「暗視」カメラが突然人気になりました。完璧なノイズリダクションと 3D パースペクティブ合成の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。