文化財を「生きた」ものにする、火山エンジンビデオクラウド3D復元技術が明らかに-AI-php.cn

三次元再構成技術には通常、データ収集

チームは、

これに関して、

ダイナミック 3D メッシュデータ (ダイナミックメッシュ) は、動的なキャラクターやシーンを表現できますが、高品質なダイナミック 3D メッシュを再構築し、新しくレンダリングされた画像を写真のようにリアルにする方法は難しい問題です。。

ホームページ

テクノロジー周辺機器

文化財を「生きた」ものにする、火山エンジンビデオクラウド3D復元技術が明らかに

王林

Jun 03, 2023 am 11:44 AM

三次元再構築

文化財を「生きた」ものにする、火山エンジンビデオクラウド3D復元技術が明らかに

中国には長い歴史と奥深い文化遺産があり、数多くの文物があり、先代の知恵の結晶である文物は資料としての価値が高く、明らか。古書は中国文明を記録する重要な媒体であり、今日まで受け継がれている貴重な文化遺産であり、文物保護は長期にわたる重要な基礎事業でもある。全国の 2,800 以上の図書館が 5,000 万冊以上の古書籍を収集しており、その 3 分の 1 はさまざまな程度で損傷しています。現在の文化財修復スタッフの数によると、コレクション内のすべての文化遺物を修復するには数百年かかります。

「古書に関する旅行記」は、バイトダンスと 中国第一歴史資料館、敦煌研究所、甘粛省伝票博物館、国立図書館 (国立古典図書博物館) が共同で作成したものです。書籍活性化プロジェクト、古代文書の 4 つの主要な発見を修復します。殷遺跡の甲骨、寿岩漢竹簡、敦煌の遺書、明と清のアーカイブです, allowデジタル化される古書「生きる」。

このプロジェクトは VR インタラクティブドキュメンタリーを中心としており、

火山エンジンマルチメディア研究所 の最新の 三次元再構築技術 を利用して、オフラインの文化遺物を PICO に再現しています。また、自社開発のライトフィールドビデオテクノロジーを適用して、動的なキャラクターのライトフィールド情報を収集して鮮明に復元し、VR シーンでの高い自由度の表示とインタラクティブな体験を提供します。これらのドキュメンタリーでは、視聴者は PICO、Douyin 裸眼 VR、その他の方法を使用して、家から出ることなく時間と空間を旅行したり、歴史的出来事に個人的に参加したり、古代の書籍に親しんで鑑賞したりすることができます。

この記事は、火山エンジンマルチメディア研究室の 3 次元再構成技術と、ライトフィールドビデオ技術の原理、進歩、応用分野に焦点を当て、すべての人が 3 次元再構成技術をよりよく理解し、役立つようにすることを目的としています。実際に実装される関連技術、製品およびアプリケーション。

1. 技術的な課題と困難

文化財のデジタル化には、文化財の三次元復元とデジタル復元が必要ですが、同時に、三次元的な復元にも大きな課題を突きつけています。次元復元技術：

文化遺物は形状が複雑で、特定の素材を使用していることが多く、特に古文書の文化遺物は、多くの場合、非常に薄い文化遺物をどのように復元するかが復元の難しい点です。拡散反射、鏡面反射、半透明などの複雑なマテリアルの復元や微細な表面の再構成など、文化財をいかにリアリティ高く再現し、リアルな質感を表現するかが技術的な課題となっています。洞窟の場合このような文化遺物は一定の空間に収集・再構築する必要があり、純粋に視覚的な手法を用いて洞窟内を歩き回り、収集し、完全に再構築する方法がこのプロジェクトの難しさです;
博物館の文化をより良く実現するために歴史的場面のオンライン復元を促進・実現するには、動的な人物や場面の高忠実度復元が必要ですが、現状の動的な人物や場面の高忠実度復元には、完全で忠実な再現が不足しています。効果的な解決策。
2. 3 次元再構築技術の紹介

3 次元再構築は、コンピュータ支援幾何学設計 (CAGD)、コンピュータグラフィックス (CG)、コンピュータアニメーション、コンピュータビジョン、医用画像処理、科学コンピューティング、仮想現実、デジタルメディア作成などの分野における共通の科学的問題とコアテクノロジー。

三次元再構成技術には通常、データ収集

、前処理、点群スプライシング、特徴解析、メッシュとテクスチャの生成などのステップが含まれます。従来の 3 次元再構成では、視覚またはマルチモダリティ (レーザーなどの深度データ) に基づいて画像の 3 次元情報を再構成するプロセスを使用し、静的なオブジェクトやシーンをモデル化できます。 ## しかし、動的なオブジェクトとシーンのモデリングのための効果的な全体的なソリューションが不足しています。

火山エンジンマルチメディア研究所は、オブジェクト再構成技術、シーン再構成技術、およびライトフィールドビデオ技術を自社開発しており、静的オブジェクトの高忠実度の形式を構築し、その複雑なマテリアルを復元できます。都市、公園、住宅空間などを含む大規模なシーンを効果的にモデル化できることは、デジタルツインの重要な基盤であり、高度なライトフィールドビデオ技術を使用して、動的なオブジェクトや動的なシーンを再構築および再現して、オン/オフを実現できます。完全な技術ソリューションを備えた視聴とライブブロードキャストの需要に応えます。

2.1 物体復元技術: 文化遺物の保護と正確なスキャンの両方が必要です「古書紀行」プロジェクトにおいて、火山エンジンマルチメディア研究室は、文化財のデジタル修復を行ってきました。 40以上の文化遺産。文化財のデジタル修復では、まず文化財を保護する必要があり、一般的に使われている高精度レーザー装置では文化財のスキャンができないなど、収集機材に一定の制限があることが課題となります。これにより、

火山エンジンマルチメディア研究所

チームは、

ビジョンベースの手法を使用して文化遺物の三次元復元

を行うことになりました。

しかし、従来の視覚ベースの再構成手法では、テクスチャーの弱い物体を扱うことができず、複雑な形状の物品 (細長いスリッパ、平らな甲骨など) を再構成することも困難です。この目的を達成するために、Signed Distance Fields (略して SDF) の技術ソリューションを使用して 3 次元オブジェクトを表現し、ディープラーニング の手法を使用して上記の再構築を克服します。困難。 SDF は空間上の各点から物体までの方向距離を表す暗黙的な表現であり、2 次元 SDF の模式図は以下のとおりです。

SDF 図

SDF に正確に適合するようにニューラルネットワークを管理する方法を研究する必要がある問題。 まず、Structure from Motion (SfM) アルゴリズムを使用して、キャプチャされた画像のカメラ姿勢を正確に計算します。カメラ姿勢では、SDF によって表される空間情報が微分可能レンダリング手法を使用して画像上にレンダリングされ、レンダリングされた画像とその視点から収集された画像が比較され、SDF のパフォーマンスを向上させるためにニューラルネットワークが継続的に最適化されます。レンダリング結果は、実際にキャプチャされた画像と可能な限り一致します。

再構成の精度をさらに向上させるために、SDF を最適化する際に、スパース再構成によって取得された 3 次元点が制約として追加されます。これにより、オブジェクトの詳細な特徴をより適切に復元できます。完全な再構成の目的を達成するために、火山エンジンマルチメディア研究所は、セグメンテーションアルゴリズムと再構成アルゴリズムを組み合わせて、オブジェクトの下部領域を効果的に再構成します。

スキャンプロセス中、対象物を特定の位置に固定する必要があるため、対象物の底面から画像を収集することはできません。オブジェクトの完全な再構成は、オブジェクトの底部の再構成の問題を解決することであり、通常の方法は、サスペンション法またはマルチセグメント再構成と後処理スプライシングです。吊り下げ方法は文化財にとって安全性が十分ではなく、接合後の処理プロセスは時間がかかり、自動化できません。この目的を達成するために、火山エンジンマルチメディア研究所は、再構成アルゴリズムに自動画像セグメンテーションを追加しました。これにより、順方向ショットと逆方向ショットから取得したデータを統合して一緒に再構成し、完全な再構成結果を直接取得できます。以下に示すように、完全な再構成の結果を比較します。

#完全な再構成技術を使用しない結果のモデリング

完全な再構成技術を使用した結果のモデリング
ハイライトはオブジェクト再構成の大きな課題ですが、一方で、ハイライトは特徴点のマッチングに影響を及ぼし、カメラのポーズが不正確になります。別のハイライトも、異なる視野角間の観察結果の一貫性を破壊し、再構成に干渉を引き起こします。このため、
Volcano Engine Multimedia Laboratory では、大量のハイライトを効果的に除去できる、偏光を利用したハイライト除去方法をまとめました。

#ハイライトを削除する前に

##ハイライトを除去した後

火山エンジンマルチメディア研究所の方法では、さまざまなオブジェクトの 反射/屈折特性をシミュレートして、特殊なマテリアルの構築を実現することもできます。モデル
,
文化財復元の結果を下図に示します。

文化財の原画

# #文化財復元結果

#
四大博物館の文化財の中には貴重な紙や竹簡などもあり、これらの文化財も展示棚からの取り出しや収集が困難です。この状況に対応して、ボルケーノエンジンマルチメディア研究所は、偏光子を組み込んだ収集装置を自社開発しました。これにより、迷光、ハイライト、およびガラスの陳列キャビネットによって引き起こされる反射の問題を排除し、ガラスの層を確保することができます。保護殻の状態であっても、文化財はスキャンされ、高い忠実度で再構築されます。

#ガラス展示キャビネットの文化財

文化遺物復元結果
さらに、火山エンジンマルチメディア研究所のオブジェクト復元技術には、
正確な姿勢推定、リアルなテクスチャも含まれています ( 拡散反射、鏡面反射、半透明 ) 複雑なマテリアルの復元や微細な表面の再構成も「これは、貴重な文化遺物の忠実度の高い 1:1 修復を実現し、それらをデジタルリソースに変換するために、「古代書籍の旅ノート」プロジェクトで使用され、観客が博物館に「没入」し、コレクションの人気を高めることができます。。
火山エンジンマルチメディア研究所の物体復元技術は普遍性が高く、文化財だけでなく一般の物体にも適用でき、従来の復元では処理が困難な一部の物体にも適しています。非常に薄いブレードなどのオブジェクトなどでも、良好な再構成結果を得ることができます。

上: ナイフや木の棒などの小道具、下: e コマースアイテム
# # 2.2 自己構築のシーン再構成アルゴリズム: より高い効率、より高い精度
シーンの再構成は、コンピュータービジョンと写真測量における重要な研究テーマであり、スマートシティ、仮想現実、デジタルナビゲーション、デジタル遺産保護にも当てはまります。重要な用途があります。視覚による三次元再構成は、取得効率が高く、取得コストが低く、精度の上限が高く、幅広いシーンに適応できるという利点があり、他のスキャン機器によるシーンへの不要な損傷も回避できますが、アルゴリズムレベルで多くの課題に直面しています。
これに関して、

Volcano Engine Multimedia Laboratory は、AI テクノロジーとマルチビュージオメトリの基本原理を組み合わせて、高度で堅牢で正確かつ完全な視覚再構成アルゴリズムフレームワークを構築します。再構成プロセスは、画像処理、点群の最適化、およびメッシュ再構成の 3 つの主要なステップで構成されます。火山エンジンマルチメディア研究所は、高度な人工知能技術を使用して、
ノイズ除去、超解像度
、画像の特徴抽出とマッチングを行っています。およびその他の処理
により、従来の方法の多くの制限が克服されます。次に、SfM アルゴリズムとバンドル調整 (BA) を使用して、画像からまばらな幾何学的構造とカメラパラメーターを抽出します。同時に、チームは、高精度、マルチモーダルを実現するために、パノラマカメラ、マルチカメラグループ、RGBD カメラ、LIDAR、GPS/IMU などのマルチセンサーデータ入力をサポートする姿勢推定アルゴリズムを開発しました。、適応的スパース再構成。大規模なデータを処理するために、チームは分散クラスターの並列再構築を実現するブロック再構築およびマップ結合戦略を開発し、再構築効率を大幅に向上させました。
シーンのスパース再構成が完了したら、Multiple View Stereo (MVS) テクノロジを使用して、2 次元の画像情報を 3 次元の点群情報に変換します。チームは、単眼カメラ、双眼カメラ、多眼ステレオビジョンに基づいた深度推定アルゴリズムを自社開発し、ニューラルネットワークを使用して緻密な深度推定を実行し、任意の視差やさまざまなテクスチャ環境でも安定した優れたパフォーマンスを実現します。点群情報を取得した後、点群のノイズ除去と完了を実行し、点群の登録を通じてシーンの幾何学的一貫性を実現します。最後に、VoxelHash と画像セマンティック情報に基づく点群融合戦略を使用して、ノイズをさらに除去し、よりスムーズで一貫性のある完全なシーン点群を生成します。
シーン点群を取得した後、メッシュ再構築を実行します。 Volcano Engine Multimedia Laboratory は、グリッドのスムージング、ノイズ除去、単純化、穴埋めを実現するさまざまなグリッド最適化アルゴリズムを自社開発し、より洗練された完全かつ高品質のグリッドモデルを取得しました。高精度なカメラ姿勢推定や画像処理時の画像超解像などの画質最適化と、独自開発のマッピングアルゴリズムの組み合わせにより、より高精細で継ぎ目の少ない高品質なテクスチャマップを取得できます。同時に、テクスチャ再パッキングアルゴリズムが最適化され、テクスチャ使用率が向上し、ストレージリソースの無駄が削減され、効果的なテクスチャ解像度が向上します。

#従来の画像登録アルゴリズム

火山エンジンビデオクラウドアルゴリズム

従来のモデリングアルゴリズム

#Volcano Engine ビデオクラウドアルゴリズムモデリングの結果

都市シーンモデリング

#Volcano エンジンビデオクラウドアルゴリズム

蘇州圓通寺復元成果
火山エンジンマルチメディア研究所のアイテム復元技術と情景復元技術さまざまな文化遺物の復元が可能サイズと形状が同じ比率で高精度に加工されます。前述の技術は、オフラインの文化遺物をオンラインに変換し、PICOとDouyinで文化遺物の仮想プレゼンテーションを実現し、ユーザーは甲骨碑文を手に持って遊び、その文字をはっきりと見ることができ、文化遺物鑑賞体験を実現しますこれは従来の訪問では利用できないものであり、同時にスペースの制限を超えて、敦煌石窟の中に入り、歩き回ることができます。さらに、この技術はオフラインの貴重な文化遺物をオンラインの永久的なデジタルリソースに変換し、文化遺物のデジタル保護を実現し、将来の世代が文化遺物の全体像を個人的に体験できるようにすることができます。
2.3 自社開発のライトフィールドビデオ技術：コストと精度のバランスが課題
仮想の敦煌石窟で壮大なダンスを臨場感たっぷりに鑑賞し、現実を超えた臨場感を感じるために経験、ボルケーノエンジンマルチメディア研究所が独自に開発したライトフィールドビデオテクノロジーは、動的なキャラクターやシーンを高忠実度で再構築することができ、業界の先進レベルに達しています。

ダイナミック 3D メッシュデータ (ダイナミックメッシュ) は、動的なキャラクターやシーンを表現できますが、高品質なダイナミック 3D メッシュを再構築し、新しくレンダリングされた画像を写真のようにリアルにする方法は難しい問題です。。
シーンが 3D シーンデザイナーによって手動で再構築される場合、より高い再構築品質が得られますが、より多くの人件費が発生します。3D シーンが SFM/MVS などのアルゴリズムを通じて自動的に再構築される場合、シーンのテクスチャは特定の要件が必要であり、再構成結果には不正確な幾何学的詳細やテクスチャの歪みが含まれる場合があります。
Neural Radiation Field Technology
は、暗黙的再構成にニューラルネットワークを使用し、微分可能なレンダリングモデルを使用して、既存のビューから新しい視点から画像をレンダリングする方法を学習することで、フォトリアリズムを実現します。フィールド (NeRF) テクノロジー。微分可能レンダリングモデルは、3 次元空間モデルとテクスチャから画像へのレンダリングプロセスをモデル化し、その微分可能特性により、既存の透視画像の監視下でニューラルネットワークを通じて 3 次元空間のジオメトリとテクスチャを学習することができます。未知の新しい視点の下で、学習された 3 次元空間ジオメトリを再レンダリングして、新しい視点からの画像を取得できます。

火山エンジンマルチメディア研究所は、神経放射線場テクノロジーと従来のメッシュモデリングテクノロジーを組み合わせています。具体的な実践では、キャラクターの大まかな幾何学的輪郭が最初に再構築され、NeRF テクノロジーが改良され、幾何学的輪郭が先験的に組み込まれてトレーニングガイダンスが追加され、3 次元空間幾何学が暗黙的に学習され、画像が学習されます。密度の高い新しい視点が再レンダリングされます。神経放射線フィールドのトレーニングプロセス中、動的なキャラクターシーンの場合、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、ハッシュコーディングに基づく階層式を使用してモデルのトレーニング速度を向上させたり、ストリーミングトレーニングを使用してダイナミクスの改善、シーンのフレーム間の一貫性など最後に、ビデオフュージョンテクノロジーを使用して背景情報を自動的に学習し、前景の再照明を実現することで、前景の俳優と背景のシーンをシームレスに統合できます。

同時に、火山エンジンマルチメディア研究室のライトフィールドビデオ技術により、 NeRF 編集を実現し、複雑な動的シーンを再構築、再現できます# # ＃。

Volcano Engine Multimedia Laboratory のライトフィールドビデオテクノロジには、まばらなマルチカメラ入力のみが必要です。高密度のライトフィールドデータを生成します。これは主に、深層学習に基づく新しい視点生成テクノロジーを使用することによって実現されます。従来のビデオデータと比較して、ライトフィールドビデオデータはデータ量が大きいという特徴があり、研究チームはマルチビューアグリゲーションコーディング技術を使用してライトフィールドデータを圧縮し、送信と保存の負荷を軽減します。
大規模ライブブロードキャスト技術と RTC 伝送技術を組み合わせることで、ライトフィールドビデオのオンデマンドおよびライブブロードキャストを実現できます。

3. 概要と展望
3D テクノロジーが成熟し続ける中、火山エンジンマルチメディア研究所の 3D テクノロジーは、具体的なアプリケーションは、VR 分野、自動運転、ビデオ生放送、ゲームなどのシナリオで実装されており、今後も産業、医療、建設および家具、航空宇宙などの分野で研究されていくでしょう。 Volcano Engine は、オブジェクト再構成技術、シーン再構成技術、ライトフィールドビデオ技術をさまざまな業界の製品やプロジェクトに広く適用し、企業顧客にサービスを提供し、ユーザーに高解像度、よりインタラクティブ、より没入型の革新的な体験を提供したいと考えています。
火山エンジンマルチメディア研究所は、ByteDance 傘下の研究チームです。マルチメディア分野の最先端技術の探索と国際標準化作業への参加に取り組んでいます。その多くの革新的なアルゴリズム、ソフトウェアおよびハードウェアソリューションは広く利用されています。 Douyin、Douyin などで使用されます。Xigua Video およびその他の製品のマルチメディアビジネスであり、Volcano Engine のエンタープライズレベルの顧客に技術サービスを提供します。研究室の設立以来、多くの論文が一流の国際会議や主要ジャーナルに選出され、いくつかの国際技術コンテストチャンピオンシップ、業界イノベーション賞、最優秀論文賞を受賞しています。

以上が文化財を「生きた」ものにする、火山エンジンビデオクラウド3D復元技術が明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。