中国には長い歴史と奥深い文化遺産があり、数多くの文物があり、先代の知恵の結晶である文物は資料としての価値が高く、明らか。古書は中国文明を記録する重要な媒体であり、今日まで受け継がれている貴重な文化遺産であり、文物保護は長期にわたる重要な基礎事業でもある。全国の 2,800 以上の図書館が 5,000 万冊以上の古書籍を収集しており、その 3 分の 1 はさまざまな程度で損傷しています。現在の文化財修復スタッフの数によると、コレクション内のすべての文化遺物を修復するには数百年かかります。
「古書に関する旅行記」は、バイトダンスと 中国第一歴史資料館、敦煌研究所、甘粛省伝票博物館、国立図書館 (国立古典図書博物館) が共同で作成したものです。書籍活性化プロジェクト、古代文書の 4 つの主要な発見を修復します。殷遺跡の甲骨、寿岩漢竹簡、敦煌の遺書、明と清のアーカイブです, allowデジタル化される古書 「生きる」。
このプロジェクトは VR インタラクティブ ドキュメンタリーを中心としており、火山エンジン マルチメディア研究所 の最新の 三次元再構築技術 を利用して、オフラインの文化遺物を PICO に再現しています。また、自社開発のライト フィールド ビデオ テクノロジー を適用して、動的なキャラクターのライト フィールド情報を収集して鮮明に復元し、VR シーンでの高い自由度の表示とインタラクティブな体験を提供します。これらのドキュメンタリーでは、視聴者は PICO、Douyin 裸眼 VR、その他の方法を使用して、家から出ることなく時間と空間を旅行したり、歴史的出来事に個人的に参加したり、古代の書籍に親しんで鑑賞したりすることができます。
この記事は、火山エンジン マルチメディア研究室の 3 次元再構成技術と、ライト フィールド ビデオ技術の原理、進歩、応用分野に焦点を当て、すべての人が 3 次元再構成技術をよりよく理解し、役立つようにすることを目的としています。実際に実装される関連技術、製品およびアプリケーション。 1. 技術的な課題と困難文化財のデジタル化には、文化財の三次元復元とデジタル復元が必要ですが、同時に、三次元的な復元にも大きな課題を突きつけています。次元復元技術:、前処理、 点群スプライシング、特徴解析、メッシュとテクスチャの生成などのステップが含まれます。 従来の 3 次元再構成では、視覚またはマルチモダリティ (レーザーなどの深度データ) に基づいて画像の 3 次元情報を再構成するプロセスを使用し、静的なオブジェクトやシーンをモデル化できます。 ## しかし、動的なオブジェクトとシーンのモデリングのための効果的な全体的なソリューションが不足しています。
火山エンジン マルチメディア研究所は、オブジェクト再構成技術、シーン再構成技術、およびライト フィールド ビデオ技術を自社開発しており、静的オブジェクトの高忠実度の形式を構築し、その複雑なマテリアルを復元できます。都市、公園、住宅空間などを含む大規模なシーンを効果的にモデル化できることは、デジタル ツインの重要な基盤であり、高度なライト フィールド ビデオ技術を使用して、動的なオブジェクトや動的なシーンを再構築および再現して、オン/オフを実現できます。完全な技術ソリューションを備えた視聴とライブブロードキャストの需要に応えます。
2.1 物体復元技術: 文化遺物の保護と正確なスキャンの両方が必要です「古書紀行」プロジェクトにおいて、火山エンジン マルチメディア研究室は、文化財のデジタル修復を行ってきました。 40以上の文化遺産。文化財のデジタル修復では、まず文化財を保護する必要があり、一般的に使われている高精度レーザー装置では文化財のスキャンができないなど、収集機材に一定の制限があることが課題となります。これにより、
火山エンジン マルチメディア研究所を行うことになりました。 しかし、従来の視覚ベースの再構成手法では、テクスチャーの弱い物体を扱うことができず、複雑な形状の物品 (細長いスリッパ、平らな甲骨など) を再構成することも困難です。この目的を達成するために、Signed Distance Fields (略して SDF) の技術ソリューションを使用して 3 次元オブジェクトを表現し、ディープ ラーニング の手法を使用して上記の再構築を克服します。困難。 SDF は空間上の各点から物体までの方向距離を表す暗黙的な表現であり、2 次元 SDF の模式図は以下のとおりです。 SDF 図 SDF に正確に適合するようにニューラル ネットワークを管理する方法を研究する必要がある問題。 まず、Structure from Motion (SfM) アルゴリズムを使用して、キャプチャされた画像のカメラ姿勢を正確に計算します。カメラ姿勢では、SDF によって表される空間情報が微分可能レンダリング手法を使用して画像上にレンダリングされ、レンダリングされた画像とその視点から収集された画像が比較され、SDF のパフォーマンスを向上させるためにニューラル ネットワークが継続的に最適化されます。レンダリング結果は、実際にキャプチャされた画像と可能な限り一致します。 再構成の精度をさらに向上させるために、SDF を最適化する際に、スパース再構成によって取得された 3 次元点が制約として追加されます。これにより、オブジェクトの詳細な特徴をより適切に復元できます。完全な再構成の目的を達成するために、火山エンジン マルチメディア研究所は、セグメンテーション アルゴリズムと再構成アルゴリズムを組み合わせて、オブジェクトの下部領域を効果的に再構成します。 スキャンプロセス中、対象物を特定の位置に固定する必要があるため、対象物の底面から画像を収集することはできません。オブジェクトの完全な再構成は、オブジェクトの底部の再構成の問題を解決することであり、通常の方法は、サスペンション法またはマルチセグメント再構成と後処理スプライシングです。吊り下げ方法は文化財にとって安全性が十分ではなく、接合後の処理プロセスは時間がかかり、自動化できません。この目的を達成するために、火山エンジン マルチメディア研究所 は、再構成アルゴリズムに自動画像セグメンテーションを追加しました。これにより、順方向ショットと逆方向ショットから取得したデータを統合して一緒に再構成し、完全な再構成結果を直接取得できます。以下に示すように、完全な再構成の結果を比較します。 #完全な再構成技術を使用しない結果のモデリング 完全な再構成技術を使用した結果のモデリング Volcano Engine Multimedia Laboratory では、大量のハイライトを効果的に除去できる、偏光を利用したハイライト除去方法をまとめました。
##ハイライトを除去した後 火山エンジン マルチメディア研究所の方法では、さまざまなオブジェクトの 反射/屈折特性をシミュレートして、特殊なマテリアルの構築を実現することもできます。モデル 文化財復元の結果を下図に示します。 文化財の原画
# #文化財復元結果 # 四大博物館の文化財の中には貴重な紙や竹簡などもあり、これらの文化財も展示棚からの取り出しや収集が困難です。この状況に対応して、 ボルケーノ エンジン マルチメディア研究所は、偏光子を組み込んだ収集装置を自社開発しました。これにより、迷光、ハイライト、およびガラスの陳列キャビネットによって引き起こされる反射の問題を排除し、ガラスの層を確保することができます。保護 殻の状態であっても、文化財はスキャンされ、高い忠実度で再構築されます。 #ガラス展示キャビネットの文化財 文化遺物復元結果 正確な姿勢推定、リアルなテクスチャも含まれています ( 拡散反射、鏡面反射、半透明 ) 複雑なマテリアルの復元や微細な表面の再構成も「これは、貴重な文化遺物の忠実度の高い 1:1 修復を実現し、それらをデジタル リソースに変換するために、「古代書籍の旅ノート」プロジェクトで使用され、観客が博物館に「没入」し、コレクションの人気を高めることができます。 。 # # 2.2 自己構築のシーン再構成アルゴリズム: より高い効率、より高い精度 Volcano Engine Multimedia Laboratory は、AI テクノロジーとマルチビュー ジオメトリの基本原理を組み合わせて、高度で堅牢で正確かつ完全な視覚再構成アルゴリズム フレームワークを構築します。 再構成プロセスは、画像処理、 点群の最適化、およびメッシュ再構成 の 3 つの主要なステップで構成されます。 火山エンジン マルチメディア研究所は、高度な人工知能技術を使用して、 、画像の特徴抽出とマッチングを行っています。およびその他の処理 シーンのスパース再構成が完了したら、Multiple View Stereo (MVS) テクノロジを使用して、2 次元の画像情報を 3 次元の点群情報に変換します。チームは、単眼カメラ、双眼カメラ、多眼ステレオビジョンに基づいた深度推定アルゴリズムを自社開発し、ニューラルネットワークを使用して緻密な深度推定を実行し、任意の視差やさまざまなテクスチャ環境でも安定した優れたパフォーマンスを実現します。点群情報を取得した後、点群のノイズ除去と完了を実行し、点群の登録を通じてシーンの幾何学的一貫性を実現します。最後に、VoxelHash と画像セマンティック情報に基づく点群融合戦略を使用して、ノイズをさらに除去し、よりスムーズで一貫性のある完全なシーン点群を生成します。 シーン点群を取得した後、メッシュ再構築を実行します。 Volcano Engine Multimedia Laboratory は、グリッドのスムージング、ノイズ除去、単純化、穴埋めを実現するさまざまなグリッド最適化アルゴリズムを自社開発し、より洗練された完全かつ高品質のグリッド モデルを取得しました。高精度なカメラ姿勢推定や画像処理時の画像超解像などの画質最適化と、独自開発のマッピングアルゴリズムの組み合わせにより、より高精細で継ぎ目の少ない高品質なテクスチャマップを取得できます。同時に、テクスチャ再パッキング アルゴリズムが最適化され、テクスチャ使用率が向上し、ストレージ リソースの無駄が削減され、効果的なテクスチャ解像度が向上します。 #従来の画像登録アルゴリズム 火山エンジン ビデオ クラウド アルゴリズム 従来のモデリング アルゴリズム
都市シーン モデリング #Volcano エンジン ビデオ クラウド アルゴリズム
蘇州圓通寺復元成果 火山エンジンマルチメディア研究所のアイテム復元技術と情景復元技術 さまざまな文化遺物の復元が可能サイズと形状が同じ比率で高精度に加工されます。前述の技術は、オフラインの文化遺物をオンラインに変換し、PICOとDouyinで文化遺物の仮想プレゼンテーションを実現し、ユーザーは甲骨碑文を手に持って遊び、その文字をはっきりと見ることができ、文化遺物鑑賞体験を実現しますこれは従来の訪問では利用できないものであり、同時にスペースの制限を超えて、敦煌石窟の中に入り、歩き回ることができます。さらに、この技術はオフラインの貴重な文化遺物をオンラインの永久的なデジタルリソースに変換し、文化遺物のデジタル保護を実現し、将来の世代が文化遺物の全体像を個人的に体験できるようにすることができます。 仮想の敦煌石窟で壮大なダンスを臨場感たっぷりに鑑賞し、現実を超えた臨場感を感じるために経験、ボルケーノ エンジン マルチメディア研究所が独自に開発したライト フィールド ビデオ テクノロジーは、動的なキャラクターやシーンを高忠実度で再構築することができ、業界の先進レベルに達しています。 Neural Radiation Field Technology 火山エンジン マルチメディア研究所は、神経放射線場テクノロジーと従来のメッシュ モデリング テクノロジーを組み合わせています。具体的な実践では、キャラクターの大まかな幾何学的輪郭が最初に再構築され、NeRF テクノロジーが改良され、幾何学的輪郭が先験的に組み込まれてトレーニング ガイダンスが追加され、3 次元空間幾何学が暗黙的に学習され、画像が学習されます。密度の高い新しい視点が再レンダリングされます。神経放射線フィールドのトレーニング プロセス中、動的なキャラクター シーンの場合、チームはいくつかの最適化戦略を使用して、このシーンでの新しい視点の生成効果を改善しました。たとえば、ハッシュ コーディングに基づく階層式を使用してモデルのトレーニング速度を向上させたり、ストリーミング トレーニングを使用してダイナミクスの改善、シーンのフレーム間の一貫性など最後に、ビデオ フュージョン テクノロジーを使用して背景情報を自動的に学習し、前景の再照明を実現することで、前景の俳優と背景のシーンをシームレスに統合できます。 同時に、火山エンジン マルチメディア研究室のライト フィールド ビデオ技術により、 NeRF 編集を実現し、複雑な動的シーンを再構築、再現できます# # #。 大規模ライブブロードキャスト技術と RTC 伝送技術を組み合わせることで、ライトフィールドビデオのオンデマンドおよびライブブロードキャストを実現できます。 これに関して、
ダイナミック 3D メッシュ データ (ダイナミック メッシュ) は、動的なキャラクターやシーンを表現できますが、高品質なダイナミック 3D メッシュを再構築し、新しくレンダリングされた画像を写真のようにリアルにする方法は難しい問題です。 。
シーンが 3D シーン デザイナーによって手動で再構築される場合、より高い再構築品質が得られますが、より多くの人件費が発生します。3D シーンが SFM/MVS などのアルゴリズムを通じて自動的に再構築される場合、シーンのテクスチャは特定の要件が必要であり、再構成結果には不正確な幾何学的詳細やテクスチャの歪みが含まれる場合があります。
以上が文化財を「生きた」ものにする、火山エンジンビデオクラウド3D復元技術が明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。