다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공-일체 포함-php.cn

7月5日、世界人工知能会議組織委員会事務局と上海市徐匯区人民政府の指導の下、2024年WAIC雲帆賞および人工知能コンテストが上海人工知能研究所、当サイト、およびグローバル大学人工知能学術同盟、インテリジェント・ユース・フォーラムが無事開催されました。このフォーラムには、スタンフォード大学、オックスフォード大学、UCLA、カリフォルニア大学、チューリッヒ工科大学、香港大学、清華大学、北京大学など、国内外の大学、研究機関、企業からの30人以上のユンファン卒業生と新規卒業生が集まりました。、上海交通大学などの受賞者はオフラインで会議に出席し、国際的な若手AI科学者の知恵を集め、AI能力の限界を積極的に探求し、中国のAI開発青写真に新たなエネルギーを貢献した。 Ant Groupのリモートセンシング大型モデルの責任者であるWang Jianzuo氏は、2024 WAIC Yunfan Awardの代表者の1人として、「マルチモーダルリモートセンシング大型モデルの探求と実践」と題したフォーラムで基調講演を行った。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

Wang Jian 氏は、リモートセンシング大型モデル開発の機会と業界の現在の進歩を要約し、Ant Bailing 大型モデルに基づいて Ant Group が開発した 20 億パラメータのマルチモーダルリモートセンシングモデル SkySense を共有しました。プラットフォーム、および SkySense のオープンソース計画。データ、モデルアーキテクチャ、教師なし事前トレーニングアルゴリズムの技術革新を通じて、SkySense は、土地利用監視や地表特徴変化検出など、7 つの一般的なリモートセンシングセンシングタスクの 17 件の評価で 1 位にランクされました。同時に、Wang Jian 氏は、農村金融、アリの森森林保護、その他のシナリオにおける SkySense の応用についても紹介しました。

以下は王建氏の演説の書き起こしです:

皆さん、こんにちは！私はAnt GroupのWang Jianです。 Yunfan Award Forum で、マルチモーダルリモートセンシング大型モデルに向けた Ant Group の探求と実践を共有できることを非常にうれしく思います。私の共有は次の 3 つの側面から始まります。1 つ目は研究の背景、2 つ目は Ant Group が開発したマルチモーダルリモートセンシング大型モデル SkySense、そして 3 つ目は SkySense に基づくアプリケーションです。

大規模モデルの出現により、生成人工知能は急速に発展しましたが、産業界では、大規模な応用にはまだ程遠い状況です。大規模モデルの出現により、AI の新しい世界への扉が開かれましたが、私たちは、大規模モデルに基づく革新的なアプリケーションを何千もの業界に深く統合し、生産性の変化を実現することによってのみ、新しい AI パラダイムの本質的な価値を真に発揮できると信じています。解放されました。このような考えのもと、アントグループでは大型モデルのテクノロジーやアプリケーションの展開を積極的に行っています。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

基本的な機能の面では、Wanka クラスターコンピューティングシステムを構築し、大規模モデルのセキュリティと知識に重点を置いています。まずセキュリティの面では、Ant Group は独自の Ant Tianjian プラットフォームを開発し、大規模モデルのセキュリティのための統合ソリューションを提供し、Ant Group の大規模モデルの安全性と信頼性を確保しています。基本的な機能に加えて、Bailing 言語ラージモデルと Bailing マルチモーダルラージモデルを構築しました。これら 2 つの基本的なラージモデルに基づいて、アントグループのビジネスの特性に応じて、金融におけるラージモデルの適用に重点を置いています。、医療、人々の生活、セキュリティ、リモートセンシング、コーディングおよびその他の産業におけるアプリケーションを消費者や企業顧客に提供し、それによって信頼できるインテリジェンスおよびサービス産業の発展を促進します。システム全体はまだ非常に大規模です。次に、リモートセンシングにおける大規模モデルの応用を入り口として、大規模モデルの分野全体における私たちの考えと実践のいくつかを共有します。

言語および視覚的な大規模モデルの開発は、大規模なリモートセンシングモデルの開発に多くの重要な参考資料を提供します。たとえば、大規模な言語モデルをマルチモーダルフィールドに拡張すると、OCR、VQA、その他のタスクなど、以前のいくつかのビジュアルタスクで良好な結果が得られました。純粋な視覚的な大規模モデルに関しては、SAM のようなアルゴリズムは、分類、検出、およびセグメンテーションのタスクにおいて優れたパフォーマンスを示します。リモートセンシングの分野で解決される主なタスクも、分類、検出、セグメンテーションです。大規模なビジュアルモデルの成功体験をリモートセンシングの分野に適用するのが自然な考え方です。

その一方で、リモートセンシング技術の急速な発展に伴い、リモートセンシングの分野では、より自然画像に近い可視光画像やマルチスペクトルデータなど、大量の多時間リモートセンシングデータが生成され続けています。より多くのスペクトル情報やレーダー SAR 画像を使用すると、これらのデータはさまざまな衛星やさまざまなセンサーから取得され、さまざまなモードのデータとみなすことができます。これらのデータにはラベルが付けられておらず、これらのデータのラベル付けには時間と労力がかかるだけでなく、多くの場合、専門家の経験に頼らなければ行うことができません。教師なしアルゴリズムの助けを借りてのみ、これらのデータの価値を最大限に活用できます。近年、欧州宇宙機関の Copernicus プラットフォーム、Google の GEE プラットフォーム、中国資源衛星センターのデータプラットフォームなど、リモートセンシング画像データを取得するための多くのチャネルが業界に登場しています。これらのプラットフォームはすべて、リモートセンシング画像データを取得するのに便利です。センシングデータ。要約すると、リモートセンシングの分野には入手しやすいデータが数多くあり、大規模なビジュアルモデルの成功体験と組み合わせることで、これらの要素が大規模なリモートセンシングモデルの開発に良い機会と動機を提供します。。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

この写真は近年発売された大型リモートセンシングモデルです。ご覧のとおり、業界は 2021 年から、SeCo のようなモデルを含むリモートセンシング画像認識に教師なし事前トレーニングアルゴリズムを使用してきました。その後、参加する企業や機関が増え、2022年に中国科学院航空宇宙研究所が発表したRingMoモデル、2023年にSatlasモデル、GRAFTモデルなど代表作が数多くある。復旦大学から少し前に発表されました。この図には、モデルデータとパラメーターの規模がますます大きくなり、パフォーマンスがますます強化されているという明らかな傾向も見られます。シングルモーダルデータの初期のサポートから現在のマルチモーダルデータの融合まで、単一データソースからの画像の初期のサポートから複数のデータソースからの画像の融合まで、初期の 1 つのデータソースのみのサポートから単一の静的画像を解釈して、時系列画像全体の情報を融合します。全体の傾向は、大規模な言語および視覚モデルの開発傾向と一致しており、将来的には、より強力なパフォーマンスとより多くのパラメーターを備えた大規模なリモートセンシングモデルが確実に登場することが予測されます。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

アリの話に戻りますが、なぜアリは大きなリモートセンシングモデルを作るのでしょうか?なぜなら、アントは多くの金融事業を抱えており、そのうちの1つが農村金融です。金融業界で何が一番難しいかと問われれば、99％の人が農村金融が一番難しいと答えると思います。農村金融の主な顧客は農家であり、企業のホワイトカラーとは異なり、農家は優れた信用データを持っています。中小企業や零細企業の経営者と比較して、農家には銀行が認める担保が不足しています。さらに、銀行は地方に支店をほとんど持たず、農家の資産を把握するための大規模なオフライン調査を実施できません。この背後にある主な問題点は、農家の主要資産である土地の価値を大規模にデジタル化できないことです。

この問題点に対応して、アントのオンラインマーチャントバンクは、2019年に衛星リモートセンシングとAI画像認識を使用した資産評価システムを開発しました。具体的には、人工知能アルゴリズムと組み合わせた衛星リモートセンシング画像を使用して、どの作物が農家に植えられているかを識別します。作物の大きさや良否などの情報をもとに、農家の作付状況を総合的に分析し、資産価値を判断し、信用サービスを提供します。初期の頃は、主に米、トウモロコシ、小麦などの主食用作物の特定に重点を置き、何百万もの農家にサービスを提供していました。

このシステムをリンゴや柑橘類などの換金作物に適用すると、識別においていくつかの問題が発生します。なぜなら、換金作物は主食用作物に比べてまばらに植えられ、その作付け方法も多様であり、そのカテゴリーは非常に長いものであるためです。たとえば、主食用作物は数種類しかありませんが、その種類は数十種類あります。換金作物は全国的に非常に多くの種類があるため、リモートセンシングの分野では、作物の種類を特定するのは難しい問題です。技術的な観点から見ると、少数サンプル学習、マルチモーダル逐次アルゴリズム、およびユニバーサル表現を使用してモデルの汎化パフォーマンスを向上させることで、モデルの効果を向上させることができます。これらの技術的特徴はまさに基本モデルの特性であるため、この場合、私たちは大規模なリモートセンシングモデルを開発することにしました。

以下は、Ant Group が大規模なリモートセンシングモデルを構築する機会と動機をまとめたものです。

技術レベルでは、基本モデルの技術は急速に発展しており、現在では商品化の可能性があります。データレベルでは、リモートセンシングの分野には大量のリモートセンシングデータがあり、大規模なリモートセンシングモデル開発の基礎となります。ビジネスレベルでは、Ant のマルチモーダル、マルチシーケンシャル、マルチタスクのシナリオのニーズを満たすことができます。これらの要因を原動力として、Ant Group と武漢大学リモートセンシング学院は、マルチモーダルリモートセンシングビッグデータ SkySense を開発しました。

このモデルをトレーニングするために、世界中に配布された 2,150 万セットのサンプルを収集しました。各サンプルセットには、高解像度の光学画像、時系列光学画像、およびレーダー SAR 画像が含まれています。これらのデータは世界中の 40 以上の国と地域をカバーしており、878 万平方キロメートルの土地と 300 TB をカバーしています。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

モデル構造に関しては、異なるモダリティからの情報をより適切に統合するために、多粒度の対比学習方法を設計し、リモートセンシング画像の特性に基づいた時空間知覚埋め込みアルゴリズムを提案しました。これらは、基本的なリモートセンシングモデルのパフォーマンスを向上させるのに非常に役立ちます。

リモートセンシングの分野には、通常、リモートセンシング画像全体が非常に大きく、それを同時にトレーニングのためにGPUに入れる方法がないという別の特徴があります。ビデオメモリの GPU に合わせて、リモートセンシング画像全体を小さな断片に分割します。これに関する明らかな問題は、トレーニングの小さなパッチごとにコンテキスト情報が失われることです。この状況に対応して、私たちは、時空間に敏感な地球科学の知識を暗黙的に生成できる地理空間に敏感なコンテキスト学習アルゴリズムも開発しました。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

現在、SkySenseのパラメータスケールは20億6,000万に達しています。モデルトレーニング方法に関しては、一般的に使用されている教師なし対比学習事前トレーニング方法に加えて、時空間を介した高解像度光学の組み合わせも提案しました。リモートセンシング画像の特性に基づくデカップリング、時間光学や時間SARなどのデータチャネルの相互教師あり学習および生成学習手法により、異なるモードおよび異なる時間の組み合わせの下流リモートセンシング解釈タスクを柔軟にサポートします。現在、SkySenseは土地の監視と利用、目標検出など17カテゴリーの評価データセットで良好な成績を収めており、CVPR2024（コンピュータビジョンとパターン認識に関するIEEE国際会議）に関連論文が掲載されている。

このモデルのトレーニングには、ストレージ、コンピューティング能力、人材への多大な投資が必要です。私たちは、SkySense を業界と共有して、その価値を解き放ち、リモートセンシング解釈の分野全体の発展を促進したいと強く望んでいます。今年6月15日、一部の科学研究機関向けに大型リモートセンシングモデルのトライアルを開始した。使用プロセス中に、誰もが多くのフィードバックも受け取りました。たとえば、20 億個のパラメーターは大きすぎる、多くのシナリオではそのような大きなパラメーターを持つモデルは必要ないというフィードバックもありました。この状況に対応して、1 回の事前トレーニングで複数のサイズの小さなモデルを生成できる一連のアルゴリズムを開発しました。各小さなモデルについて、このサイズのモデルを直接トレーニングするよりも優れた効果が得られます。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

実際の産業用途では、モデルの重量パラメータだけでは十分ではありません。大型モデルの価値を真に引き出すには、マッチングするデータシステムと製品システムも必要です。これが Ant Group のリモートセンシングテクノロジーの全体像です。データレベルでは、大規模なリモートセンシングモデルの効率的なトレーニングと推論をサポートするために、さまざまなモダリティとソースのデータを管理するための時空間データベースを開発しました。さらに、当社は武漢大学リモートセンシング学部と協力して国内リモートセンシングデータ前処理システムを開発し、写真測量とリモートセンシング技術の統合を通じて国内データの品質を大幅に向上させました。製品面では、データ資産管理、データ生成と処理、モデルトレーニング、ビジネスアプリケーション機能をワンストップで実行できるmEarthインテリジェントリモートセンシングワークベンチを開発し、さまざまなダウンストリームアプリケーションシナリオを効率的かつ柔軟にサポートします。。アクセス。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

次に、SkySenseの応用実践をシェアします。前述の農村財政シナリオでは、衛星リモートセンシングやリモートセンシング大型モデル認識により、作物の時期ごとの種類や病気、害虫の影響の有無などの情報を正確に特定し、分析することができます。作物がどのような成長サイクルにあるのかを把握し、さまざまな成長サイクルに応じて多様な金融サービスをマッチングすることで、農家により良い信用サポートを提供します。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

アリの森は 4 億 7,500 万本の木を植え、4,800 平方キロメートルの社会福祉保護区を保護しています。これほど多くの森林を保護するには、技術的手段を使用する必要があります。私たちは、衛星リモートセンシングとドローン航空写真をリモートセンシングによる大型モデル認識と組み合わせて使用し、アリの森の状態を効率的に監視し、デジタル生態学的保護と回復を達成します。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공

炭素吸収源の計算と測定は、ESGの分野において非常に重要なテーマです。現在の炭素吸収源の計算は手作業に大きく依存しており、これが炭素吸収源取引の発展を妨げています。人工介入によるゼロ労働介入または二酸化炭素吸収源削減システム計画を開発するための大型モデル技術と、森林面積変化モニタリングおよびバイオマス増加量推定システムの開発を試みます。

다중 모드 원격 감지 대형 모델 탐색 및 실습, Ant Group 원격 감지 대형 모델 책임자 Wang Jian의 심층 해석 제공