Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection d'Ant Group, apporte une interprétation approfondie-IA-php.cn

Le 5 juillet, sous la direction du Bureau du comité d'organisation de la Conférence mondiale sur l'intelligence artificielle et du gouvernement populaire du district de Xuhui, à Shanghai, le prix WAIC Yunfan 2024 et le concours d'intelligence artificielle ont été organisés par le laboratoire d'intelligence artificielle de Shanghai, ce site et le Alliance universitaire mondiale sur l'intelligence artificielle. Le Forum de la jeunesse intelligente s'est tenu avec succès. Le forum a réuni plus de 30 anciens et nouveaux diplômés du Yunfan provenant d'universités, d'instituts de recherche et d'entreprises du pays et de l'étranger, notamment l'Université de Stanford, l'Université d'Oxford, l'UCLA, l'Université de Californie, l'ETH Zurich, l'Université de Hong Kong, l'Université Tsinghua et l'Université de Pékin. , Université Jiao Tong de Shanghai, etc. Les lauréats ont assisté à la conférence hors ligne, rassemblant la sagesse de jeunes scientifiques internationaux en IA, explorant activement les limites des capacités de l'IA et apportant une nouvelle énergie au plan de développement de l'IA en Chine. Wang Jianzuo, responsable des grands modèles de télédétection d'Ant Group, en tant que l'un des représentants du prix WAIC Yunfan 2024, a prononcé un discours d'ouverture lors du forum intitulé « Exploration et pratique des grands modèles de télédétection multimodale ».

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Wang Jian a résumé les opportunités de développement de grands modèles de télédétection et les progrès actuels de l'industrie, et a partagé le modèle de télédétection multimodale de 2 milliards de paramètres SkySense développé par Ant Group sur la base du grand modèle Ant Bailing plate-forme, ainsi que le plan open source de SkySense. Grâce à des innovations technologiques en matière de données, d'architecture de modèle et d'algorithmes de pré-formation non supervisés, SkySense s'est classé premier dans 17 évaluations pour sept tâches courantes de télédétection, notamment la surveillance de l'utilisation des terres et la détection des changements de caractéristiques de surface. Dans le même temps, Wang Jian a également présenté l'application de SkySense dans la finance rurale, la protection des forêts de fourmis et d'autres scénarios.

Ce qui suit est la transcription du discours de Wang Jian :

Bonjour à tous ! Je suis Wang Jian d'Ant Group. Je suis très heureux de partager l'exploration et la pratique d'Ant Group en direction des grands modèles de télédétection multimodale au Yunfan Award Forum. Mon partage commencera par les trois aspects suivants : premièrement, le contexte de la recherche, deuxièmement, le grand modèle de télédétection multimodale SkySense développé par Ant Group, et troisièmement, les applications basées sur SkySense.

L'émergence des grands modèles a conduit au développement rapide de l'intelligence artificielle générative, mais aujourd'hui, dans le monde industriel, l'application à grande échelle est encore très loin. Bien que l’émergence des grands modèles ait ouvert la porte à un nouveau monde de l’IA, nous pensons que ce n’est qu’en intégrant profondément des applications innovantes basées sur de grands modèles dans des milliers d’industries et en réalisant des changements de productivité que la valeur intrinsèque du nouveau paradigme de l’IA pourra être véritablement exploitée. libéré. Avec ce type de réflexion, Ant Group déploie activement des technologies et des applications à grande échelle.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

En termes de capacités de base, nous avons construit un système informatique en cluster Wanka et nous sommes concentrés sur la sécurité et les connaissances des grands modèles. Tout d'abord, en termes de sécurité, Ant Group a développé sa propre plateforme Ant Tianjian pour fournir des solutions intégrées pour la sécurité des grands modèles, garantissant ainsi que les grands modèles d'Ant Group sont sûrs et dignes de confiance. En plus de nos capacités de base, nous avons construit le grand modèle du langage Bailing et le grand modèle multimodal Bailing. Sur la base de ces deux grands modèles de base, et selon les caractéristiques de l'activité d'Ant Group, nous nous concentrons sur l'application des grands modèles en finance. , les soins médicaux, les moyens de subsistance des personnes, les applications dans les domaines de la sécurité, de la télédétection, du codage et d'autres secteurs pour servir les consommateurs et les entreprises, favorisant ainsi le développement d'industries de renseignement et de services fiables. L'ensemble du système est encore très vaste. Ensuite, j'utiliserai l'application des grands modèles en télédétection comme point d'entrée pour partager avec vous certaines de nos réflexions et pratiques dans l'ensemble du domaine des grands modèles.

Le développement de grands modèles linguistiques et visuels fournit de nombreuses références importantes pour le développement de grands modèles de télédétection. Par exemple, les grands modèles de langage, lorsqu'ils sont étendus au domaine multimodal, ont montré de bons résultats dans certaines tâches visuelles antérieures, telles que l'OCR, le VQA et d'autres tâches. En termes de grands modèles purement visuels, les algorithmes comme SAM affichent de solides performances dans les tâches de classification, de détection et de segmentation. Les principales tâches résolues dans le domaine de la télédétection sont également la classification, la détection et la segmentation. L'idée naturelle est d'appliquer l'expérience réussie des grands modèles visuels dans le domaine de la télédétection.

D'autre part, avec le développement rapide de la technologie de télédétection, le domaine de la télédétection continue de produire des quantités massives de données de télédétection multitemporelles. Ces données incluent des images en lumière visible qui ressemblent davantage à des images naturelles, des données multispectrales. avec plus d'informations spectrales et d'images Radar SAR, ces données proviennent de différents satellites et de différents capteurs, et nous pouvons les considérer comme des données de différents modes. Ces données ne sont pas étiquetées, et l’étiquetage de ces données prend non seulement du temps et demande beaucoup de travail, mais ne peut également être réalisé qu’en s’appuyant sur l’expérience d’experts dans de nombreux cas. Ce n’est qu’avec l’aide d’algorithmes non supervisés que la valeur de ces données pourra être pleinement utilisée. Ces dernières années, de nombreux canaux permettant d'obtenir des données d'images de télédétection ont vu le jour dans l'industrie, tels que la plate-forme Copernicus de l'Agence spatiale européenne, la plate-forme GEE de Google et la plate-forme de données du China Resources Satellite Center. Ces plates-formes nous permettent toutes d'obtenir facilement des données à distance. données de détection. En résumé, il existe de nombreuses données faciles à obtenir dans le domaine de la télédétection, combinés à l’expérience réussie des modèles visuels à grande échelle, ces facteurs offrent de bonnes opportunités et une motivation pour le développement de modèles de télédétection à grande échelle. .

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Cette photo montre les grands modèles de télédétection sortis ces dernières années. Comme vous pouvez le constater, depuis 2021, l’industrie utilise des algorithmes de pré-entraînement non supervisés pour la reconnaissance d’images de télédétection, y compris des modèles comme SeCo. Par la suite, de plus en plus d'entreprises et d'institutions ont participé, et il existe de nombreux ouvrages représentatifs, comme le modèle RingMo publié par l'Institut d'aéronautique et d'astronautique de l'Académie chinoise des sciences en 2022, le modèle Satlas en 2023 et le modèle GRAFT. publié il n'y a pas si longtemps par l'Université de Fudan. Plusieurs tendances évidentes peuvent également être observées dans cette image. L'échelle des données et des paramètres du modèle devient de plus en plus grande et les performances sont de plus en plus fortes. Depuis la première prise en charge des données monomodales jusqu'à la fusion actuelle des données multimodales, depuis la première prise en charge des images provenant d'une seule source de données jusqu'à aujourd'hui pour la fusion d'images provenant de plusieurs sources de données, depuis la première prise en charge d'un seul interprétation d'image statique unique pour fusionner les informations de l'ensemble de l'image de la série chronologique. L'ensemble de la tendance est cohérent avec la tendance au développement de grands modèles linguistiques et visuels. Il est prévisible que de grands modèles de télédétection avec des performances plus élevées et un plus grand nombre de paramètres apparaîtront certainement dans le futur.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Retour aux fourmis, pourquoi les fourmis fabriquent-elles de grands modèles de télédétection ? Parce qu'Ant possède de nombreuses activités financières, dont la finance rurale. Dans le secteur financier, si vous demandez ce qui est le plus difficile, je pense que 99 % des gens diront que la finance rurale est la plus difficile. Les principaux clients de la finance rurale sont les agriculteurs, contrairement aux cols blancs des entreprises, qui disposent de bonnes données en matière de crédit. Comparés aux propriétaires de petites et micro-entreprises, les agriculteurs manquent de garanties reconnues par les banques. En outre, les banques disposent de très peu de points de vente en zone rurale et ne peuvent pas mener d’enquêtes hors ligne à grande échelle pour déterminer les actifs des agriculteurs. Le principal problème derrière cela est que la valeur de la terre, principal actif des agriculteurs, ne peut pas être numérisée à grande échelle.

En réponse à ce problème, la banque d'affaires en ligne d'Ant a développé en 2019 un système d'évaluation des actifs utilisant la télédétection par satellite et la reconnaissance d'images par l'IA. Plus précisément, elle utilise des images de télédétection par satellite combinées à des algorithmes d'intelligence artificielle pour identifier quelles cultures sont plantées chez les agriculteurs. Des informations telles que la taille de la plante et si elle est bonne ou non sont utilisées pour analyser de manière globale la situation de plantation de l'agriculteur, déterminant ainsi la valeur de l'actif et lui fournissant des services de crédit. Au début, il se concentrait principalement sur l’identification des cultures vivrières de base, telles que le riz, le maïs, le blé, etc., et servait des millions d’agriculteurs.

Quand on pousse ce système aux cultures de rente comme les pommes et les agrumes, on rencontre quelques problèmes d'identification. Parce que par rapport aux cultures vivrières de base, les cultures de rente sont plus rarement plantées, leurs méthodes de plantation sont plus diversifiées et leurs catégories sont très longues. Par exemple, il n'existe que quelques types de cultures vivrières de base, mais il en existe des dizaines de types. de cultures de rapport, il existe donc de nombreux types à identifier à travers le pays. Les types de cultures constituent des problèmes difficiles à résoudre dans le domaine de la télédétection. D'un point de vue technique, nous pouvons améliorer l'effet du modèle en utilisant l'apprentissage sur quelques échantillons, des algorithmes séquentiels multimodaux et une représentation universelle pour améliorer les performances de généralisation du modèle. Ces caractéristiques techniques sont exactement les caractéristiques du modèle de base, donc dans ce cas, nous avons décidé de développer un grand modèle de télédétection.

Ce qui suit résume les opportunités et les motivations d'Ant Group pour construire des modèles de télédétection à grande échelle.

Sur le plan technique, la technologie des modèles de base se développe rapidement et a désormais un potentiel de commercialisation. Au niveau des données, il existe une quantité massive de données de télédétection dans le domaine de la télédétection, qui jettent les bases du développement de grands modèles de télédétection. Au niveau métier, il peut répondre aux besoins des scénarios multimodaux, multi-séquentiels et multitâches d'Ant. Poussés par ces facteurs, Ant Group et l’École de télédétection de l’Université de Wuhan ont développé le Big Data de télédétection multimodale SkySense.

Afin de former ce modèle, nous avons collecté 21,5 millions d'ensembles d'échantillons répartis dans le monde entier. Chaque ensemble d'échantillons contient des images optiques à haute résolution, des séries temporelles optiques et des images radar SAR. Ces données couvrent plus de 40 pays et régions à travers le monde, couvrant 8,78 millions de kilomètres carrés de terres et 300 To.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

En termes de structure du modèle, afin de mieux intégrer les informations provenant de différentes modalités, nous avons conçu une méthode d'apprentissage contrastif multi-granularité, et proposé un algorithme d'intégration de perception spatio-temporelle basé sur les caractéristiques des images de télédétection. Ceux-ci sont très utiles pour améliorer les performances des modèles de base de télédétection.

Il existe une autre caractéristique dans le domaine de la télédétection. Une image entière de télédétection est généralement très grande, et il n'y a aucun moyen de la mettre dans le GPU pour la formation en même temps. Par conséquent, la pratique courante dans l'industrie est. pour couper l'intégralité de l'image de télédétection en petits morceaux pour s'adapter au GPU de la mémoire vidéo. Un problème évident est que les informations contextuelles sont perdues pour chaque petite partie de formation. En réponse à cette situation, nous avons également développé un algorithme d’apprentissage contextuel géospatialement sensible qui peut implicitement générer des connaissances géoscientifiques spatio-temporellement sensibles.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Actuellement, l'échelle des paramètres de SkySense a atteint 2,06 milliards. En termes de méthodes de formation de modèles, en plus de la méthode de pré-formation par apprentissage contrastif non supervisé couramment utilisée, nous avons également proposé de combiner l'optique haute résolution via le spatio-temporel. découplage basé sur les caractéristiques des images de télédétection, apprentissage mutuellement supervisé et méthodes d'apprentissage génératif pour les canaux de données tels que l'optique temporelle et le SAR temporel afin de prendre en charge de manière flexible les tâches d'interprétation de télédétection en aval de différents modes et différentes combinaisons temporelles. Actuellement, SkySense a obtenu de bons résultats dans 17 catégories d'ensembles de données d'évaluation, y compris la surveillance et l'utilisation des terres, la détection de cibles, etc., et des articles connexes ont été inclus dans le CVPR2024 (Conférence internationale de l'IEEE sur la vision par ordinateur et la reconnaissance de formes).

La formation de ce modèle nécessite beaucoup d'investissements en stockage, en puissance de calcul et en ressources humaines. Nous espérons vivement partager SkySense avec l'industrie pour libérer sa valeur et promouvoir le développement de l'ensemble du domaine de l'interprétation de la télédétection. Le 15 juin de cette année, nous avons commencé à tester des modèles de télédétection à grande échelle pour certaines institutions de recherche scientifique. Au cours du processus d'utilisation, tout le monde a également reçu de nombreux commentaires. Par exemple, certains commentaires indiquent que 2 milliards de paramètres sont trop grands et que de nombreux scénarios ne nécessitent pas de modèles avec des paramètres aussi grands. En réponse à cette situation, nous avons développé un ensemble d'algorithmes capables de générer de petits modèles de plusieurs tailles grâce à un seul pré-entraînement, et pour chaque petit modèle, l'effet est meilleur que l'entraînement direct d'un modèle de cette taille.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Dans les applications industrielles réelles, il ne suffit pas de disposer des paramètres de poids du modèle. Il doit également exister un système de données et un système de produits correspondants pour véritablement faire ressortir la valeur du grand modèle. Telle est la vue d’ensemble de la technologie de télédétection d’Ant Group. Au niveau des données, nous avons développé une base de données spatio-temporelle pour gérer les données dans différentes modalités et sources afin de prendre en charge une formation et une inférence efficaces de grands modèles de télédétection. En outre, nous avons coopéré avec l'École de télédétection de l'Université de Wuhan pour développer un système national de prétraitement des données de télédétection afin d'améliorer considérablement la qualité des données nationales grâce à la photogrammétrie intégrée et à la technologie de télédétection. En termes de produits, nous avons développé l'atelier de télédétection intelligent mEarth. Cet atelier peut effectuer une gestion unique des actifs de données, la production et le traitement des données, la formation de modèles et les capacités d'application commerciale, afin de pouvoir prendre en charge de manière efficace et flexible divers scénarios d'application en aval. . accéder.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Ensuite, je partagerai la pratique d'application de SkySense. Dans le scénario financier rural mentionné précédemment, grâce à la télédétection par satellite et à la reconnaissance de grands modèles de télédétection, nous pouvons identifier avec précision les types de cultures à différentes périodes, ainsi que des informations telles que si elles sont affectées par des maladies et des insectes nuisibles, et également analyser dans quel cycle de croissance se trouvent les cultures, en faisant correspondre des services financiers diversifiés selon différents cycles de croissance, offrant ainsi aux agriculteurs un meilleur soutien au crédit.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Ant Forest a planté 475 millions d'arbres et protège 4 800 kilomètres carrés de zones protégées par l'aide sociale. Pour protéger autant de terres forestières, des moyens technologiques doivent être utilisés. Nous utilisons la télédétection par satellite et la photographie aérienne par drone, combinées à la reconnaissance de grands modèles par télédétection, pour surveiller efficacement l'état de la forêt de fourmis et réaliser une protection et une restauration écologiques numériques.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Le calcul et la mesure des puits de carbone sont un sujet très important dans le domaine de l'ESG. Le calcul actuel des puits de carbone repose fortement sur le travail manuel, ce qui freine le développement du trading de puits de carbone. Nous expérimentons la télécommande par satellite. détection et technologie de grands modèles pour développer un ensemble de calculs sans travail. Intervenir ou réduire le plan d'intervention artificielle du système de puits de carbone et essayer de développer un système de surveillance des changements dans la superficie forestière et d'estimation de l'augmentation de la biomasse.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Cela fait partie du projet de protection des forêts. Nous utilisons de grands modèles de télédétection pour prendre en charge la détection des changements liés à l'altération naturelle et la détection des changements dans la destruction humaine, réalisant ainsi une surveillance et une protection régulières des terres forestières à grande échelle.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

C'est le résultat de l'identification des cultures vivrières de base dans la ville de Siping, Jilin grâce à un grand modèle de télédétection. On peut voir que dans cette zone aux conditions de plantation relativement complexes, le grand modèle de télédétection peut également effectuer une identification précise. au niveau des pixels.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Dies ist in Luochuan, Provinz Shaanxi. In diesem Gebiet mit komplexer Geländestruktur kann die Genauigkeit der Apfelanpflanzung durch SkySense mehr als 95 % erreichen.

Exploration et pratique des grands modèles de télédétection multimodaux, Wang Jian, responsable des grands modèles de télédétection dAnt Group, apporte une interprétation approfondie

Gleichzeitig haben wir SkySense auch verwendet, um die Nachtlichtdaten globaler Regionen zu analysieren und die Wirtschaftsaktivität verschiedener Regionen darzustellen. Es ist offensichtlich, dass die regionale Wirtschaft Shanghais sehr aktiv ist.

Das Obige teile ich, vielen Dank an alle!

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!