Table des matières
Le traitement des graphiques et du texte commence par la vision sous-jacente
Des mots aux tableaux, en passant par les chapitres, lisez les images et les textes étape par étape
Grand modèle, multimodalité, modèle mondial... Où est l'avenir ?
Maison Périphériques technologiques IA Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Mar 31, 2023 pm 10:38 PM
技术 图像

De nombreux chercheurs du monde universitaire et de l'industrie ont mené des discussions approfondies sur « la technologie intelligente de traitement d'images et de texte et la technologie d'application multi-scénarios ».

« C'est trop compliqué ! »

Après avoir expérimenté GPT-4 et Microsoft ​Microsoft 365 Copilot After les bombardements continus, je crois que beaucoup de gens ont ce sentiment.

Par rapport à GPT-3.5, GPT-4 a réalisé des améliorations significatives dans de nombreux aspects. Par exemple, dans l'examen simulé du barreau, il est passé des 10 % inférieurs d'origine à 10 % positifs. Bien entendu, les gens ordinaires n’ont peut-être aucune idée de ces examens professionnels. Mais si je vous montre une image, vous comprendrez à quel point son amélioration est terrifiante :

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Source : Tang Jie, professeur du département d'informatique de l'université Tsinghua, Weibo. Lien : https://m.weibo.cn/detail/4880331053992765

Il s'agit d'une question de physique GPT-4 est nécessaire pour résoudre le problème étape par étape en fonction des images et des textes. Il s'agit de GPT-3.5 (ici. fait référence au ChatGPT avant la mise à niveau) Les modèles dépendants) n'ont pas de fonctionnalités. D'une part, GPT-3.5 est uniquement formé pour comprendre le texte et ne peut pas comprendre l'image de la question. D'un autre côté, la capacité de résolution de problèmes de GPT-3.5 est également très faible et peut être déconcertée par un poulet et un lapin dans la même cage. Mais cette fois, les deux problèmes semblent avoir été résolus à merveille.

Juste au moment où tout le monde pensait que c'était un gros problème, Microsoft a publié un autre blockbuster : GPT-4. Ces fonctionnalités ont été intégrées dans une nouvelle application appelée Microsoft 365 Copilot. Grâce à ses puissantes capacités de traitement d'images et de texte, Microsoft 365 Copilot peut non seulement vous aider à rédiger divers documents, mais également à convertir facilement des documents en PPT et à résumer automatiquement les données Excel en graphiques...

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Des débuts technologiques au lancement du produit, OpenAI et Microsoft n'ont donné au public que deux jours pour répondre. Du jour au lendemain, une nouvelle révolution de la productivité est arrivée.

Parce que les changements se produisent si rapidement, le monde universitaire et l'industrie sont plus ou moins dans un état de confusion et de « FOMO (peur de manquer quelque chose) ». Actuellement, tout le monde veut connaître une réponse : que pouvons-nous faire dans cette vague ? Quelles sont les opportunités disponibles ? À partir de la démo publiée par Microsoft, nous pouvons trouver une percée claire : Traitement intelligent d'images et de texte.

Dans des scénarios réels, de nombreux emplois dans divers secteurs sont liés au traitement graphique et de texte, comme l'organisation de données non structurées dans des graphiques, la rédaction de rapports basés sur des graphiques, l'extraction d'informations utiles à partir d'informations graphiques massives, etc. Pour cette raison, l’impact de cette révolution pourrait être bien plus profond que ce que beaucoup de gens imaginent. Un récent article à succès d'OpenAI et de la Wharton School prédit cet impact : environ 80 % de la main-d'œuvre américaine pourrait voir au moins 10 % de ses tâches affectées par l'introduction du GPT, et environ 19 % des travailleurs sont susceptibles de voir au moins 50% des tâches concernées. Il est prévisible qu'une grande partie du travail implique une intelligence graphique et textuelle.

À un tel point d’entrée, quels efforts de recherche ou d’ingénierie méritent d’être explorés ? Lors du récent événement CSIG Enterprise Tour organisé par la Société chinoise de l'image et du graphisme (CSIG) et organisé conjointement par Hehe Information et le comité professionnel d'analyse et de reconnaissance d'images de documents du CSIG, de nombreux chercheurs du monde universitaire et de l'industrie se sont concentrés sur «  Traitement intelligent des images et text" Technologie et technologie d'application multi-scénarios " a mené une discussion approfondie, qui pourrait inspirer les chercheurs et les praticiens préoccupés par le domaine du traitement intelligent d'images et de textes.

Le traitement des graphiques et du texte commence par la vision sous-jacente

Comme mentionné précédemment, les capacités graphiques et de traitement de texte de GPT-4 sont très choquantes. En plus de la question physique ci-dessus, le rapport technique d'OpenAI a également cité d'autres exemples, comme laisser GPT-4 lire l'image papier :

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Cependant, il y a peut-être encore beaucoup de travail de base à faire pour qu'un tel La technologie doit être largement mise en œuvre, la vision sous-jacente en fait partie.

Les caractéristiques de la vision sous-jacente sont très évidentes : l'entrée est une image, et la sortie est aussi une image. Le prétraitement, le filtrage, la restauration et l'amélioration des images entrent tous dans cette catégorie.

« Les théories et méthodes de la vision sous-jacente sont largement utilisées dans de nombreux domaines, tels que la téléphonie mobile, l'analyse d'images médicales, la surveillance de la sécurité, etc. Les entreprises et institutions qui valorisent la qualité des images et des contenus vidéo doivent prêter attention à la recherche sur la direction de la vision sous-jacente. Si la vision sous-jacente n'est pas bien réalisée, de nombreux systèmes de vision de haut niveau (tels que la détection, la reconnaissance et la compréhension) ne peuvent pas être véritablement mis en œuvre. " Guo Fengjun, directeur de la R&D sur les algorithmes d'image de Hehe. Information, déclarée lors de l'événement CSIG Enterprise Tour.

Comment comprendre cette phrase ? Nous pouvons regarder quelques exemples :

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Contrairement à la situation idéale présentée dans les démos OpenAI et Microsoft, les graphiques et le texte du monde réel existent toujours sous des formes difficiles, telles que des déformations, des ombres et des motifs de moiré, ce qui augmentera la difficulté de reconnaissance et de compréhension ultérieures. L’objectif de l’équipe de Guo Fengjun est de résoudre ces problèmes dans un premier temps.

À cette fin, ils ont divisé cette tâche en plusieurs modules, dont l'extraction de la région d'intérêt (RoI), la correction de la déformation, la restauration de l'image (telle que la suppression des ombres, le moiré), l'amélioration de la qualité (telle que la netteté améliorée, la clarté) et l'attente.

Ces technologies peuvent être combinées pour créer des applications très intéressantes. Après des années d'exploration, ces modules ont obtenu d'assez bons résultats et la technologie associée a été appliquée au produit de reconnaissance de texte intelligent « Scanner » de l'entreprise.

Des mots aux tableaux, en passant par les chapitres, lisez les images et les textes étape par étape

Une fois l'image traitée, l'étape suivante consiste à identifier le contenu de l'image et du texte. Il s'agit également d'un travail très détaillé, et peut même être réalisé en unités de « mots ».

Dans de nombreux scénarios du monde réel, les caractères n'apparaissent pas nécessairement sous une forme imprimée standardisée, ce qui pose des problèmes de reconnaissance des caractères.

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Prenons l'exemple de la scène éducative. Supposons que vous soyez un enseignant et que vous souhaitiez absolument que l'IA vous aide directement à corriger les devoirs de tous les élèves, tout en résumant la maîtrise de chaque partie des connaissances par les élèves. Il est également préférable de poser des questions erronées, des fautes de frappe et des corrections. suggestions. Du Jun, professeur agrégé au Laboratoire national d'ingénierie pour le traitement de l'information vocale et linguistique de l'Université des sciences et technologies de Chine, travaille dans ce domaine.

Plus précisément, ils ont créé un système de reconnaissance, de génération et d'évaluation des caractères chinois basé sur les radicaux, car par rapport à la modélisation de caractères entiers, il existe beaucoup moins de combinaisons de radicaux. Parmi eux, la reconnaissance et la génération sont optimisées conjointement, ce qui s'apparente un peu au processus de renforcement mutuel de l'alphabétisation et de l'écriture lorsque les élèves apprennent. Dans le passé, la plupart des travaux d'évaluation se concentraient sur le niveau grammatical, mais l'équipe de Du Jun a conçu une méthode capable de trouver les fautes de frappe directement à partir de l'image et d'expliquer les erreurs en détail. Cette méthode sera très utile dans des scénarios tels que le marquage intelligent.

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

En plus du texte, l'identification et le traitement des tableaux sont en fait une grande difficulté, car il faut non seulement identifier le contenu à l'intérieur, mais aussi clarifier la relation structurelle entre ces contenus, et certains tableaux peuvent même ne pas avoir filaires. À cette fin, l'équipe de Du Jun a conçu une méthode « diviser d'abord, puis fusionner », c'est-à-dire diviser d'abord l'image du tableau en une série de grilles de base, puis apporter d'autres corrections par fusion.

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Méthode de reconnaissance de formulaire « d'abord diviser, puis fusionner » de l'équipe de Du Jun.

Bien sûr, tout ce travail jouera à terme un rôle dans la structuration et la compréhension des documents au niveau des chapitres. Dans les environnements réels, la plupart des documents auxquels les modèles sont confrontés comportent plus d'une page (comme un papier). Dans cette direction, les travaux de l'équipe de Du Jun se concentrent sur la classification des éléments de documents inter-pages et la restauration de la structure des documents inter-pages. Cependant, ces méthodes présentent encore des limites dans les scénarios multi-mises en page.

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Grand modèle, multimodalité, modèle mondial... Où est l'avenir ?

En ce qui concerne le traitement et la compréhension des images et du texte au niveau des chapitres, nous ne sommes en fait pas loin de GPT-4. "Après la sortie du GPT-4 multimodal, nous avons également réfléchi à la possibilité de faire quelque chose dans ces aspects", a déclaré Du Jun lors de l'événement. Je crois que de nombreux chercheurs ou praticiens dans le domaine du traitement d’images et de textes ont cette idée.

L'objectif de la série de modèles GPT a toujours été de s'efforcer d'améliorer la polyvalence et, à terme, d'atteindre l'intelligence artificielle générale (AGI). Les puissantes capacités de compréhension d’images et de textes démontrées cette fois par GPT-4 constituent une partie importante de cette capacité générale. Pour créer un modèle doté de capacités similaires, OpenAI a donné quelques références, mais a également laissé de nombreux mystères et problèmes non résolus.

Tout d’abord, le succès de GPT-4 montre que l’approche grand modèle + multi-modalité est réalisable. Cependant, quels problèmes devraient être étudiés dans les grands modèles et comment résoudre les besoins exagérés en puissance de calcul des modèles multimodaux sont autant de défis auxquels sont confrontés les chercheurs.

Pour la première question, Qiu Xipeng, professeur à l'École d'informatique de l'Université de Fudan a donné quelques orientations dignes de référence. Selon certaines informations précédemment divulguées par OpenAI, nous savons que ChatGPT est indissociable de plusieurs technologies clés, notamment l'apprentissage en contexte, la chaîne de pensée et l'apprentissage à partir d'instructions. Qiu Xipeng a souligné dans son partage qu'il reste encore de nombreuses questions à discuter dans ces directions, telles que l'origine de ces capacités, comment continuer à s'améliorer et comment les utiliser pour transformer les paradigmes d'apprentissage existants. En outre, il a également partagé les capacités à prendre en compte lors de la création de modèles de langage conversationnel à grande échelle et les orientations de recherche qui peuvent être envisagées pour aligner ces modèles sur le monde réel.

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Concernant la deuxième question, le Professeur distingué Ji Rongrong de Nanqiang de l'Université de Xiamen a apporté une idée importante. Il estime qu’il existe un lien naturel entre le langage et la vision, et que l’apprentissage conjoint entre les deux constitue la tendance générale. Mais face à cette vague, le pouvoir de toute université ou laboratoire est insignifiant. Alors maintenant, depuis l’Université de Xiamen où il travaille, il tente de persuader les chercheurs d’intégrer la puissance de calcul et de former un réseau pour construire de grands modèles multimodaux. En fait, lors d'un événement il y a quelque temps, l'académicien E Weinan, qui se concentre sur l'IA pour la science, a également exprimé des points de vue similaires, espérant que tous les horizons « osent mettre en commun leurs ressources dans des directions d'innovation originales ».

Pour autant, le chemin emprunté par GPT-4 mènera-t-il définitivement à l’intelligence artificielle générale ? Certains chercheurs sont sceptiques à ce sujet, et Yann LeCun, lauréat du prix Turing, en fait partie. Il estime que ces grands modèles actuels ont des besoins énormes en données et en puissance de calcul, mais que leur efficacité d'apprentissage est très faible (comme les voitures autonomes). Par conséquent, il a créé une théorie appelée « modèle mondial » (un modèle interne du fonctionnement du monde), estimant que l'apprentissage d'un modèle mondial (qui peut être compris comme l'exécution d'une simulation pour le monde réel) peut être la clé pour atteindre l'AGI. Lors de l'événement, le Professeur Yang Xiaokang de l'Université Jiao Tong de Shanghai a partagé son travail dans cette direction. Plus précisément, son équipe s'est concentrée sur le modèle mondial de l'intuition visuelle (car l'intuition visuelle contient une grande quantité d'informations), en essayant de modéliser la vision, l'intuition et la perception du temps et de l'espace. Enfin, il a également souligné l’importance de l’intersection des disciplines mathématiques, physiques, cognitives de l’information et informatique pour ce type de recherche.

"Une chenille extrait les nutriments de la nourriture puis se transforme en papillon. Les gens ont extrait des milliards d'indices pour comprendre. GPT-4 est le papillon humain." Le lendemain de la sortie de GPT-4, le père Geoffrey Hinton, apprenant en profondeur, a tweeté. ce.

Lorsque GPT-4 apprend à lire des images et du texte, une révolution de la productivité est imparable

Actuellement, personne ne peut prédire quelle ampleur d'ouragan ce papillon va déclencher. Mais il est certain que ce n’est pas encore un papillon parfait et que l’ensemble du puzzle du monde AGI n’est pas encore terminé. Chaque chercheur et praticien a encore des opportunités.

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

AI Hentai Generator

AI Hentai Generator

Générez AI Hentai gratuitement.

Article chaud

R.E.P.O. Crystals d'énergie expliqués et ce qu'ils font (cristal jaune)
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Meilleurs paramètres graphiques
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Comment réparer l'audio si vous n'entendez personne
2 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Le papier Stable Diffusion 3 est enfin publié, et les détails architecturaux sont révélés. Cela aidera-t-il à reproduire Sora ? Mar 06, 2024 pm 05:34 PM

L'article de StableDiffusion3 est enfin là ! Ce modèle est sorti il ​​y a deux semaines et utilise la même architecture DiT (DiffusionTransformer) que Sora. Il a fait beaucoup de bruit dès sa sortie. Par rapport à la version précédente, la qualité des images générées par StableDiffusion3 a été considérablement améliorée. Il prend désormais en charge les invites multithèmes, et l'effet d'écriture de texte a également été amélioré et les caractères tronqués n'apparaissent plus. StabilityAI a souligné que StableDiffusion3 est une série de modèles avec des tailles de paramètres allant de 800M à 8B. Cette plage de paramètres signifie que le modèle peut être exécuté directement sur de nombreux appareils portables, réduisant ainsi considérablement l'utilisation de l'IA.

Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Cet article vous suffit pour en savoir plus sur la conduite autonome et la prédiction de trajectoire ! Feb 28, 2024 pm 07:20 PM

La prédiction de trajectoire joue un rôle important dans la conduite autonome. La prédiction de trajectoire de conduite autonome fait référence à la prédiction de la trajectoire de conduite future du véhicule en analysant diverses données pendant le processus de conduite du véhicule. En tant que module central de la conduite autonome, la qualité de la prédiction de trajectoire est cruciale pour le contrôle de la planification en aval. La tâche de prédiction de trajectoire dispose d'une riche pile technologique et nécessite une connaissance de la perception dynamique/statique de la conduite autonome, des cartes de haute précision, des lignes de voie, des compétences en architecture de réseau neuronal (CNN&GNN&Transformer), etc. Il est très difficile de démarrer ! De nombreux fans espèrent se lancer dans la prédiction de trajectoire le plus tôt possible et éviter les pièges. Aujourd'hui, je vais faire le point sur quelques problèmes courants et des méthodes d'apprentissage introductives pour la prédiction de trajectoire ! Connaissances introductives 1. Existe-t-il un ordre d'entrée pour les épreuves de prévisualisation ? R : Regardez d’abord l’enquête, p

DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! DualBEV : dépassant largement BEVFormer et BEVDet4D, ouvrez le livre ! Mar 21, 2024 pm 05:21 PM

Cet article explore le problème de la détection précise d'objets sous différents angles de vue (tels que la perspective et la vue à vol d'oiseau) dans la conduite autonome, en particulier comment transformer efficacement les caractéristiques de l'espace en perspective (PV) en vue à vol d'oiseau (BEV). implémenté via le module Visual Transformation (VT). Les méthodes existantes sont globalement divisées en deux stratégies : la conversion 2D en 3D et la conversion 3D en 2D. Les méthodes 2D vers 3D améliorent les caractéristiques 2D denses en prédisant les probabilités de profondeur, mais l'incertitude inhérente aux prévisions de profondeur, en particulier dans les régions éloignées, peut introduire des inexactitudes. Alors que les méthodes 3D vers 2D utilisent généralement des requêtes 3D pour échantillonner des fonctionnalités 2D et apprendre les poids d'attention de la correspondance entre les fonctionnalités 3D et 2D via un transformateur, ce qui augmente le temps de calcul et de déploiement.

Le premier modèle mondial de génération de vidéos de scènes de conduite autonomes multi-vues DrivingDiffusion : nouvelles idées pour les données et la simulation BEV Le premier modèle mondial de génération de vidéos de scènes de conduite autonomes multi-vues DrivingDiffusion : nouvelles idées pour les données et la simulation BEV Oct 23, 2023 am 11:13 AM

Quelques réflexions personnelles de l'auteur Dans le domaine de la conduite autonome, avec le développement de sous-tâches/solutions de bout en bout basées sur BEV, les données d'entraînement multi-vues de haute qualité et la construction de scènes de simulation correspondantes sont devenues de plus en plus importantes. En réponse aux problèmes des tâches actuelles, la « haute qualité » peut être divisée en trois aspects : des scénarios à longue traîne dans différentes dimensions : comme les véhicules à courte portée dans les données sur les obstacles et les angles de cap précis lors du découpage des voitures, et les données sur les lignes de voie. . Scènes telles que des courbes avec des courbures différentes ou des rampes/fusions/fusions difficiles à capturer. Celles-ci reposent souvent sur de grandes quantités de données collectées et sur des stratégies complexes d’exploration de données, qui sont coûteuses. Valeur réelle 3D - image hautement cohérente : l'acquisition actuelle des données BEV est souvent affectée par des erreurs d'installation/calibrage du capteur, des cartes de haute précision et l'algorithme de reconstruction lui-même. cela m'a amené à

'Minecraft' se transforme en une ville IA et les habitants des PNJ jouent comme de vraies personnes 'Minecraft' se transforme en une ville IA et les habitants des PNJ jouent comme de vraies personnes Jan 02, 2024 pm 06:25 PM

Veuillez noter que cet homme carré fronça les sourcils, pensant à l'identité des « invités non invités » devant lui. Il s’est avéré qu’elle se trouvait dans une situation dangereuse, et une fois qu’elle s’en est rendu compte, elle a rapidement commencé une recherche mentale pour trouver une stratégie pour résoudre le problème. Finalement, elle a décidé de fuir les lieux, de demander de l'aide le plus rapidement possible et d'agir immédiatement. En même temps, la personne de l'autre côté pensait la même chose qu'elle... Il y avait une telle scène dans "Minecraft" où tous les personnages étaient contrôlés par l'intelligence artificielle. Chacun d’eux a un cadre identitaire unique. Par exemple, la jeune fille mentionnée précédemment est une coursière de 17 ans mais intelligente et courageuse. Ils ont la capacité de se souvenir, de penser et de vivre comme des humains dans cette petite ville de Minecraft. Ce qui les anime est une toute nouvelle,

Comment éditer des photos sur iPhone avec iOS 17 Comment éditer des photos sur iPhone avec iOS 17 Nov 30, 2023 pm 11:39 PM

La photographie mobile a fondamentalement changé la façon dont nous capturons et partageons les moments de la vie. L’avènement des smartphones, notamment de l’iPhone, a joué un rôle clé dans cette évolution. Connu pour sa technologie d'appareil photo avancée et ses fonctionnalités d'édition conviviales, l'iPhone est devenu le premier choix des photographes amateurs et expérimentés. Le lancement d’iOS 17 marque une étape importante dans ce voyage. La dernière mise à jour d'Apple apporte un ensemble amélioré de fonctionnalités de retouche photo, offrant aux utilisateurs une boîte à outils plus puissante pour transformer leurs instantanés quotidiens en images visuellement attrayantes et artistiquement riches. Ce développement technologique simplifie non seulement le processus photographique, mais ouvre également de nouvelles voies d'expression créative, permettant aux utilisateurs d'injecter sans effort une touche professionnelle à leurs photos.

Plus qu'une simple gaussienne 3D ! Dernier aperçu des techniques de reconstruction 3D de pointe Plus qu'une simple gaussienne 3D ! Dernier aperçu des techniques de reconstruction 3D de pointe Jun 02, 2024 pm 06:57 PM

Écrit ci-dessus & La compréhension personnelle de l'auteur est que la reconstruction 3D basée sur l'image est une tâche difficile qui implique de déduire la forme 3D d'un objet ou d'une scène à partir d'un ensemble d'images d'entrée. Les méthodes basées sur l’apprentissage ont attiré l’attention pour leur capacité à estimer directement des formes 3D. Cet article de synthèse se concentre sur les techniques de reconstruction 3D de pointe, notamment la génération de nouvelles vues inédites. Un aperçu des développements récents dans les méthodes d'éclaboussure gaussienne est fourni, y compris les types d'entrée, les structures de modèle, les représentations de sortie et les stratégies de formation. Les défis non résolus et les orientations futures sont également discutés. Compte tenu des progrès rapides dans ce domaine et des nombreuses opportunités d’améliorer les méthodes de reconstruction 3D, un examen approfondi de l’algorithme semble crucial. Par conséquent, cette étude fournit un aperçu complet des progrès récents en matière de diffusion gaussienne. (Faites glisser votre pouce vers le haut

Revoir! Fusion profonde de modèles (LLM/modèle de base/apprentissage fédéré/mise au point, etc.) Revoir! Fusion profonde de modèles (LLM/modèle de base/apprentissage fédéré/mise au point, etc.) Apr 18, 2024 pm 09:43 PM

Le 23 septembre, l'article « DeepModelFusion:ASurvey » a été publié par l'Université nationale de technologie de la défense, JD.com et l'Institut de technologie de Pékin. La fusion/fusion de modèles profonds est une technologie émergente qui combine les paramètres ou les prédictions de plusieurs modèles d'apprentissage profond en un seul modèle. Il combine les capacités de différents modèles pour compenser les biais et les erreurs des modèles individuels pour de meilleures performances. La fusion profonde de modèles sur des modèles d'apprentissage profond à grande échelle (tels que le LLM et les modèles de base) est confrontée à certains défis, notamment un coût de calcul élevé, un espace de paramètres de grande dimension, l'interférence entre différents modèles hétérogènes, etc. Cet article divise les méthodes de fusion de modèles profonds existantes en quatre catégories : (1) « Connexion de modèles », qui relie les solutions dans l'espace de poids via un chemin de réduction des pertes pour obtenir une meilleure fusion de modèles initiale.

See all articles