Maison Périphériques technologiques IA Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Mar 12, 2025 pm 01:12 PM
git ai 邮箱 产业 Pokémon DeepSeek 视觉强化 qwen

Grande recommandation: Visual-RFT - Une amélioration visuelle et un projet open source ajusté pour autonomiser les modèles de langage visuel!

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

La colonne AIXIV continue de se concentrer sur la recherche sur l'IA dans le monde et a publié plus de 2 000 articles académiques et techniques. Bienvenue à contribuer à partager vos réalisations en cours! Courriel de soumission: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

Le projet Visual-RFT (visual de renforcement final) applique avec succès le paradigme d'apprentissage et de renforcement du renforcement (RFT) basé sur les récompenses de règles aux grands modèles du langage visuel (LVLM), percant les limites des méthodes précédentes limitées au texte, aux mathématiques et autres domaines. En concevant des récompenses de règles spécifiques pour des tâches telles que la sous-catégorisation visuelle et la détection d'objets, Visual-RFT fournit une nouvelle idée pour la formation LVLM!

La figure 1 montre la puissante capacité de généralisation de Visual-RFT: le modèle ne nécessite qu'une petite quantité de données pour identifier avec précision un Pokémon spécifique dans l'Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source et localiser ses coordonnées.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 1. Visual-RFT étend un réglage fin amélioré au multimodal, avec seulement 10-1000 de données pour améliorer considérablement les performances du modèle.

De RFT à Visual-RFT: percées dans l'apprentissage du renforcement dans le champ multimodal

La technologie de réglage fin améliorée d'OpenAI permet de réaliser la migration des capacités du modèle par un petit nombre d'échantillons. Deepseek-R1 révèle que ses puissantes capacités de raisonnement découlent des stratégies d'apprentissage du renforcement basées sur des récompenses vérifiables. Cependant, cette stratégie était auparavant principalement utilisée dans des domaines tels que le texte et les mathématiques. Visual-RFT a réussi à élargir cette stratégie au champ visuel.

L'instruction visuelle traditionnelle du réglage fin (SFT) nécessite une grande quantité de données, et la capacité d'apprentissage du petit échantillon de Visual-RFT le rend plus avantageux dans les scénarios rares de données.

Afin de vérifier la capacité de généralisation du Visual-RFT, l'équipe de recherche a effectué des tests sur plusieurs tâches visuelles telles que la détection d'objets, la classification et la mise à la terre. Les résultats montrent que Visual-RFT peut réaliser des améliorations de performances significatives sous un vocabulaire ouvert, un petit échantillon d'apprentissage et d'autres paramètres, et est meilleur que la méthode SFT. En particulier dans les tâches de positionnement de l'inférence, Visual-RFT montre d'excellentes capacités de raisonnement visuel. (Voir le journal pour plus de détails)

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 2. Visual-RFT dépasse considérablement la SFT sur plusieurs tâches visuelles.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 3. Diagramme du cadre Visual-RFT, mise à jour des paramètres du modèle à l'aide des récompenses IOU et CLS et des stratégies d'apprentissage de renforcement.

L'équipe de recherche a utilisé des récompenses vérifiables basées sur l'IOU pour les tâches de détection et de mise à la terre, et des récompenses CLS basées sur l'exactitude de la classification pour les tâches de classification. (comme le montre la figure 3)

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 4. Les résultats de positionnement inférentiels montrent que Visual-RFT dépasse la SFT pour localiser plus précisément les objets.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 5. Les résultats de classification à grains fins inférentis montrent que Visual-RFT dépasse la SFT pour localiser les objets plus précisément.

Les figures 4 et 5 montrent les résultats de sortie du modèle.

Résultats expérimentaux Visual-RFT

Sur la base du modèle QWEN2-VL 2B / 7B, Visual-RFT dépasse complètement la SFT dans la détection d'objets ouverts, la détection de petits échantillons, la classification à grains fins et les tâches de positionnement d'inférence. Les données expérimentales couvrent des scènes communes telles que CoCo et LVIS et des scènes ouvertes telles que les personnages de dessins animés Internet. Avec juste une petite quantité de données, Visual-RFT peut atteindre la migration des capacités, montrant d'excellentes performances et une robustesse.

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Amélioration visuelle Fineur Fine! La technologie Deepseek R1 a été migrée avec succès vers un champ multimodal et est entièrement ouvert à la source

Figure 5. Certains résultats expérimentaux montrent que Visual-RFT dépasse considérablement la SFT.

Visual-RFT est open source!

Le projet Visual-RFT est open source et contient une formation, un code d'évaluation et des données. Bienvenue à participer!

Adresse du projet: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Ce qui précède est le contenu détaillé de. pour plus d'informations, suivez d'autres articles connexes sur le site Web de PHP en chinois!

Déclaration de ce site Web
Le contenu de cet article est volontairement contribué par les internautes et les droits d'auteur appartiennent à l'auteur original. Ce site n'assume aucune responsabilité légale correspondante. Si vous trouvez un contenu suspecté de plagiat ou de contrefaçon, veuillez contacter admin@php.cn

Outils d'IA chauds

Undresser.AI Undress

Undresser.AI Undress

Application basée sur l'IA pour créer des photos de nu réalistes

AI Clothes Remover

AI Clothes Remover

Outil d'IA en ligne pour supprimer les vêtements des photos.

Undress AI Tool

Undress AI Tool

Images de déshabillage gratuites

Clothoff.io

Clothoff.io

Dissolvant de vêtements AI

Video Face Swap

Video Face Swap

Échangez les visages dans n'importe quelle vidéo sans effort grâce à notre outil d'échange de visage AI entièrement gratuit !

Article chaud

Niveaux de force pour chaque ennemi et monstre de R.E.P.O.
3 Il y a quelques semaines By 尊渡假赌尊渡假赌尊渡假赌
<🎜>: Dead Rails - Comment apprivoiser les loups
3 Il y a quelques semaines By DDD
Blue Prince: Comment se rendre au sous-sol
3 Il y a quelques semaines By DDD

Outils chauds

Bloc-notes++7.3.1

Bloc-notes++7.3.1

Éditeur de code facile à utiliser et gratuit

SublimeText3 version chinoise

SublimeText3 version chinoise

Version chinoise, très simple à utiliser

Envoyer Studio 13.0.1

Envoyer Studio 13.0.1

Puissant environnement de développement intégré PHP

Dreamweaver CS6

Dreamweaver CS6

Outils de développement Web visuel

SublimeText3 version Mac

SublimeText3 version Mac

Logiciel d'édition de code au niveau de Dieu (SublimeText3)

Sujets chauds

Tutoriel Java
1653
14
Tutoriel PHP
1251
29
Tutoriel C#
1224
24
Quelles sont les dix principales applications de trading de devises virtuelles? Le dernier classement de change de monnaie numérique Quelles sont les dix principales applications de trading de devises virtuelles? Le dernier classement de change de monnaie numérique Apr 28, 2025 pm 08:03 PM

Les dix premiers échanges de devises numériques tels que Binance, OKX, Gate.io ont amélioré leurs systèmes, des transactions diversifiées efficaces et des mesures de sécurité strictes.

Laquelle des dix principales plateformes de trading de devises au monde est la dernière version des dix principales plateformes de trading de devises Laquelle des dix principales plateformes de trading de devises au monde est la dernière version des dix principales plateformes de trading de devises Apr 28, 2025 pm 08:09 PM

Les dix principales plates-formes de trading de crypto-monnaie au monde comprennent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi Global, BitFinex, Bittrex, Kucoin et Poloniex, qui fournissent toutes une variété de méthodes de trading et de puissantes mesures de sécurité.

Quelles sont les principales plateformes de trading de devises? Les 10 meilleurs échanges de devises virtuels virtuels Quelles sont les principales plateformes de trading de devises? Les 10 meilleurs échanges de devises virtuels virtuels Apr 28, 2025 pm 08:06 PM

Actuellement classé parmi les dix premiers échanges de devises virtuels: 1. Binance, 2. Okx, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9. Bitcoin, 10. Bit Stamp.

Laquelle des dix principales plateformes de trading de devises au monde figurent parmi les dix principales plateformes de trading de devises en 2025 Laquelle des dix principales plateformes de trading de devises au monde figurent parmi les dix principales plateformes de trading de devises en 2025 Apr 28, 2025 pm 08:12 PM

Les dix premiers échanges de crypto-monnaie au monde en 2025 incluent Binance, Okx, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex et Poloniex, qui sont tous connus pour leur volume et leur sécurité commerciaux élevés.

Comment utiliser la bibliothèque Chrono en C? Comment utiliser la bibliothèque Chrono en C? Apr 28, 2025 pm 10:18 PM

L'utilisation de la bibliothèque Chrono en C peut vous permettre de contrôler plus précisément les intervalles de temps et de temps. Explorons le charme de cette bibliothèque. La bibliothèque Chrono de C fait partie de la bibliothèque standard, qui fournit une façon moderne de gérer les intervalles de temps et de temps. Pour les programmeurs qui ont souffert de temps et ctime, Chrono est sans aucun doute une aubaine. Il améliore non seulement la lisibilité et la maintenabilité du code, mais offre également une précision et une flexibilité plus élevées. Commençons par les bases. La bibliothèque Chrono comprend principalement les composants clés suivants: std :: chrono :: system_clock: représente l'horloge système, utilisée pour obtenir l'heure actuelle. std :: chron

Comment mesurer les performances du fil en C? Comment mesurer les performances du fil en C? Apr 28, 2025 pm 10:21 PM

La mesure des performances du thread en C peut utiliser les outils de synchronisation, les outils d'analyse des performances et les minuteries personnalisées dans la bibliothèque standard. 1. Utilisez la bibliothèque pour mesurer le temps d'exécution. 2. Utilisez le GPROF pour l'analyse des performances. Les étapes incluent l'ajout de l'option -pg pendant la compilation, l'exécution du programme pour générer un fichier gmon.out et la génération d'un rapport de performances. 3. Utilisez le module Callgrind de Valgrind pour effectuer une analyse plus détaillée. Les étapes incluent l'exécution du programme pour générer le fichier callgrind.out et la visualisation des résultats à l'aide de Kcachegrind. 4. Les minuteries personnalisées peuvent mesurer de manière flexible le temps d'exécution d'un segment de code spécifique. Ces méthodes aident à bien comprendre les performances du thread et à optimiser le code.

Un moyen efficace d'inserter les données dans MySQL Un moyen efficace d'inserter les données dans MySQL Apr 29, 2025 pm 04:18 PM

Méthodes efficaces pour les données d'insertion par lots dans MySQL Incluent: 1. Utilisation d'inserto ... Syntaxe des valeurs, 2. Utilisation de la commande chargedatainfile, 3. Utilisation du traitement des transactions, 4. Ajuster la taille du lot, 5. Désactiver l'indexation, 6. Utilisation de l'insertion ou de l'insert ... onduplicatekeyupdate, ces méthodes peuvent améliorer considérablement l'efficacité du fonctionnement de la base de données.

Comment utiliser des flux de chaînes en C? Comment utiliser des flux de chaînes en C? Apr 28, 2025 pm 09:12 PM

Les étapes principales et les précautions pour l'utilisation de flux de chaîne en C sont les suivantes: 1. Créez un flux de chaîne de sortie et convertissez des données, telles que la conversion des entiers en chaînes. 2. Appliquer à la sérialisation des structures de données complexes, telles que la conversion du vecteur en chaînes. 3. Faites attention aux problèmes de performances et évitez l'utilisation fréquente des flux de chaînes lors du traitement de grandes quantités de données. Vous pouvez envisager d'utiliser la méthode d'ajout de Std :: String. 4. Faites attention à la gestion de la mémoire et évitez la création et la destruction fréquentes des objets de flux de chaîne. Vous pouvez réutiliser ou utiliser Std :: Stringstream.

See all articles