Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle-KI-php.cn

Heim

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Linda Hamilton

Mar 12, 2025 pm 01:12 PM

git ai 邮箱产业 Pokémon DeepSeek 视觉强化 qwen

Große Empfehlung: Visual-RFT-Eine visuelle Verbesserung und eine Feinabstimmung von Open-Source-Projekten, um visuelle Sprachmodelle zu stärken!

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Die AIXIV -Kolumne konzentriert sich weiterhin auf die Top -KI -Forschung der Welt und hat mehr als 2.000 akademische und technische Artikel veröffentlicht. Willkommen, um dazu beizutragen, Ihre herausragenden Leistungen zu teilen! Einreichung E -Mail: liyazhou@jiqizhixin.com;

Das Visual-RFT-Projekt (visuelle Verstärkung Feinabstimmung) anwendet das Paradigma für Verstärkungslernen und Verstärkung (RFT), das auf Regelprämien auf die visuellen Sprache Big Models (LVLM) basiert, die Einschränkungen früherer Methoden auf, die auf Text, Mathematik und andere Felder beschränkt sind. Durch das Entwerfen spezifischer Regelprämien für Aufgaben wie visuelle Unterkategorisierung und Objekterkennung bietet Visual-RFT eine neue Idee für das LVLM-Training!

Abbildung 1 zeigt die leistungsstarke Verallgemeinerungsfähigkeit von Visual-RFT: Das Modell erfordert nur eine geringe Datenmenge, um ein bestimmtes Pokémon im Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle genau zu identifizieren und seine Koordinaten zu lokalisieren.

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

^{Abbildung 1. Visual-RFT erweitert eine verbesserte Feinabstimmung auf multimodal, wobei nur 10-1000 Datenstücke die Modellleistung signifikant verbessern.}

Von RFT bis Visual-RFT: Durchbrüche im Verstärkungslernen im multimodalen Bereich

Die verbesserte Feinabstimmungstechnologie von OpenAI ermöglicht die Migration der Modellfähigkeit, die nur durch eine kleine Anzahl von Proben erreicht werden kann. Deepseek-R1 zeigt, dass seine leistungsstarken Argumentationsfähigkeiten auf Verstärkungslernstrategien beruhen, die auf überprüfbaren Belohnungen beruhen. Diese Strategie wurde jedoch vor allem in Bereichen wie Text und Mathematik verwendet. Visual-RFT hat diese Strategie erfolgreich auf das Gesichtsfeld erweitert.

Die herkömmliche visuelle Unterrichtsfeineinstellung (SFT) erfordert eine große Menge an Daten, und die kleinen Lernfähigkeit von Visual-RFT macht es in Daten seltener.

Um die Verallgemeinerungsfähigkeit von Visual-RFT zu überprüfen, führte das Forschungsteam Tests zu mehreren visuellen Aufgaben wie Objekterkennung, Klassifizierung und Erdung durch. Die Ergebnisse zeigen, dass Visual-RFT unter offenem Vokabular, kleinem Stichprobenlernen und anderen Einstellungen signifikante Leistungsverbesserungen erzielen kann und besser als die SFT-Methode ist. Insbesondere bei Inferenzpositionierungsaufgaben zeigt Visual-RFT hervorragende Funktionen zum visuellen Denken. (Weitere Einzelheiten finden Sie in der Zeitung)

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

^{Abbildung 2. Visual-RFT übertrifft SFT bei mehreren visuellen Aufgaben signifikant.}

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

^{Abbildung 3.. Visual-RFT-Framework-Diagramm, Aktualisierungsmodellparameter mit IOU- und CLS-Belohnungen und Verstärkungslernstrategien.}

Das Forschungsteam verwendete IOU-basierte überprüfbare Belohnungen für Erkennungs- und Erdungsaufgaben sowie CLS-Belohnungen auf der Grundlage der Klassifizierungskorrektheit für Klassifizierungsaufgaben. (wie in Abbildung 3 gezeigt)

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

^{Abbildung 4. Inferenzielle Positionierungsergebnisse zeigen, dass Visual-RFT SFT übertrifft, um Objekte genauer zu lokalisieren.}

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

^{Abbildung 5. Die Ergebnisse der feinkörnigen Klassifizierung der inferentiellen zeigen, dass Visual-RFT SFT übertrifft, um Objekte genauer zu lokalisieren.}

Abbildung 4 und Abbildung 5 zeigen die Ausgabeergebnisse des Modells.

Experimentelle Ergebnisse der visuellen RFT

Basierend auf dem QWEN2-VL 2B/7B-Modell übertrifft Visual-RFT die SFT-Erkennung offener Objekte, eine kleine Stichprobenerkennung, feinkörnige Klassifizierung und Inferenzpositionierungsaufgaben umfassend. Die experimentellen Daten deckt gemeinsame Szenen wie Coco und LVIS sowie offene Szenen wie Internet -Cartoon -Charaktere ab. Mit nur einer geringen Datenmenge kann Visual-RFT die Migration der Fähigkeiten erreichen und hervorragende Leistung und Robustheit zeigen.

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

^{Abbildung 5. Einige experimentelle Ergebnisse zeigen, dass Visual-RFT SFT signifikant übertrifft.}

Visual-Rft ist Open Source!

Das Visual-RFT-Projekt ist Open Source und enthält Schulungen, Bewertungscode und Daten. Willkommen bei der Teilnahme!

Projektadresse: https://www.php.cn/link/ec56522bc9c2e15be17d11962eec453

Das obige ist der detaillierte Inhalt vonVisuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

Was ist neu in Windows 11 KB5054979 und wie Sie Update -Probleme beheben

4 Wochen vor By DDD

Wie kann ich KB5055523 in Windows 11 nicht installieren?

3 Wochen vor By DDD

Inzoi: Wie man sich für Schule und Universität bewerbt

1 Monate vor By DDD

Wie kann ich KB5055518 in Windows 10 nicht installieren?

3 Wochen vor By DDD

Wo finden Sie den Site Office -Schlüssel in Atomfall

1 Monate vor By DDD

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7917

Java-Tutorial

1652

CakePHP-Tutorial

1411

Laravel-Tutorial

1303

PHP-Tutorial

1248

Related knowledge

Wie benutze ich die Chrono -Bibliothek in C? Apr 28, 2025 pm 10:18 PM

Durch die Verwendung der Chrono -Bibliothek in C können Sie Zeit- und Zeitintervalle genauer steuern. Erkunden wir den Charme dieser Bibliothek. Die Chrono -Bibliothek von C ist Teil der Standardbibliothek, die eine moderne Möglichkeit bietet, mit Zeit- und Zeitintervallen umzugehen. Für Programmierer, die in der Zeit gelitten haben.H und CTime, ist Chrono zweifellos ein Segen. Es verbessert nicht nur die Lesbarkeit und Wartbarkeit des Codes, sondern bietet auch eine höhere Genauigkeit und Flexibilität. Beginnen wir mit den Grundlagen. Die Chrono -Bibliothek enthält hauptsächlich die folgenden Schlüsselkomponenten: std :: chrono :: system_clock: repräsentiert die Systemuhr, mit der die aktuelle Zeit erhalten wird. std :: chron

Welche der zehn besten Währungsplattformen der Welt sind die neueste Version der zehn besten Währungshandelsplattformen Apr 28, 2025 pm 08:09 PM

Zu den zehn Top -Kryptowährungs -Handelsplattformen der Welt gehören Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin und Poloniex, die alle eine Vielzahl von Handelsmethoden und leistungsstarken Sicherheitsmaßnahmen bieten.

Wie misst ich die Thread -Leistung in C? Apr 28, 2025 pm 10:21 PM

Durch die Messung der Thread -Leistung in C kann Timing -Tools, Leistungsanalyse -Tools und benutzerdefinierte Timer in der Standardbibliothek verwendet werden. 1. Verwenden Sie die Bibliothek, um die Ausführungszeit zu messen. 2. Verwenden Sie GPROF für die Leistungsanalyse. Zu den Schritten gehört das Hinzufügen der -PG -Option während der Kompilierung, das Ausführen des Programms, um eine Gmon.out -Datei zu generieren, und das Generieren eines Leistungsberichts. 3. Verwenden Sie das Callgrind -Modul von Valgrind, um eine detailliertere Analyse durchzuführen. Zu den Schritten gehört das Ausführen des Programms zum Generieren der Callgrind.out -Datei und das Anzeigen der Ergebnisse mit KCACHEGRIND. 4. Benutzerdefinierte Timer können die Ausführungszeit eines bestimmten Codesegments flexibel messen. Diese Methoden helfen dabei, die Thread -Leistung vollständig zu verstehen und den Code zu optimieren.

Was sind die zehn Top -Apps für virtuelle Währungshandel? Die neuesten Ranglisten für digitale Währung Exchange Apr 28, 2025 pm 08:03 PM

Die zehn Top -Börsen für digitale Währungen wie Binance, OKX, Gate.io haben ihre Systeme, effiziente diversifizierte Transaktionen und strenge Sicherheitsmaßnahmen verbessert.

Was sind die Top -Währungshandelsplattformen? Die Top 10 neuesten virtuellen Währungsbörsen Apr 28, 2025 pm 08:06 PM

Derzeit unter den zehn besten Börsen der virtuellen Währung eingestuft: 1. Binance, 2. OKX, 3. Gate.io, 4. Coin Library, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9. Bitcoin, 10. Bit Stamp.

Wie benutze ich String -Streams in C? Apr 28, 2025 pm 09:12 PM

Die wichtigsten Schritte und Vorsichtsmaßnahmen für die Verwendung von String -Streams in C sind wie folgt: 1. Erstellen Sie einen Ausgangsstring -Stream und konvertieren Daten, z. B. Umwandlung von Ganzzahlen in Zeichenfolgen. 2. Anwenden Sie die Serialisierung komplexer Datenstrukturen wie die Umwandlung von Vektor in Zeichenfolgen. 3. Achten Sie auf Leistungsprobleme und vermeiden Sie die häufige Verwendung von Stressströmen bei der Verarbeitung großer Datenmengen. Sie können in Betracht ziehen, die Anhangmethode von STD :: String zu verwenden. 4. Achten Sie auf die Speicherverwaltung und vermeiden Sie häufige Erstellung und Zerstörung von String -Stream -Objekten. Sie können std :: stringstream wiederverwenden oder verwenden.

Binance Offizielle Website Eingang Binance Beamter neuester Eingang 2025 Apr 28, 2025 pm 07:54 PM

Besuchen Sie die offizielle Website Binance und überprüfen Sie HTTPS und Green Lock -Logos, um Phishing -Websites zu vermeiden, und offizielle Anwendungen können auch sicher zugegriffen werden.

Welche der zehn besten Währungshandelsplattformen der Welt gehören 2025 zu den zehn Top -Währungshandelsplattformen Apr 28, 2025 pm 08:12 PM

Zu den zehn Top -Kryptowährungsbörsen der Welt im Jahr 2025 gehören Binance, OKX, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex und Poloniex, die alle für ihr hohes Handelsvolumen und ihre Sicherheit bekannt sind.

See all articles