Heim > Technologie-Peripheriegeräte > KI > Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Linda Hamilton
Freigeben: 2025-03-12 13:12:02
Original
236 Leute haben es durchsucht

Große Empfehlung: Visual-RFT-Eine visuelle Verbesserung und eine Feinabstimmung von Open-Source-Projekten, um visuelle Sprachmodelle zu stärken!

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Die AIXIV -Kolumne konzentriert sich weiterhin auf die Top -KI -Forschung der Welt und hat mehr als 2.000 akademische und technische Artikel veröffentlicht. Willkommen, um dazu beizutragen, Ihre herausragenden Leistungen zu teilen! Einreichung E -Mail: liyazhou@jiqizhixin.com;

Das Visual-RFT-Projekt (visuelle Verstärkung Feinabstimmung) anwendet das Paradigma für Verstärkungslernen und Verstärkung (RFT), das auf Regelprämien auf die visuellen Sprache Big Models (LVLM) basiert, die Einschränkungen früherer Methoden auf, die auf Text, Mathematik und andere Felder beschränkt sind. Durch das Entwerfen spezifischer Regelprämien für Aufgaben wie visuelle Unterkategorisierung und Objekterkennung bietet Visual-RFT eine neue Idee für das LVLM-Training!

Abbildung 1 zeigt die leistungsstarke Verallgemeinerungsfähigkeit von Visual-RFT: Das Modell erfordert nur eine geringe Datenmenge, um ein bestimmtes Pokémon im Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle genau zu identifizieren und seine Koordinaten zu lokalisieren.

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Abbildung 1. Visual-RFT erweitert eine verbesserte Feinabstimmung auf multimodal, wobei nur 10-1000 Datenstücke die Modellleistung signifikant verbessern.

Von RFT bis Visual-RFT: Durchbrüche im Verstärkungslernen im multimodalen Bereich

Die verbesserte Feinabstimmungstechnologie von OpenAI ermöglicht die Migration der Modellfähigkeit, die nur durch eine kleine Anzahl von Proben erreicht werden kann. Deepseek-R1 zeigt, dass seine leistungsstarken Argumentationsfähigkeiten auf Verstärkungslernstrategien beruhen, die auf überprüfbaren Belohnungen beruhen. Diese Strategie wurde jedoch vor allem in Bereichen wie Text und Mathematik verwendet. Visual-RFT hat diese Strategie erfolgreich auf das Gesichtsfeld erweitert.

Die herkömmliche visuelle Unterrichtsfeineinstellung (SFT) erfordert eine große Menge an Daten, und die kleinen Lernfähigkeit von Visual-RFT macht es in Daten seltener.

Um die Verallgemeinerungsfähigkeit von Visual-RFT zu überprüfen, führte das Forschungsteam Tests zu mehreren visuellen Aufgaben wie Objekterkennung, Klassifizierung und Erdung durch. Die Ergebnisse zeigen, dass Visual-RFT unter offenem Vokabular, kleinem Stichprobenlernen und anderen Einstellungen signifikante Leistungsverbesserungen erzielen kann und besser als die SFT-Methode ist. Insbesondere bei Inferenzpositionierungsaufgaben zeigt Visual-RFT hervorragende Funktionen zum visuellen Denken. (Weitere Einzelheiten finden Sie in der Zeitung)

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Abbildung 2. Visual-RFT übertrifft SFT bei mehreren visuellen Aufgaben signifikant.

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Abbildung 3.. Visual-RFT-Framework-Diagramm, Aktualisierungsmodellparameter mit IOU- und CLS-Belohnungen und Verstärkungslernstrategien.

Das Forschungsteam verwendete IOU-basierte überprüfbare Belohnungen für Erkennungs- und Erdungsaufgaben sowie CLS-Belohnungen auf der Grundlage der Klassifizierungskorrektheit für Klassifizierungsaufgaben. (wie in Abbildung 3 gezeigt)

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Abbildung 4. Inferenzielle Positionierungsergebnisse zeigen, dass Visual-RFT SFT übertrifft, um Objekte genauer zu lokalisieren.

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Abbildung 5. Die Ergebnisse der feinkörnigen Klassifizierung der inferentiellen zeigen, dass Visual-RFT SFT übertrifft, um Objekte genauer zu lokalisieren.

Abbildung 4 und Abbildung 5 zeigen die Ausgabeergebnisse des Modells.

Experimentelle Ergebnisse der visuellen RFT

Basierend auf dem QWEN2-VL 2B/7B-Modell übertrifft Visual-RFT die SFT-Erkennung offener Objekte, eine kleine Stichprobenerkennung, feinkörnige Klassifizierung und Inferenzpositionierungsaufgaben umfassend. Die experimentellen Daten deckt gemeinsame Szenen wie Coco und LVIS sowie offene Szenen wie Internet -Cartoon -Charaktere ab. Mit nur einer geringen Datenmenge kann Visual-RFT die Migration der Fähigkeiten erreichen und hervorragende Leistung und Robustheit zeigen.

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Visuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle

Abbildung 5. Einige experimentelle Ergebnisse zeigen, dass Visual-RFT SFT signifikant übertrifft.

Visual-Rft ist Open Source!

Das Visual-RFT-Projekt ist Open Source und enthält Schulungen, Bewertungscode und Daten. Willkommen bei der Teilnahme!

Projektadresse: https://www.php.cn/link/ec56522bc9c2e15be17d11962eec453

Das obige ist der detaillierte Inhalt vonVisuelle Verbesserung Feinabstimmung! Die Deepseek R1 -Technologie wurde erfolgreich auf multimodales Feld migriert und ist vollständig offen für Quelle. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Neueste Artikel des Autors
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage