Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber-AI-php.cn

Rumah

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Linda Hamilton

Mar 12, 2025 pm 01:12 PM

git ai Mel industri Pokémon DeepSeek 视觉强化 qwen

Cadangan Besar: Visual-RFT-Projek Sumber Terbuka Visual-RFT-Peningkatan Visual dan Fine-Penalaan untuk Memperkasakan Model Bahasa Visual!

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

Lajur AIXIV terus memberi tumpuan kepada penyelidikan AI teratas di dunia dan telah menerbitkan lebih daripada 2,000 artikel akademik dan teknikal. Selamat datang untuk menyumbang untuk berkongsi pencapaian cemerlang anda! E -mel penyerahan: liyazhou@jiqizhixin.com;

Projek Visual-RFT (Penguatkuasaan Visual Fine-penalaan) berjaya menerapkan paradigma Pembelajaran Pembelajaran dan Penguatkuasaan Penguatkuasaan (RFT) yang berdasarkan kepada Model Besar Bahasa Visual (LVLM), memecahkan batasan kaedah terdahulu yang terhad kepada teks, matematik dan bidang lain. Dengan merancang ganjaran peraturan khusus untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT memberikan idea baru untuk latihan LVLM!

Rajah 1 menunjukkan keupayaan generalisasi yang kuat dari Visual-RFT: Model ini hanya memerlukan sedikit data untuk mengenal pasti Pokémon tertentu dengan tepat dalam Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber dan mencari koordinatnya.

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

^{Rajah 1. Visual-RFT memanjangkan penalaan halus kepada multimodal, dengan hanya 10-1000 keping data untuk meningkatkan prestasi model dengan ketara.}

Dari RFT ke Visual-RFT: Terobosan dalam pembelajaran tetulang dalam bidang multimodal

Teknologi penalaan yang dipertingkatkan dengan OpenAI membolehkan penghijrahan keupayaan model dicapai dengan hanya sebilangan kecil sampel. DeepSeek-R1 mendedahkan bahawa kebolehan penalarannya yang kuat berasal dari strategi pembelajaran tetulang berdasarkan ganjaran yang dapat disahkan. Walau bagaimanapun, strategi ini sebelum ini digunakan terutamanya dalam bidang seperti teks dan matematik. Visual-RFT berjaya memperluaskan strategi ini ke medan visual.

Arahan Visual Tradisional Penalaan halus (SFT) memerlukan sejumlah besar data, dan keupayaan pembelajaran sampel kecil Visual-RFT menjadikannya lebih berfaedah dalam senario data yang terhad.

Untuk mengesahkan keupayaan generalisasi Visual-RFT, pasukan penyelidikan menjalankan ujian pada pelbagai tugas visual seperti pengesanan objek, klasifikasi, dan asas. Hasilnya menunjukkan bahawa Visual-RFT dapat mencapai peningkatan prestasi yang signifikan di bawah perbendaharaan kata terbuka, pembelajaran sampel kecil dan tetapan lain, dan lebih baik daripada kaedah SFT. Terutama dalam tugas kedudukan kesimpulan, Visual-RFT menunjukkan keupayaan penalaran visual yang sangat baik. (Lihat kertas untuk maklumat lanjut)

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

^{Rajah 2. Visual-RFT melampaui SFT pada pelbagai tugas visual.}

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

^{Rajah 3. Rajah rangka kerja Visual-RFT, mengemas kini parameter model menggunakan strategi pembelajaran IOU dan CLS dan tetulang.}

Pasukan penyelidikan menggunakan ganjaran yang boleh disahkan berasaskan IOU untuk mengesan dan memberi tugas, dan ganjaran CLS berdasarkan ketepatan klasifikasi untuk tugas klasifikasi. (seperti yang ditunjukkan dalam Rajah 3)

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

^{Rajah 4. Keputusan kedudukan inferensi menunjukkan bahawa visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.}

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

^{Rajah 5. Hasil klasifikasi halus yang menyimpulkan menunjukkan bahawa Visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.}

Rajah 4 dan Rajah 5 menunjukkan hasil output model.

Hasil percubaan visual-RFT

Berdasarkan model QWEN2-VL 2B/7B, Visual-RFT secara komprehensif melepasi SFT dalam pengesanan objek terbuka, pengesanan sampel kecil, klasifikasi halus dan tugas kedudukan kesimpulan. Data eksperimen merangkumi adegan biasa seperti COCO dan LVI dan adegan terbuka seperti watak -watak kartun Internet. Dengan hanya sedikit data, Visual-RFT dapat mencapai penghijrahan keupayaan, menunjukkan prestasi dan keteguhan yang sangat baik.

Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber

^{Rajah 5. Beberapa keputusan eksperimen menunjukkan bahawa Visual-RFT melampaui SFT.}

Visual-RFT adalah sumber terbuka!

Projek Visual-RFT adalah sumber terbuka dan mengandungi latihan, kod penilaian dan data. Selamat datang untuk mengambil bahagian!

Alamat Projek: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453

Atas ialah kandungan terperinci Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

3 minggu yang lalu By DDD

Tahap kekuatan untuk setiap musuh & raksasa di R.E.P.O.

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Putera Biru: Cara sampai ke ruangan bawah tanah

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7923

Tutorial Java

1652

Tutorial CakePHP

1411

Tutorial Laravel

1303

Tutorial PHP

1249

Tunjukkan Lagi

Related knowledge

Apakah platform perdagangan mata wang teratas? 10 pertukaran mata wang maya terkini Apr 28, 2025 pm 08:06 PM

Saat ini disenaraikan di antara sepuluh mata wang mata wang maya yang teratas: 1. Binance, 2 Okx, 3. Gate.io, 4. Perpustakaan duit syiling, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9.

Platform perdagangan mata wang teratas yang manakah di dunia adalah versi terbaru dari Platform Perdagangan Top Top Top Apr 28, 2025 pm 08:09 PM

Sepuluh platform perdagangan cryptocurrency teratas di dunia termasuk Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin dan Poloniex, yang semuanya menyediakan pelbagai kaedah perdagangan dan langkah -langkah keselamatan yang kuat.

Bagaimana cara menggunakan Perpustakaan Chrono di C? Apr 28, 2025 pm 10:18 PM

Menggunakan perpustakaan Chrono di C membolehkan anda mengawal selang masa dan masa dengan lebih tepat. Mari kita meneroka pesona perpustakaan ini. Perpustakaan Chrono C adalah sebahagian daripada Perpustakaan Standard, yang menyediakan cara moden untuk menangani selang waktu dan masa. Bagi pengaturcara yang telah menderita dari masa. H dan CTime, Chrono tidak diragukan lagi. Ia bukan sahaja meningkatkan kebolehbacaan dan mengekalkan kod, tetapi juga memberikan ketepatan dan fleksibiliti yang lebih tinggi. Mari kita mulakan dengan asas -asas. Perpustakaan Chrono terutamanya termasuk komponen utama berikut: STD :: Chrono :: System_Clock: Mewakili jam sistem, yang digunakan untuk mendapatkan masa semasa. Std :: Chron

Bagaimana untuk mengukur prestasi benang di C? Apr 28, 2025 pm 10:21 PM

Mengukur prestasi thread di C boleh menggunakan alat masa, alat analisis prestasi, dan pemasa tersuai di perpustakaan standard. 1. Gunakan perpustakaan untuk mengukur masa pelaksanaan. 2. Gunakan GPROF untuk analisis prestasi. Langkah -langkah termasuk menambah pilihan -pg semasa penyusunan, menjalankan program untuk menghasilkan fail gmon.out, dan menghasilkan laporan prestasi. 3. Gunakan modul Callgrind Valgrind untuk melakukan analisis yang lebih terperinci. Langkah -langkah termasuk menjalankan program untuk menghasilkan fail callgrind.out dan melihat hasil menggunakan kcachegrind. 4. Pemasa tersuai secara fleksibel dapat mengukur masa pelaksanaan segmen kod tertentu. Kaedah ini membantu memahami sepenuhnya prestasi benang dan mengoptimumkan kod.

Pintu Masuk Laman Web Binance Binance Rasmi Masuk Terkini 2025 Apr 28, 2025 pm 07:54 PM

Lawati laman web rasmi Binance dan semak logo HTTPS dan Green Lock untuk mengelakkan laman web phishing, dan aplikasi rasmi juga boleh diakses dengan selamat.

Apakah sepuluh aplikasi perdagangan mata wang maya teratas? Kedudukan pertukaran mata wang digital terkini Apr 28, 2025 pm 08:03 PM

Sepuluh pertukaran mata wang digital teratas seperti Binance, OKX, Gate.io telah meningkatkan sistem mereka, urus niaga yang pelbagai dan langkah -langkah keselamatan yang ketat.

Bagaimana cara menggunakan aliran rentetan di C? Apr 28, 2025 pm 09:12 PM

Langkah -langkah utama dan langkah berjaga -jaga untuk menggunakan aliran rentetan dalam C adalah seperti berikut: 1. Buat aliran rentetan output dan tukar data, seperti menukar integer ke dalam rentetan. 2. Memohon untuk berseri struktur data kompleks, seperti menukar vektor ke dalam rentetan. 3. Beri perhatian kepada isu -isu prestasi dan mengelakkan penggunaan aliran rentetan yang kerap apabila memproses sejumlah besar data. Anda boleh mempertimbangkan menggunakan kaedah tambahan std :: string. 4. Perhatikan pengurusan ingatan dan elakkan penciptaan dan pemusnahan objek stream rentetan yang kerap. Anda boleh menggunakan semula atau menggunakan std :: stringstream.

Platform perdagangan mata wang teratas yang manakah di dunia adalah antara sepuluh platform perdagangan mata wang teratas pada tahun 2025 Apr 28, 2025 pm 08:12 PM

Sepuluh pertukaran cryptocurrency teratas di dunia pada tahun 2025 termasuk Binance, OKX, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex dan Poloniex, yang semuanya dikenali dengan jumlah dan keselamatan perdagangan mereka yang tinggi.

See all articles