


Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber
Cadangan Besar: Visual-RFT-Projek Sumber Terbuka Visual-RFT-Peningkatan Visual dan Fine-Penalaan untuk Memperkasakan Model Bahasa Visual!
Lajur AIXIV terus memberi tumpuan kepada penyelidikan AI teratas di dunia dan telah menerbitkan lebih daripada 2,000 artikel akademik dan teknikal. Selamat datang untuk menyumbang untuk berkongsi pencapaian cemerlang anda! E -mel penyerahan: liyazhou@jiqizhixin.com;
Projek Visual-RFT (Penguatkuasaan Visual Fine-penalaan) berjaya menerapkan paradigma Pembelajaran Pembelajaran dan Penguatkuasaan Penguatkuasaan (RFT) yang berdasarkan kepada Model Besar Bahasa Visual (LVLM), memecahkan batasan kaedah terdahulu yang terhad kepada teks, matematik dan bidang lain. Dengan merancang ganjaran peraturan khusus untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT memberikan idea baru untuk latihan LVLM!
Rajah 1 menunjukkan keupayaan generalisasi yang kuat dari Visual-RFT: Model ini hanya memerlukan sedikit data untuk mengenal pasti Pokémon tertentu dengan tepat dalam Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber dan mencari koordinatnya.
Rajah 1. Visual-RFT memanjangkan penalaan halus kepada multimodal, dengan hanya 10-1000 keping data untuk meningkatkan prestasi model dengan ketara.
Dari RFT ke Visual-RFT: Terobosan dalam pembelajaran tetulang dalam bidang multimodal
Teknologi penalaan yang dipertingkatkan dengan OpenAI membolehkan penghijrahan keupayaan model dicapai dengan hanya sebilangan kecil sampel. DeepSeek-R1 mendedahkan bahawa kebolehan penalarannya yang kuat berasal dari strategi pembelajaran tetulang berdasarkan ganjaran yang dapat disahkan. Walau bagaimanapun, strategi ini sebelum ini digunakan terutamanya dalam bidang seperti teks dan matematik. Visual-RFT berjaya memperluaskan strategi ini ke medan visual.
Arahan Visual Tradisional Penalaan halus (SFT) memerlukan sejumlah besar data, dan keupayaan pembelajaran sampel kecil Visual-RFT menjadikannya lebih berfaedah dalam senario data yang terhad.
Untuk mengesahkan keupayaan generalisasi Visual-RFT, pasukan penyelidikan menjalankan ujian pada pelbagai tugas visual seperti pengesanan objek, klasifikasi, dan asas. Hasilnya menunjukkan bahawa Visual-RFT dapat mencapai peningkatan prestasi yang signifikan di bawah perbendaharaan kata terbuka, pembelajaran sampel kecil dan tetapan lain, dan lebih baik daripada kaedah SFT. Terutama dalam tugas kedudukan kesimpulan, Visual-RFT menunjukkan keupayaan penalaran visual yang sangat baik. (Lihat kertas untuk maklumat lanjut)
Rajah 2. Visual-RFT melampaui SFT pada pelbagai tugas visual.
Rajah 3. Rajah rangka kerja Visual-RFT, mengemas kini parameter model menggunakan strategi pembelajaran IOU dan CLS dan tetulang.
Pasukan penyelidikan menggunakan ganjaran yang boleh disahkan berasaskan IOU untuk mengesan dan memberi tugas, dan ganjaran CLS berdasarkan ketepatan klasifikasi untuk tugas klasifikasi. (seperti yang ditunjukkan dalam Rajah 3)
Rajah 4. Keputusan kedudukan inferensi menunjukkan bahawa visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.
Rajah 5. Hasil klasifikasi halus yang menyimpulkan menunjukkan bahawa Visual-RFT melampaui SFT untuk mencari objek dengan lebih tepat.
Rajah 4 dan Rajah 5 menunjukkan hasil output model.
Hasil percubaan visual-RFT
Berdasarkan model QWEN2-VL 2B/7B, Visual-RFT secara komprehensif melepasi SFT dalam pengesanan objek terbuka, pengesanan sampel kecil, klasifikasi halus dan tugas kedudukan kesimpulan. Data eksperimen merangkumi adegan biasa seperti COCO dan LVI dan adegan terbuka seperti watak -watak kartun Internet. Dengan hanya sedikit data, Visual-RFT dapat mencapai penghijrahan keupayaan, menunjukkan prestasi dan keteguhan yang sangat baik.
Rajah 5. Beberapa keputusan eksperimen menunjukkan bahawa Visual-RFT melampaui SFT.
Visual-RFT adalah sumber terbuka!
Projek Visual-RFT adalah sumber terbuka dan mengandungi latihan, kod penilaian dan data. Selamat datang untuk mengambil bahagian!
Alamat Projek: https://www.php.cn/link/ec56522bc9c2e15be17d11962eeec453
Atas ialah kandungan terperinci Peningkatan penalaan visual! Teknologi DeepSeek R1 telah berjaya dipindahkan ke medan multimodal dan terbuka sepenuhnya ke sumber. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

Video Face Swap
Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Saat ini disenaraikan di antara sepuluh mata wang mata wang maya yang teratas: 1. Binance, 2 Okx, 3. Gate.io, 4. Perpustakaan duit syiling, 5. Siren, 6. Huobi Global Station, 7. Bybit, 8. Kucoin, 9.

Sepuluh platform perdagangan cryptocurrency teratas di dunia termasuk Binance, OKX, Gate.io, Coinbase, Kraken, Huobi Global, Bitfinex, Bittrex, Kucoin dan Poloniex, yang semuanya menyediakan pelbagai kaedah perdagangan dan langkah -langkah keselamatan yang kuat.

Menggunakan perpustakaan Chrono di C membolehkan anda mengawal selang masa dan masa dengan lebih tepat. Mari kita meneroka pesona perpustakaan ini. Perpustakaan Chrono C adalah sebahagian daripada Perpustakaan Standard, yang menyediakan cara moden untuk menangani selang waktu dan masa. Bagi pengaturcara yang telah menderita dari masa. H dan CTime, Chrono tidak diragukan lagi. Ia bukan sahaja meningkatkan kebolehbacaan dan mengekalkan kod, tetapi juga memberikan ketepatan dan fleksibiliti yang lebih tinggi. Mari kita mulakan dengan asas -asas. Perpustakaan Chrono terutamanya termasuk komponen utama berikut: STD :: Chrono :: System_Clock: Mewakili jam sistem, yang digunakan untuk mendapatkan masa semasa. Std :: Chron

Mengukur prestasi thread di C boleh menggunakan alat masa, alat analisis prestasi, dan pemasa tersuai di perpustakaan standard. 1. Gunakan perpustakaan untuk mengukur masa pelaksanaan. 2. Gunakan GPROF untuk analisis prestasi. Langkah -langkah termasuk menambah pilihan -pg semasa penyusunan, menjalankan program untuk menghasilkan fail gmon.out, dan menghasilkan laporan prestasi. 3. Gunakan modul Callgrind Valgrind untuk melakukan analisis yang lebih terperinci. Langkah -langkah termasuk menjalankan program untuk menghasilkan fail callgrind.out dan melihat hasil menggunakan kcachegrind. 4. Pemasa tersuai secara fleksibel dapat mengukur masa pelaksanaan segmen kod tertentu. Kaedah ini membantu memahami sepenuhnya prestasi benang dan mengoptimumkan kod.

Lawati laman web rasmi Binance dan semak logo HTTPS dan Green Lock untuk mengelakkan laman web phishing, dan aplikasi rasmi juga boleh diakses dengan selamat.

Sepuluh pertukaran mata wang digital teratas seperti Binance, OKX, Gate.io telah meningkatkan sistem mereka, urus niaga yang pelbagai dan langkah -langkah keselamatan yang ketat.

Langkah -langkah utama dan langkah berjaga -jaga untuk menggunakan aliran rentetan dalam C adalah seperti berikut: 1. Buat aliran rentetan output dan tukar data, seperti menukar integer ke dalam rentetan. 2. Memohon untuk berseri struktur data kompleks, seperti menukar vektor ke dalam rentetan. 3. Beri perhatian kepada isu -isu prestasi dan mengelakkan penggunaan aliran rentetan yang kerap apabila memproses sejumlah besar data. Anda boleh mempertimbangkan menggunakan kaedah tambahan std :: string. 4. Perhatikan pengurusan ingatan dan elakkan penciptaan dan pemusnahan objek stream rentetan yang kerap. Anda boleh menggunakan semula atau menggunakan std :: stringstream.

Sepuluh pertukaran cryptocurrency teratas di dunia pada tahun 2025 termasuk Binance, OKX, Gate.io, Coinbase, Kraken, Huobi, Bitfinex, Kucoin, Bittrex dan Poloniex, yang semuanya dikenali dengan jumlah dan keselamatan perdagangan mereka yang tinggi.
