Molmo: Model bahasa penglihatan terbuka yang dibina di dataset terbuka berkualiti tinggi
Penguasaan model bahasa, visi besar (VLMs) yang berpandangan, menghalang penyelidikan terbuka. Alternatif sumber terbuka sering ketinggalan, bergantung kepada data sintetik yang dihasilkan oleh model proprietari, mengehadkan keterbukaan yang benar. Molmo, VLM yang canggih, menangani ini dengan memanfaatkan keupayaan multimodal berkualiti tinggi yang dilatih secara eksklusif pada dataset terbuka dan metodologi latihan bebas.
Dataset Pixmo yang disertakan adalah penting untuk kejayaan Molmo. Ia mengatasi batasan kebolehaksesan data dengan menggunakan anotasi ucapan manusia untuk membuat pasangan imej imej terperinci. Pendekatan ini menghasilkan kapsyen yang kaya dan berkepadatan tinggi, mengelakkan batasan yang wujud dalam dataset sintetik.
Senibina Molmo adalah reka bentuk multimodal standard: pengekod penglihatan ditambah dengan model bahasa.
Ciri -ciri utama:
Butiran Dataset:
Menyelam dalam seni bina:
Pemprosesan imej berbilang skala, pelbagai tanaman meningkatkan pemahaman model mengenai konteks imej. Pilihan klip ke atas Siglip dibenarkan oleh prestasi unggulnya pada data resolusi tinggi, pelbagai tanaman. Penyambung MLP dan lapisan penyatuan dengan cekap menguruskan dimensi, memastikan komunikasi yang berkesan antara visi dan komponen bahasa. Transformer Decoder-Only LLM membolehkan saiz dan prestasi model yang boleh disesuaikan.
Pra-latihan satu peringkat, didorong oleh data berkualiti tinggi, membuktikan cekap dan berkesan. Penalaan halus yang diselia seterusnya pada tugas-tugas yang pelbagai selanjutnya menyempurnakan keupayaan model. Ketiadaan RLHF adalah pilihan yang disengajakan, memanfaatkan kekayaan dataset Pixmo.
Perbandingan penanda aras menyerlahkan prestasi Molmo terhadap VLM lain, termasuk Llava, Qwen2-VL, dan Paligemma, mempamerkan kelebihan daya saingnya. Ujian keutamaan manusia selanjutnya mengesahkan keramahan pengguna.
Contoh tangan (disingkat):
Panduan tangan terperinci, termasuk contoh kod menggunakan buku nota Colab, menunjukkan cara memuatkan model, memproses imej, dan menjana output. Contohnya menunjukkan cara mengekstrak maklumat berstruktur dari imej, mempamerkan kebolehsuaian Molmo. Teknik untuk mengendalikan imej yang besar dan kompleks dengan memisahkannya ke dalam patch juga diterokai.
Kesimpulan:
Molmo mewakili kemajuan yang signifikan dalam VLM sumber terbuka. Komitmennya terhadap dataset terbuka yang berkualiti tinggi, latihan yang cekap, dan seni bina yang fleksibel meletakkannya sebagai alat yang kuat dan serba boleh untuk pelbagai tugas bahasa penglihatan. Penjelasan terperinci dan contoh tangan memberikan pemahaman yang komprehensif tentang keupayaannya.
Soalan Lazim (disingkat):
Atas ialah kandungan terperinci Molmo dan Pixmo yang menyelam dengan percubaan tangan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!