Sebelum terdapat OpenAI's GPT-4o, dan kemudiannya terdapat beberapa model besar berbilang modal termaju yang melanda satu demi satu.
Pengamal lain terkejut dan mula berfikir tentang bagaimana untuk mengejar model super ini semula.
Dalam kertas kerja oleh HuggingFace dan Universiti Sorbonne di Perancis ini, mereka meringkaskan pengalaman utama dalam membina model visual yang besar dan menunjukkan cara untuk pembangun.
Gambar
Pengalaman ini merangkumi banyak aspek seperti pemilihan seni bina model, kaedah latihan, data latihan, dsb. Penulis memberikan ringkasan terperinci selepas beberapa perbandingan Perkara teras termasuk:
Boleh dikatakan bahawa HF dapat mencipta Idefics2, model visual SOTA dengan skala yang sama, bergantung pada pengalaman ini.
Idefics2 adalah berdasarkan Mistral-7B Ia mempunyai volum parameter keseluruhan 8B dan boleh mengecam fon tulisan tangan dengan tepat.
Gambar
Ini adalah ulasan yang baik oleh para profesional yang mengatakan bahawa ini adalah laporan tinjauan yang baik dan sangat membantu pembangun model visual, tetapi pada masa yang sama, ia juga diingatkan untuk tidak menganggapnya sebagai ubat penawar. .
Gambar
Sudah tentu, sesetengah orang bergurau bahawa mana-mana data seni bina hanyalah awan, dan mempunyai GPU adalah yang paling kritikal.
Gambar
Terdapat beberapa kebenaran di dalamnya, tetapi mengetepikan bergurau, mari kita lihat pengalaman yang dibawa oleh HuggingFace kepada kita.
Pengalaman dalam kertas HuggingFace ini datang daripada proses pembangunan model visual Idefics2.
Berbanding dengan Idefics1 dan Flamingo generasi sebelumnya, skala ex-SOTA yang sama, Idefics2 berprestasi baik pada berbilang set data, malah mengatasi model 13B yang lebih besar.
Pada masa yang sama, berbanding dengan MM1 yang lebih baik sedikit daripada Idefics2 pada set data COCO, Idefics2 menggunakan token yang jauh lebih sedikit pada setiap gambar.
Pictures
Fom perkembangan sebenar IDEFICS2, pengalaman Huggingface membawa kepada kami sekurang -kurangnya termasuk aspek -aspek berikut:
Gambar
Sudah tentu, ini tidak bermakna menaik taraf pengekod visual tidak mempunyai kesan Apabila keadaan membenarkan, memilih pengekod visual yang lebih baik juga boleh membawa peningkatan prestasi tertentu. Selain itu, perhatian harus diberikan kepada pemilihan untuk memadankan tugas hiliran Contohnya, pada tugas pengecaman teks, pengekod visual yang menyokong resolusi berubah-ubah harus digunakan jika tugas memerlukan kelajuan inferens yang tinggi, model yang lebih ringan boleh digunakan dipilih. Dan dalam aplikasi praktikal, kelajuan inferens dan penggunaan memori juga merupakan faktor yang perlu ditimbang SigLIP-SO400M yang dipilih oleh Idefics2 telah mencapai keseimbangan yang baik antara prestasi dan kecekapan. Pilih jenis seni bina mengikut keperluan anda Mengenai pilihan seni bina, kertas kerja ini membincangkan dua yang biasa, autoregresif lengkap dan perhatian silang. Seni bina autoregresif sepenuhnya menjana setiap output secara autoregresif, dengan mengambil kira kebergantungan keseluruhan jujukan Yang terakhir ini membolehkan model memfokus secara dinamik pada bahagian lain dari modaliti yang lain apabila memproses satu modaliti, mencapai interaksi yang lebih fleksibel antara; modaliti.Dalam karya tertentu, penulis mendapati seni bina yang berprestasi lebih baik bergantung pada sama ada tulang belakang yang telah dilatih itu dibekukan.
(Ringkasnya, jika tulang belakang pra-latihan menyertai proses latihan formal, ia tidak dibekukan, dan jika ia tidak mengambil bahagian, ia dibekukan)
Jika ia tidak dibekukan, prestasi autoregresif sepenuhnya seni bina adalah lebih baik, dan sebaliknya, seni bina silang perhatian adalah lebih baik.
Gambar
Bagi sama ada tulang belakang perlu dibekukan, ia bergantung kepada fokus keperluan pemaju.
Di bawah keadaan sumber yang terhad, jika anda memerlukan prestasi tinggi dan sangat sensitif terhadap kependaman, pembekuan adalah lebih sesuai
Jika anda mahu model mempunyai fleksibiliti dan kebolehsuaian yang lebih tinggi, anda harus memilih kaedah latihan tanpa pembekuan.
Khusus untuk Idefics2, kami memilih untuk tidak membekukan tulang belakang, jadi kami menggunakan seni bina autoregresif sepenuhnya dengan sewajarnya.
Gambar
Memilih seni bina yang sesuai adalah penting, tetapi proses latihan juga penting semasa proses latihan Idefics2, penulis merumuskan pengalaman ini untuk rujukan kami:
adalah untuk mengguna pakai strategi pra-latihan berperingkat secara keseluruhan, menggunakan imej resolusi rendah pada peringkat awal, dan kemudian memperkenalkan dokumen PDF resolusi lebih tinggi Pendekatan ini boleh membina pelbagai keupayaan model secara beransur-ansur.
Yang kedua ialah menggunakan Learned Pooling dan bukannya memasukkan terus ciri imej ke dalam model bahasa, yang boleh mengurangkan bilangan token imej dengan ketara, meningkatkan kecekapan latihan dan inferens dengan ketara, dan juga membawa peningkatan prestasi.
Yang ketiga ialah peningkatan data Satu kaedah adalah untuk membahagikan imej kepada berbilang sub-imej dan menghantarnya ke model semasa latihan Ini boleh menukar masa pengkomputeran untuk prestasi yang lebih kuat semasa membuat inferens , tetapi tidak Semua imej perlu dirawat dengan cara ini.
Keempat, menggunakan data dan tugasan yang lebih pelbagai dalam fasa penalaan halus arahan boleh meningkatkan generalisasi dan keteguhan model.
Selain itu, untuk menstabilkan latihan, apabila tulang belakang mod tunggal pra-latihan menyertai latihan (bukan beku), penulis juga menggunakan teknologi LoRA untuk menyesuaikan parameter pra-latihan.
Selain proses latihan itu sendiri, data yang dipilih juga akan memberi kesan yang ketara ke atas prestasi model.
Dari awal peringkat pengumpulan, perhatian harus diberikan kepada memilih berbilang jenis data Contohnya, data yang digunakan oleh Idefics2 merangkumi tiga kategori - dokumen dengan penjajaran imej dan teks (seperti halaman web), pasangan teks imej. (seperti tajuk gambar), Dan dokumen PDF dengan anotasi OCR.
Perkadaran pelbagai jenis data juga harus seimbang dengan sewajarnya mengikut keperluan sebenar, bukannya dibahagikan kepada bahagian yang sama.
Bagi saiz data, lebih banyak lebih baik jika keadaan membenarkan, perhatian harus diberikan untuk menapis data berkualiti rendah.
Sudah tentu, pengumpulan hanyalah satu langkah untuk mendapatkan data latihan Jika anda ingin melatih model dengan baik, pemprosesan tertentu diperlukan.
Gunakan strategi prapemprosesan dan peningkatan yang berbeza untuk jenis data yang berbeza Contohnya, untuk data OCR, perlu menggunakan imej dengan resolusi yang lebih tinggi, manakala data lain boleh menggunakan resolusi yang lebih rendah.
Perlu diingatkan bahawa nisbah aspek dan resolusi asal harus dikekalkan semasa memproses imej, yang boleh menjimatkan overhed pengiraan latihan dan inferens sambil meningkatkan kebolehsuaian model.
Jika anda rasa pengalaman ini telah memberi inspirasi kepada anda, anda boleh membaca kertas asal untuk maklumat lanjut Anda juga dialu-alukan untuk berkongsi pengalaman pembangunan anda di ruangan komen.
Alamat kertas:https://www.php.cn/link/52c8b8d56837155b4870fc2658b676f0
Atas ialah kandungan terperinci HuggingFace mengajar anda cara membuat model visual SOTA. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!