Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual-AI-php.cn

Jadual Kandungan

VisionLLaMA reka bentuk seni bina keseluruhan

Kertas kerja ini juga membandingkan dengan ketepatan teratas 800 zaman latihan diselia sepenuhnya pada ImageNet menggunakan DeiT3-Large dalam Rajah 4, menunjukkan bahawa VisionLLaMA menumpu lebih cepat daripada DeiT3-L. Kertas kerja ini membandingkan lagi kehilangan latihan selama 800 zaman model ViT-Base di bawah rangka kerja MAE, dan digambarkan dalam Rajah 5. VisionLLaMA mempunyai kehilangan latihan yang lebih rendah pada permulaan dan mengekalkan trend ini sehingga akhir.

Rumah

Peranti teknologi

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

PHPz

Mar 07, 2024 pm 03:37 PM

Model kereta api

Selama lebih setengah tahun, seni bina LLaMA sumber terbuka Meta telah bertahan dalam ujian dalam LLM dan mencapai kejayaan yang hebat (latihan yang stabil dan penskalaan mudah).

Mengikuti idea penyelidikan ViT, bolehkah kita benar-benar mencapai penyatuan seni bina bahasa dan imej dengan bantuan seni bina LLaMA yang inovatif?

Mengenai cadangan ini, kajian terbaru VisionLLaMA telah membuat kemajuan. VisionLLaMA telah bertambah baik dengan ketara berbanding kaedah ViT asal dalam banyak tugas arus perdana seperti penjanaan imej (termasuk DIT asas yang Sora bergantung pada) dan pemahaman (pengkelasan, segmentasi, pengesanan, penyeliaan diri).

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Tajuk kertas: VisionLLaMA: Antara Muka LLaMA Disatukan untuk Tugasan Visi
Alamat kertas: https://absp.
Alamat kod : https://github.com/Meituan-AutoML/VisionLLaMA

Penyelidikan ini cuba untuk menyatukan seni bina imej dan bahasa serta boleh mengambil kesempatan daripada hasil latihan komuniti LLM mengenai LLaMA, termasuk yang stabil dan berkesan pengembangan dan penempatan. Latar Belakang Latar Belakang Model Bahasa adalah topik hangat dalam penyelidikan akademik semasa daripada penyelesaian yang digunakan dibina pada model sumber terbuka siri ini. Dalam kemajuan model multimodal, kebanyakan kaedah ini bergantung pada LLaMA untuk pemprosesan teks dan pengubah visual seperti CLIP untuk persepsi visual. Pada masa yang sama, banyak usaha ditumpukan untuk mempercepatkan kelajuan inferens LLaMA dan mengurangkan kos penyimpanan LLaMA. Secara keseluruhannya, LLaMA kini merupakan seni bina model bahasa besar de facto yang paling serba boleh dan penting.

Kejayaan seni bina LLaMA menyebabkan pengarang artikel ini mencadangkan idea yang mudah dan menarik: Bolehkah seni bina ini berjaya dalam modaliti visual yang sama? Jika jawapannya ya, maka kedua-dua model visual dan bahasa boleh menggunakan seni bina bersatu yang sama dan mendapat manfaat daripada pelbagai teknik penggunaan dinamik yang direka untuk LLaMA. Walau bagaimanapun, ini adalah isu yang kompleks kerana terdapat beberapa perbezaan yang jelas antara kedua-dua modaliti.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Terdapat perbezaan ketara dalam cara urutan teks dan tugasan visual memproses data. Di satu pihak, jujukan teks ialah data satu dimensi, manakala tugas penglihatan memerlukan pemprosesan data dua atau berbilang dimensi yang lebih kompleks. Sebaliknya, untuk tugas visual, biasanya perlu menggunakan rangkaian tulang belakang berstruktur piramid untuk meningkatkan prestasi, manakala pengekod LLaMA mempunyai struktur yang agak mudah. Selain itu, memproses input imej dan video dengan resolusi berbeza dengan cekap adalah satu cabaran. Perbezaan ini perlu dipertimbangkan sepenuhnya dalam penyelidikan silang antara domain teks dan visual untuk mencari penyelesaian yang lebih berkesan.

Tujuan kertas ini adalah untuk menangani cabaran ini dan mengecilkan jurang seni bina antara modaliti yang berbeza, mencadangkan seni bina LLaMA yang disesuaikan dengan tugas penglihatan. Dengan seni bina ini, isu yang berkaitan dengan perbezaan ragam boleh diselesaikan dan data visual dan linguistik boleh diproses secara seragam, yang membawa kepada hasil yang lebih baik.

Sumbangan utama artikel ini adalah seperti berikut:

1 Artikel ini mencadangkan VisionLLaMA, seni bina pengubah visual yang serupa dengan LLaMA, untuk mengurangkan perbezaan seni bina antara bahasa dan penglihatan.

2 Kertas kerja ini menyiasat cara untuk menyesuaikan VisionLLaMA kepada tugas penglihatan biasa, termasuk pemahaman imej dan penciptaan (Rajah 1). Kertas kerja ini menyiasat dua skema seni bina visual yang terkenal (struktur biasa dan struktur piramid) dan menilai prestasi mereka dalam senario pembelajaran yang diselia dan diselia sendiri. Selain itu, kertas kerja ini mencadangkan AS2DRoPE (iaitu, Autoscaling 2D RoPE), yang memanjangkan pengekodan kedudukan putaran daripada 1D ke 2D dan menggunakan penskalaan interpolasi untuk menampung resolusi sewenang-wenangnya.

3 Di bawah penilaian yang tepat, VisionLLaMA dengan ketara mengatasi pengubah penglihatan arus perdana dan diperhalusi dengan tepat dalam banyak tugas perwakilan seperti penjanaan imej, pengelasan, pembahagian semantik dan pengesanan objek. Eksperimen yang meluas menunjukkan bahawa VisionLLaMA mempunyai kelajuan penumpuan yang lebih pantas dan prestasi yang lebih baik daripada pengubah penglihatan sedia ada.

VisionLLaMA reka bentuk seni bina keseluruhan

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Conventional Transformer

VisionLLaMA konvensional mengikut kemungkinan reka bentuk VisionLLaMA yang mungkin dalam artikel ini. Untuk imej, ia mula-mula diubah dan diratakan menjadi jujukan, kemudian token kategori ditambah pada permulaan jujukan, dan keseluruhan jujukan diproses melalui blok L VisionLLaMA. Tidak seperti ViT, VisionLLaMA tidak menambah pengekodan kedudukan pada urutan input kerana blok VisionLLaMA mengandungi pengekodan kedudukan. Khususnya, blok ini berbeza daripada blok ViT standard dalam dua cara: perhatian diri dengan pengekodan kedudukan (RoPE) dan pengaktifan SwiGLU. Artikel ini masih menggunakan LayerNorm dan bukannya RMSNorm kerana artikel ini secara eksperimen mendapati bahawa artikel terdahulu menunjukkan prestasi yang lebih baik (lihat Jadual 11g). Struktur bongkah ditunjukkan dalam Rajah 2(a). Kertas kerja ini mendapati bahawa penggunaan RoPE 1D secara langsung dalam tugas penglihatan tidak digeneralisasikan dengan baik kepada resolusi yang berbeza, jadi ia dilanjutkan kepada bentuk 2D:

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Pyramid Structure Transformer

sangat mudah

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual untuk digunakan pada transformer berasaskan tingkap seperti Swin, jadi artikel ini memilih untuk meneroka cara membina pengubah struktur piramid yang berkuasa pada Twins garis dasar yang lebih kukuh. Seni bina asal Twins memanfaatkan pengekodan kedudukan bersyarat, pertukaran maklumat tempatan-global berjalin dalam bentuk perhatian tempatan-global. Komponen ini adalah biasa merentasi transformer, yang bermaksud tidak sukar untuk menggunakan VisionLLaMA pada pelbagai variasi transformer.

Matlamat artikel ini bukan untuk mencipta transformer penglihatan berstruktur piramid baharu, tetapi bagaimana untuk menyesuaikan reka bentuk asas VisionLLaMA berdasarkan reka bentuk sedia ada Oleh itu, artikel ini mengikut prinsip pengubahsuaian minimum kepada seni bina dan hiperparameter. Mengikut kaedah penamaan ViT, dua blok berturut-turut boleh ditulis sebagai:

di mana LSA ialah operasi perhatian kendiri tempatan dalam kumpulan, dan GSA dilakukan dengan berinteraksi dengan nilai utama yang mewakili dalam setiap sub-tingkap Pensubsampelan global perhatian. Artikel ini mengalih keluar pengekodan kedudukan bersyarat dalam struktur piramid VisionLLaMA kerana maklumat kedudukan sudah disertakan dalam AS2DRoPE. Selain itu, token kategori dialih keluar dan GAP (pengumpulan purata global) digunakan sebelum kepala pengelasan Struktur blok di bawah tetapan ini ditunjukkan dalam Rajah 2 (b).

Latihan atau inferens melebihi had panjang jujukan

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual Melanjutkan RoPE satu dimensi kepada dua dimensi: Memproses resolusi input yang berbeza adalah keperluan biasa dalam tugas penglihatan. Rangkaian saraf konvolusi menggunakan mekanisme tetingkap gelongsor untuk mengendalikan panjang berubah-ubah. Sebaliknya, kebanyakan transformer visual menggunakan operasi tetingkap tempatan atau interpolasi, mis. Kertas kerja ini menilai prestasi RoPE 1D dan mendapati bahawa ia mempunyai ketepatan tertinggi pada resolusi 224×224 Namun, apabila resolusi meningkat kepada 448×448, ketepatan menurun dengan mendadak malah mencapai 0. Oleh itu, kertas ini memanjangkan RoPE satu dimensi kepada dua dimensi. Untuk mekanisme perhatian diri berbilang kepala, RoPE 2D dikongsi antara kepala yang berbeza.

Interpolasi kedudukan membantu RoPE 2D untuk digeneralisasikan dengan lebih baik: Diilhamkan oleh beberapa kerja menggunakan interpolasi untuk melanjutkan tetingkap konteks LLaMA, dengan penyertaan resolusi yang lebih tinggi, VisionLLaMA menggunakan pendekatan yang sama untuk melanjutkan tetingkap konteks 2D . Tidak seperti tugas bahasa dengan panjang konteks tetap yang diperbesarkan, tugas visual seperti pengesanan objek sering mengendalikan resolusi pensampelan yang berbeza dalam lelaran yang berbeza. Artikel ini menggunakan resolusi input 224×224 untuk melatih model kecil dan menilai prestasi resolusi yang lebih besar tanpa melatih semula, membimbing artikel ini untuk menggunakan strategi interpolasi atau heterodina dengan lebih baik. Selepas percubaan, artikel ini memilih untuk menggunakan interpolasi penskalaan automatik (AS2DRoPE) berdasarkan "resolusi utama". Kaedah pengiraan untuk memproses imej segi empat sama H × H dan resolusi titik anchor B × B adalah seperti berikut:

🎜🎜🎜🎜🎜🎜Kaedah pengiraan ini cekap dan tidak memperkenalkan kos tambahan. Jika resolusi latihan kekal tidak berubah, AS2DRoPE merosot menjadi RoPE 2D. 🎜🎜

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Disebabkan keperluan untuk menambah maklumat lokasi pada nilai utama yang diringkaskan, artikel ini melaksanakan pemprosesan khas untuk GSA di bawah tetapan struktur piramid. Kekunci subsampel ini dijana melalui pengabstrakan pada peta ciri. Kertas ini menggunakan lilitan dengan saiz kernel k×k dan langkah k. Seperti yang ditunjukkan dalam Rajah 3, koordinat nilai kunci yang dijana boleh dinyatakan sebagai purata ciri sampel.

Hasil eksperimen

Kertas ini menilai secara menyeluruh keberkesanan VisionLLaMA terhadap tugas seperti penjanaan imej, pengelasan, segmentasi dan pengesanan. Secara lalai, semua model dalam artikel ini dilatih pada 8 GPU NVIDIA Tesla A100.

Penjanaan imej

Penjanaan imej berdasarkan rangka kerja DiT: Artikel ini memilih untuk menggunakan VisionLLaMA di bawah rangka kerja DiT kerana DiT ialah kerja perwakilan pada penjanaan imej menggunakan Transformer visual dan DD. Artikel ini menggantikan pengubah penglihatan asal DiT dengan VisionLLaMA, sambil mengekalkan komponen dan hiperparameter lain tidak berubah. Percubaan ini menunjukkan kepelbagaian VisionLLaMA pada tugas penjanaan imej. Sama seperti DiT, artikel ini menetapkan langkah sampel DDPM kepada 250, dan keputusan eksperimen ditunjukkan dalam Jadual 1. Selaras dengan kebanyakan metodologi, FID dianggap sebagai metrik utama dan dinilai pada metrik sekunder lain seperti sFID, Precision/Recall, Inception Score. Keputusan menunjukkan bahawa VisionLLaMA dengan ketara mengatasi prestasi DiT dalam pelbagai saiz model. Artikel ini juga memanjangkan bilangan langkah latihan model XL kepada 2352k untuk menilai sama ada model kami mempunyai kelebihan penumpuan yang lebih pantas atau masih berprestasi lebih baik di bawah tetapan tempoh latihan yang lebih lama. FID DiT-LLaMA-XL/2 adalah 0.83 lebih rendah daripada DiT-XL/2, menunjukkan bahawa VisionLLaMA bukan sahaja mempunyai kecekapan pengiraan yang lebih baik tetapi juga mempunyai prestasi yang lebih tinggi daripada DiT. Beberapa contoh yang dijana menggunakan model XL ditunjukkan dalam Rajah 1.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Penjanaan imej berdasarkan rangka kerja SiT: Rangka kerja SiT meningkatkan prestasi penjanaan imej menggunakan pengubah visual dengan ketara. Artikel ini menggantikan pengubah penglihatan dalam SiT dengan VisionLLaMA untuk menilai faedah seni bina model yang lebih baik, yang artikel ini memanggil SiT-LLaMA. Eksperimen mengekalkan semua tetapan dan hiperparameter yang tinggal dalam SiT, semua model telah dilatih menggunakan bilangan langkah yang sama, dan model interpolan dan halaju linear digunakan dalam semua eksperimen. Untuk perbandingan yang adil, kami juga menjalankan semula kod yang diterbitkan dan mengambil sampel 50k 256×256 imej menggunakan pensampel SDE (Euler) dengan 250 langkah, dan hasilnya ditunjukkan dalam Jadual 2. SiT-LLaMA mengatasi prestasi SiT dalam model pada pelbagai tahap kapasiti. Berbanding dengan SiT-L/2, SiT-LLaMA-L/2 menurunkan 5.0 FID, yang lebih besar daripada peningkatan yang dibawa oleh rangka kerja baharu (4.0 FID). Kertas ini juga menunjukkan pensampel ODE (dopri5) yang lebih cekap dalam Jadual 13, dan jurang prestasi dengan kaedah kami masih wujud. Kesimpulan yang sama boleh dibuat seperti dalam kertas SiT: SDE mempunyai prestasi yang lebih baik daripada rakan ODE mereka. . tidak termasuk set data lain Atau pengaruh kemahiran penyulingan, semua model telah dilatih menggunakan set latihan ImageNet-1K, dan keputusan ketepatan pada set pengesahan ditunjukkan dalam Jadual 3.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Perbandingan pengubah penglihatan konvensional: DeiT3 ialah pengubah penglihatan konvensional tercanggih semasa yang mencadangkan penambahan data khas dan melakukan carian hiperparameter yang meluas untuk meningkatkan prestasi. DeiT3 sensitif kepada hiperparameter dan terdedah kepada overfitting Menggantikan token kategori dengan GAP (pengumpulan purata global) akan menyebabkan ketepatan model DeiT3-Large menurun sebanyak 0.7% selepas 800 zaman latihan. Oleh itu, artikel ini menggunakan token kategori dan bukannya GAP dalam transformer biasa. Keputusan ditunjukkan dalam Jadual 3, di mana VisionLLaMA mencapai ketepatan 1 teratas setanding dengan DeiT3. Ketepatan pada resolusi tunggal tidak memberikan perbandingan yang komprehensif Kertas ini juga menilai prestasi pada resolusi imej yang berbeza, dan hasilnya ditunjukkan dalam Jadual 4. Untuk DeiT3, kami menggunakan interpolasi bikubik untuk pengekodan kedudukan yang boleh dipelajari. Walaupun kedua-dua model mempunyai prestasi yang setanding pada resolusi 224 × 224, jurang melebar apabila resolusi meningkat, yang bermaksud bahawa kaedah kami mempunyai keupayaan generalisasi yang lebih baik pada resolusi berbeza, yang baik untuk pengesanan sasaran dan banyak tugas hiliran lain.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Perbandingan pengubah visual bagi struktur piramid: Artikel ini menggunakan seni bina yang sama seperti Twins-SVT, dan konfigurasi terperinci disenaraikan dalam Jadual 17. Artikel ini mengalih keluar pengekodan kedudukan bersyarat kerana VisionLLaMA sudah mengandungi pengekodan kedudukan putaran. Oleh itu, VisionLLaMA ialah seni bina bebas konvolusi. Artikel ini mengikut semua tetapan termasuk hiperparameter dalam Twins-SVT, yang konsisten dengan Twins-SVT Artikel ini tidak menggunakan token kategori, tetapi menggunakan GAP. Keputusan ditunjukkan dalam Jadual 3. Kaedah kami mencapai prestasi yang setanding dengan Twins pada semua peringkat model dan sentiasa lebih baik daripada Swin. . penyulingan, dsb. Komponen yang boleh meningkatkan prestasi, pelaksanaan artikel ini adalah berdasarkan rangka kerja MMPretrain, menggunakan rangka kerja MAE dan menggunakan VisionLLaMA untuk menggantikan pengekod, sambil mengekalkan komponen lain tidak berubah. Eksperimen kawalan ini boleh menilai keberkesanan kaedah ini. Tambahan pula, kami menggunakan tetapan hiperparameter yang sama seperti kaedah yang dibandingkan, di mana kami masih mencapai peningkatan prestasi yang ketara berbanding garis dasar yang berkuasa.

Persediaan penalaan halus penuh: Dalam persediaan semasa, model ini mula-mula dimulakan dengan pemberat pra-latihan dan kemudian dilatih tambahan dengan parameter boleh dilatih sepenuhnya. VisionLLaMA-Base telah dilatih di ImageNet selama 800 zaman dan mencapai ketepatan 1 teratas sebanyak 84.0%, iaitu 0.8% lebih tinggi daripada ViT-Base. Kaedah dalam artikel ini melatih kira-kira 3 kali lebih cepat daripada SimMIM. Kertas kerja ini juga meningkatkan tempoh latihan kepada 1600 untuk mengesahkan sama ada VisionLLaMA boleh mengekalkan kelebihannya dengan sumber latihan yang mencukupi. VisionLLaMA-Base mencapai keputusan SOTA baharu antara varian MAE, dengan ketepatan 1 teratas 84.3%, peningkatan 0.9% berbanding ViT-Base. Memandangkan penalaan halus penuh mempunyai risiko ketepuan prestasi, penambahbaikan kaedah ini sangat ketara.

Penyiasatan linear: Kerja terbaru menganggap metrik probing linear sebagai penilaian pembelajaran perwakilan yang lebih dipercayai. Dalam persediaan semasa, model dimulakan dengan pemberat pralatihan daripada peringkat SSL. Kemudian, semasa latihan, keseluruhan rangkaian tulang belakang dibekukan kecuali kepala pengelas. Keputusan ditunjukkan dalam Jadual 5: pada kos latihan 800 zaman, VisionLLaMA-Base mengatasi ViTBase-MAE sebanyak 4.6%. Ia juga mengatasi prestasi ViT-Base-MAE yang dilatih selama 1600 zaman. Apabila VisionLLaMA dilatih selama 1600 zaman, VisionLLaMA-Base mencapai ketepatan top1 sebanyak 71.7%. Kaedah ini juga diperluaskan kepada VisionLLaMA-Large, yang bertambah baik sebanyak 3.6% berbanding ViT-Large. Segmentasi Semantik pada Dataset ADE20K Latihan yang diawasi oleh Pengawasan ke tetapan Swin, artikel ini menggunakan segmentasi semantik pada dataset ADE20K untuk menilai kaedah ini keberkesanan. Untuk perbandingan yang saksama, kertas kerja ini mengehadkan model garis dasar untuk hanya menggunakan ImageNet-1K untuk pra-latihan. Artikel ini menggunakan rangka kerja UpperNet dan menggantikan rangkaian tulang belakang dengan struktur piramid VisionLLaMA. Pelaksanaan artikel ini adalah berdasarkan rangka kerja MMSegmentation. Bilangan langkah latihan model ditetapkan kepada 160k, dan saiz kelompok global ialah 16. Keputusan ditunjukkan dalam Jadual 6. Pada FLOP yang serupa, kaedah kami mengatasi Swin dan Twins dengan lebih daripada 1.2% mIoU.

. Pelaksanaan artikel ini adalah berdasarkan MMSegmentasi, dan hasilnya ditunjukkan dalam Jadual 7. Untuk set pra-latihan 800 zaman, VisionLLaMA-B telah meningkatkan ViT-Base dengan ketara sebanyak 2.8% mIoU. Kaedah kami juga jauh lebih baik daripada penambahbaikan lain, seperti memperkenalkan objektif atau ciri latihan tambahan, yang akan membawa overhed tambahan kepada proses latihan dan mengurangkan kelajuan latihan. Sebaliknya, VisionLLaMA hanya melibatkan penggantian model asas dan mempunyai kelajuan latihan yang pantas. Kertas kerja ini menilai lagi prestasi 1600 zaman pra-latihan yang lebih lama, dan VisionLLaMA-B mencapai 50.2% mIoU pada set pengesahan ADE20K, yang meningkatkan prestasi ViT-B sebanyak 2.1% mIoU. Pengesanan objek pada dataset COCO tugas pengesanan objek pada set data COCO . Kertas kerja ini menggunakan rangka kerja Mask RCNN dan menggantikan rangkaian tulang belakang dengan VisionLLaMA berstruktur piramid yang dipralatih pada dataset ImageNet-1K selama 300 zaman, serupa dengan persediaan Swin. Oleh itu, model kami mempunyai bilangan parameter dan FLOP yang sama seperti Twins. Percubaan ini boleh digunakan untuk mengesahkan keberkesanan kaedah ini pada tugas pengesanan sasaran. Pelaksanaan artikel ini adalah berdasarkan rangka kerja MMDetection Jadual 8 menunjukkan keputusan kitaran latihan 36 zaman standard (3×). Khususnya, VisionLLaMA-B mengatasi Swin-S dengan 1.5% peta kotak dan 1.0% peta topeng. Berbanding dengan garis dasar Twins-B yang lebih kuat, kaedah kami mempunyai kelebihan 1.1% lebih tinggi kotak mAP dan 0.8% lebih tinggi topeng mAP. . Kertas ini menggunakan pengesan Mask RCNN dan menggantikan rangkaian tulang belakang vit-Base dengan model VisionLLaMA-Base, yang dipralatih dengan MAE selama 800 zaman. ViTDet asal menumpu secara perlahan dan memerlukan strategi latihan khusus, seperti tempoh latihan yang lebih lama, untuk mencapai prestasi optimum. Semasa proses latihan, kertas kerja ini mendapati bahawa VisionLLaMA mencapai prestasi yang sama selepas 30 zaman Oleh itu, kertas kerja ini secara langsung menggunakan strategi latihan 3x standard. Kos latihan kaedah kami hanya 36% daripada garis dasar. Tidak seperti kaedah yang dibandingkan, kaedah kami tidak melakukan carian hiperparameter optimum. Keputusan ditunjukkan dalam Jadual 9. VisionLLaMA mengatasi ViT-B sebanyak 0.6% pada peta kotak dan 0.8% pada peta topeng. . berjalan Varians adalah kecil.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Pengekodan kedudukan separa: Kertas ini menggunakan RoPE untuk melaraskan nisbah semua saluran Keputusan ditunjukkan dalam Jadual 11b Keputusan menunjukkan bahawa menetapkan nisbah pada ambang yang kecil boleh mencapai prestasi yang baik, dan tiada perbezaan yang ketara diperhatikan antara yang berbeza tetapan prestasi. Oleh itu, artikel ini mengekalkan tetapan lalai dalam LLaMA.

Kekerapan asas: Kertas ini menukar dan membandingkan kekerapan asas, dan keputusan ditunjukkan dalam Jadual 11c Keputusan menunjukkan bahawa prestasi adalah teguh kepada julat frekuensi yang luas. Oleh itu, artikel ini mengekalkan nilai lalai dalam LLaMA untuk mengelakkan pengendalian khas tambahan pada masa penggunaan.

Pengekodan kedudukan dikongsi antara setiap kepala perhatian: Kertas kerja ini mendapati bahawa berkongsi PE yang sama antara kepala yang berbeza (frekuensi dalam setiap kepala berbeza dari 1 hingga 10000) adalah lebih baik daripada PE bebas (kekerapan dalam semua saluran berbeza dari 1 hingga 10000 perubahan ), keputusan ditunjukkan dalam Jadual 11d.

Strategi abstraksi ciri: Kertas kerja ini membandingkan dua strategi pengekstrakan ciri biasa pada model skala parameter besar (-L): token kategori dan GAP Hasilnya ditunjukkan dalam Jadual 11e, yang lebih baik daripada GAP adalah berbeza daripada kesimpulan yang diperolehi dalam PEG [13]. Walau bagaimanapun, tetapan latihan untuk kedua-dua kaedah agak berbeza. Kertas kerja ini juga menjalankan eksperimen tambahan menggunakan DeiT3-L dan mencapai kesimpulan yang sama. Artikel ini menilai lagi prestasi model "kecil" (-S) dan "asas" (-B). Menariknya, kesimpulan yang bertentangan diperhatikan dalam model kecil, dan terdapat sebab untuk mengesyaki bahawa kadar laluan jatuh yang lebih tinggi yang digunakan dalam DeiT3 menjadikan kaedah abstraksi bebas parameter seperti GAP sukar dicapai.

Strategi pengekodan kedudukan: Kertas kerja ini juga menilai strategi pengekodan kedudukan mutlak lain, seperti pengekodan kedudukan yang boleh dipelajari dan PEG, pada struktur piramid VisionLLaMA-S. Disebabkan kewujudan garis dasar yang kukuh, kertas ini menggunakan model "kecil", dan hasilnya ditunjukkan dalam Jadual 11f: PE yang boleh dipelajari tidak meningkatkan prestasi, PEG meningkatkan sedikit garis dasar daripada 81.6% kepada 81.8%. Artikel ini tidak memasukkan PEG sebagai komponen penting kerana tiga sebab. Pertama, kertas kerja ini cuba membuat pengubahsuaian minimum kepada LLaMA. Kedua, matlamat kertas ini adalah untuk mencadangkan pendekatan umum untuk pelbagai tugas seperti ViT. Untuk rangka kerja imej bertopeng seperti MAE, PEG meningkatkan kos latihan dan mungkin menjejaskan prestasi pada tugas hiliran. Pada dasarnya, PEG jarang boleh digunakan di bawah rangka kerja MAE, tetapi pengendali yang tidak mesra penempatan akan diperkenalkan. Sama ada lilitan jarang mengandungi maklumat kedudukan sebanyak versi padatnya masih menjadi persoalan terbuka. Ketiga, reka bentuk bebas modaliti membuka jalan untuk penyelidikan lanjut meliputi modaliti lain di luar teks dan visual.

Sensitiviti kepada saiz input: Tanpa latihan, artikel ini membandingkan lagi prestasi resolusi yang dipertingkatkan dan resolusi biasa, dan hasilnya ditunjukkan dalam Jadual 12. Pengubah struktur piramid digunakan di sini kerana ia lebih popular untuk tugas hiliran daripada versi bukan hierarki yang sepadan. Tidak menghairankan bahawa prestasi 1D-RoPE terjejas teruk oleh perubahan resolusi. Interpolasi NTK-Aware dengan α = 2 mencapai prestasi yang serupa dengan 2D-RoPE, yang sebenarnya ialah NTKAware (α = 1). AS2DRoPE menunjukkan prestasi terbaik pada resolusi yang lebih besar. . Memandangkan SDE jauh lebih perlahan daripada ODE, kami memilih untuk menggunakan pensampel ODE dalam artikel ini. Keputusan dalam Jadual 10 menunjukkan bahawa VisionLLaMA menumpu lebih cepat daripada ViT pada semua model. SiT-LLaMA dengan 300,000 lelaran latihan malah mengatasi model garis dasar dengan 400,000 lelaran latihan.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Kertas kerja ini juga membandingkan dengan ketepatan teratas 800 zaman latihan diselia sepenuhnya pada ImageNet menggunakan DeiT3-Large dalam Rajah 4, menunjukkan bahawa VisionLLaMA menumpu lebih cepat daripada DeiT3-L. Kertas kerja ini membandingkan lagi kehilangan latihan selama 800 zaman model ViT-Base di bawah rangka kerja MAE, dan digambarkan dalam Rajah 5. VisionLLaMA mempunyai kehilangan latihan yang lebih rendah pada permulaan dan mengekalkan trend ini sehingga akhir.

Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual

Atas ialah kandungan terperinci Melebihi ViT, Meituan, Universiti Zhejiang, dsb. VisionLLAMA yang dicadangkan secara menyeluruh, seni bina bersatu untuk tugas visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7453

Tutorial CakePHP

1374

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Versi Kuaishou Sora 'Ke Ling' dibuka untuk ujian: menghasilkan video lebih 120-an, memahami fizik dengan lebih baik dan boleh memodelkan pergerakan kompleks dengan tepat Jun 11, 2024 am 09:51 AM

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Tentera Udara A.S. mempamerkan jet pejuang AI pertamanya dengan profil tinggi! Menteri secara peribadi menjalankan pandu uji tanpa campur tangan semasa keseluruhan proses, dan 100,000 baris kod telah diuji selama 21 kali. May 07, 2024 pm 05:00 PM

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,

See all articles