


Tanpa latihan hiliran, Tip-Adapter sangat meningkatkan ketepatan klasifikasi imej CLIP
- Pautan kertas: https://arxiv.org/pdf/2207.09519.pdf
- Pautan kod: https://github.com/gaopengcuhk/Tip-Adapter
1. Latar Belakang Penyelidikan
Model Pra-latihan Bahasa Imej Kontras (CLIP) baru-baru ini telah menunjukkan keupayaan pemindahan domain visual yang kukuh dan boleh melakukan pengecaman imej sifar tangkapan pada set data hiliran baharu. Untuk meningkatkan lagi prestasi migrasi CLIP, kaedah sedia ada menggunakan tetapan beberapa tangkapan, seperti CoOp dan CLIP-Adapter, yang menyediakan sejumlah kecil data latihan untuk set data hiliran, membolehkan CLIP membuat keputusan dengan lebih baik untuk senario visual yang berbeza . Walau bagaimanapun, langkah latihan tambahan ini akan membawa overhed sumber masa dan ruang yang banyak, yang pada tahap tertentu menjejaskan keupayaan pemindahan pengetahuan pantas yang wujud CLIP. Oleh itu, kami mencadangkan Penyesuai Petua, kaedah pengelasan imej beberapa tangkapan yang tidak memerlukan latihan hiliran tambahan dan boleh meningkatkan ketepatan CLIP dengan banyak. Berdasarkan ini, kami telah mencadangkan penyelesaian yang boleh mencapai prestasi terkini dengan hanya sedikit penalaan halus: Tip-Adapter-F, mencapai kompromi terbaik antara kecekapan dan prestasi. Seperti yang ditunjukkan dalam Jadual 1 di bawah, Tip-Adapter tidak memerlukan sebarang masa latihan, yang boleh meningkatkan CLIP dalam set data ImageNet sebanyak +1.7% ketepatan (Ketepatan), manakala Tip-Adapter-F hanya memerlukan satu persepuluh daripada masa latihan daripada penyelesaian sebelumnya (Epochs, Time), prestasi klasifikasi sedia ada yang terbaik boleh dicapai.
Jadual 1: Perbandingan ketepatan klasifikasi imej 16 tangkapan dan masa latihan skema berbeza pada dataset ImageNet
2. Kaedah Penyelidikan
1.Penyesuai Petua
Struktur rangkaian keseluruhan Penyesuai Petua ditunjukkan dalam Rajah 1 di bawah Untuk set data dan label latihan beberapa pukulan, kami gunakan CLIP menggunakan penyelesaian bukan latihan untuk membina model cache (Model Cache), yang menyimpan pengetahuan klasifikasi daripada data latihan hiliran semasa ujian, Penyesuai Petua menambah ramalan Model Cache dan ramalan CLIP asal secara linear; memperoleh keputusan pengelasan akhir yang lebih kukuh.
Secara terperinci, kami menggunakan pengekod visual pra-latihan CLIP (Pengekod Visual) untuk mengekstrak ciri semua imej dalam set latihan beberapa tangkapan sebagai Kunci Model Cache; Tukar tag imej yang sepadan ke dalam bentuk pengekodan satu panas sebagai Nilai Model Cache. Kaedah pembinaan Model Cache Nilai Kunci ini tidak memerlukan sebarang overhed latihan kerana ia menggunakan Pengekod Visual yang telah terlatih dan memandangkan set latihan beberapa tangkapan hanya mengandungi sebilangan kecil imej untuk setiap kategori (1 hingga 16 tangkapan), Model Cache juga tidak menggunakan overhed memori grafik tambahan Rujuk kepada penunjuk GPU dalam Jadual 1.
Untuk imej ujian, kami akan menggunakan Pengekod Visual CLIP terlebih dahulu untuk mendapatkan ciri-cirinya, dan kemudian merawat ciri tersebut sebagai Model Pertanyaan kepada Cache untuk mendapatkan semula Pengetahuan data beberapa tangkapan hiliran. Memandangkan Kekunci juga diekstrak oleh Pengekod Visual CLIP, ia mempunyai asal yang sama dengan ciri imej ujian Query Kami boleh mengira secara langsung persamaan kosinus antara mereka untuk mendapatkan matriks bersebelahan Key-Query ini boleh dianggap sebagai setiap Berat yang sepadan kepada Nilai. Oleh itu, kita boleh mengira jumlah wajaran Nilai untuk mendapatkan ramalan pengelasan untuk imej ujian ini yang diperoleh dengan mendapatkan Model Cache. Selain itu, kami juga boleh mendapatkan ramalan tangkapan sifar CLIP dengan memadankan ciri imej ujian dengan ciri teks Pengekod Tekstual CLIP. Dengan menimbang jumlah kedua-duanya secara linear, kami memperoleh ramalan pengelasan akhir, yang mengandungi kedua-dua pengetahuan kontrastif bahasa imej yang telah dilatih oleh CLIP dan pengetahuan beberapa pukulan set data hiliran baharu, supaya ia boleh mencapai ramalan yang lebih tepat. Ketepatan klasifikasi imej yang kuat.
Berdasarkan struktur rangkaian Petua-Penyesuai, kami boleh menukar bahagian Kunci dalam Model Cache kepada parameter pembelajaran, yang boleh dikemas kini melalui latihan Penyelesaian ini ialah Penyesuai Petua - F. Dengan bantuan Model Cache yang telah dibina, Tip-Adapter-F hanya memerlukan satu persepuluh daripada pusingan latihan dan masa CLIP-Adapter sedia ada untuk mencapai prestasi yang lebih tinggi, seperti yang ditunjukkan dalam Jadual 1.
Rajah 1: Carta aliran rangkaian Penyesuai Petua dan Penyesuai Petua-F
2. Perbezaan dan sambungan antara Penyesuai Petua dan penyelesaian sedia ada
Membandingkan Penyesuai CLIP, seperti yang ditunjukkan dalam Rajah 2, Penyesuai Petua menyimpan Kunci dan Nilai Sebenarnya , mereka masing-masing boleh sepadan dengan dua lapisan linear struktur penyesuai dalam CLIP-Adapter, kecuali yang pertama tidak memerlukan latihan untuk membina, manakala yang kedua dimulakan secara rawak dan kemudian memerlukan latihan untuk mempelajari parameter terbaik.
Rajah 2: Tip-Adapter berbanding CLIP-Adapter
Berbanding dengan penyelesaian sedia ada lain untuk membina Model Cache, seperti yang ditunjukkan dalam Rajah 3, Model Cache bagi Tip-Adapter boleh dianggap sebagai Cache bahasa visual berbilang mod. Kerana ciri-ciri yang dikeluarkan oleh Pengekod Tekstual CLIP boleh dianggap sebagai Nilai-Kekunci teks, yang setara dengan menguji ciri imej sebagai Pertanyaan, masing-masing mendapatkan pengetahuan dalam Cache visual dan teks Berbanding dengan penyelesaian sedia ada yang hanya mengandungi Cache visual, Tip-Adapter boleh menggunakan pengetahuan pelbagai mod untuk mendapatkan prestasi pengecaman yang lebih kukuh.
Rajah 3: Petua Penyesuai berbanding penyelesaian lain untuk membina Model Cache
Tiga. Keputusan percubaan
1 Ketepatan pengelasan dalam ImageNet
Rajah 4 dan Jadual 2 membandingkan Tip-Adapter, Tip-Adapter-F dan penyelesaian sedia ada dalam 1 dan 2 , 4, 8, dan 16 tangkapan untuk ketepatan klasifikasi imej beberapa tangkapan; Jadual 3 membandingkan ketepatan Pengekod Visual menggunakan CLIP berbeza pada dataset ImageNet 16 tangkapan. Dapat dilihat bahawa kedua-dua penyelesaian kami mencapai prestasi cemerlang dengan overhed sumber yang sangat sedikit.
Rajah 4 dan Jadual 2: 1~16- kaedah berbeza pada dataset ImageNet Perbandingan ketepatan pengelasan imej tangkapan
Jadual 5: Perbandingan ImageNet 16-shot ketepatan pengelasan imej Pengekod Visual dengan CLIP yang berbeza
2 Dalam 10 set data pengelasan imej yang lain
Seperti yang ditunjukkan dalam Rajah 5, kami menyediakan Ketepatan. hasil perbandingan 10 lagi set data klasifikasi imej diperolehi iaitu StandfordCars, UCF101, Caltech101, Flowers102, SUN397, DTD, EuroSAT, FGVCAircraft, OxfordPets dan Food101. Seperti yang ditunjukkan dalam rajah, Petua-Penyesuai-F kami semuanya mencapai ketepatan pengiktirafan tertinggi.
Rajah 5: 1~16 tangkapan kaedah berbeza pada 10 set data lain Imej perbandingan ketepatan klasifikasi
3. Penilaian Keupayaan Generalisasi Domain
Kami juga menguji prestasi Penyesuai Petua dan Penyesuai Petua-F dalam Generalisasi Domain. Seperti yang ditunjukkan dalam Jadual 6, kedua-dua skim kami mempamerkan kekukuhan yang kukuh dan keupayaan pemindahan ciri.
4. Kesimpulan
Kertas kerja ini mencadangkan Tip-Adapter, penyelesaian tanpa latihan untuk menggunakan CLIP untuk klasifikasi imej beberapa tangkapan hiliran. Penyesuai Petua membina Model Cache Nilai Kunci sebagai pangkalan data perolehan pengetahuan untuk Pertanyaan imej ujian, dan memperoleh prestasi pengecaman yang lebih kukuh dengan menggabungkan ramalan Model Cache dan ramalan sifar tangkapan CLIP. Kami berharap Penyesuai Petua dapat memberi inspirasi kepada lebih banyak kerja susulan mengenai pemindahan cekap model pra-latihan.
Atas ialah kandungan terperinci Tanpa latihan hiliran, Tip-Adapter sangat meningkatkan ketepatan klasifikasi imej CLIP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Model bahasa besar (LLM) biasanya mempunyai berbilion parameter dan dilatih menggunakan trilion token. Walau bagaimanapun, model sedemikian sangat mahal untuk dilatih dan digunakan. Untuk mengurangkan keperluan pengiraan, pelbagai teknik pemampatan model sering digunakan. Teknik pemampatan model ini secara amnya boleh dibahagikan kepada empat kategori: penyulingan, penguraian tensor (termasuk pemfaktoran peringkat rendah), pemangkasan dan kuantisasi. Kaedah pemangkasan telah wujud sejak sekian lama, tetapi banyak yang memerlukan penalaan halus pemulihan (RFT) selepas pemangkasan untuk mengekalkan prestasi, menjadikan keseluruhan proses mahal dan sukar untuk skala. Penyelidik dari ETH Zurich dan Microsoft telah mencadangkan penyelesaian kepada masalah ini yang dipanggil SliceGPT. Idea teras kaedah ini adalah untuk mengurangkan pembenaman rangkaian dengan memadamkan baris dan lajur dalam matriks berat.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
