


Kertas skor sempurna VPR 2024! Meta mencadangkan EfficientSAM: cepat belah semuanya!
EfficientSAM Kerja ini dimasukkan dalam CVPR 2024 dengan skor sempurna 5/5/5! Penulis berkongsi hasilnya di media sosial, seperti yang ditunjukkan dalam gambar di bawah:
Pemenang Anugerah LeCun Turing juga sangat mengesyorkan karya ini!
Dalam penyelidikan baru-baru ini, penyelidik Meta telah mencadangkan kaedah baharu yang dipertingkatkan, pra-latihan imej bertopeng menggunakan SAM (SAMI). Pendekatan ini menggabungkan teknik pra-latihan MAE dan model SAM untuk mencapai pengekod ViT pra-latihan berkualiti tinggi. Melalui SAMI, penyelidik cuba meningkatkan prestasi dan kecekapan model dan menyediakan penyelesaian yang lebih baik untuk tugas penglihatan. Cadangan kaedah ini membawa idea dan peluang baharu untuk meneroka dan mengembangkan lagi bidang visi komputer dan pembelajaran mendalam. Dengan menggabungkan teknik pra-latihan dan struktur model yang berbeza, penyelidik terus
- Pautan kertas: https://arxiv.org/pdf/083
- Kod : github.com/yformer/EfficientSAM
- Laman utama: https://yformer.github.io/efficient-sam/
Untuk mengesahkan keberkesanan kaedah ini, penyelidik menggunakan tetapan pembelajaran pemindahan yang telah dilatih terlebih dahulu pada imej bertopeng. Khususnya, mereka mula-mula melatih model dengan kehilangan pembinaan semula pada dataset ImageNet dengan resolusi imej 224×224. Mereka kemudian memperhalusi model menggunakan data yang diselia daripada tugas sasaran. Kaedah pembelajaran pemindahan ini boleh membantu model belajar dengan cepat dan meningkatkan prestasi pada tugasan baharu kerana model telah belajar mengekstrak ciri daripada data asal melalui peringkat pra-latihan. Strategi pembelajaran pemindahan ini menggunakan secara berkesan pengetahuan yang dipelajari pada set data berskala besar, menjadikannya lebih mudah untuk model menyesuaikan diri dengan tugasan yang berbeza, manakala
ViT-Tiny boleh dilatih pada ImageNet-1K melalui pra-latihan SAMI/- Kecil/-Base dan model lain, dan meningkatkan prestasi generalisasi. Untuk model ViT-Small, selepas penyelidik memperhalusi 100 kali pada ImageNet-1K, ketepatan Top-1nya mencapai 82.7%, yang lebih baik daripada garis dasar pra-latihan imej terkini yang lain.
Para penyelidik memperhalusi model pra-latihan mengenai pengesanan sasaran, pembahagian contoh dan pembahagian semantik. Dalam semua tugas ini, kaedah kami mencapai hasil yang lebih baik daripada garis dasar pra-latihan lain, dan yang lebih penting, mencapai keuntungan yang ketara pada model kecil.
Yunyang Xiong, pengarang kertas itu, berkata: Parameter EfficientSAM yang dicadangkan dalam artikel ini dikurangkan sebanyak 20 kali, tetapi masa berjalan adalah 20 kali lebih cepat Perbezaan dengan model SAM asal hanya dalam 2 mata peratusan , yang jauh lebih baik daripada MobileSAM/FastSAM.
:
Alamat percubaan: https://ab348ea7942fe2af48.gradio.live/
Kaedah
EfficientSAM mengandungi dua peringkat: 1) pra-latihan SAMI pada ImageNet (Bhagian 2)-1); SAM (bawah).
EfficientSAM terutamanya mengandungi komponen berikut:
Penyahkod perhatian silang: Di bawah pengawasan ciri SAM, kertas ini memerhatikan bahawa hanya token topeng perlu dibina semula oleh penyahkod, manakala output pengekod boleh dibina semula semasa proses pembinaan semula bertindak sebagai sauh. Dalam penyahkod silang perhatian, pertanyaan datang daripada token bertopeng, dan kunci serta nilai diperoleh daripada ciri yang tidak bertopeng dan ciri bertopeng daripada pengekod. Kertas kerja ini menggabungkan ciri output daripada token bertopeng penyahkod perhatian silang dan ciri output token tidak bertopeng daripada pengekod untuk pembenaman output MAE. Ciri gabungan ini kemudiannya akan disusun semula ke kedudukan asal token imej input dalam output MAE akhir.
Kepala unjuran linear. Kami kemudiannya memasukkan output imej yang diperoleh melalui pengekod dan penyahkod perhatian silang ke dalam kepala projek kecil untuk menyelaraskan ciri dalam pengekod imej SAM. Untuk kesederhanaan, kertas ini hanya menggunakan kepala unjuran linear untuk menyelesaikan ketidakpadanan dimensi ciri antara pengekod imej SAM dan output MAE.
Membina semula kerugian. Dalam setiap lelaran latihan, SAMI menyertakan pengekstrakan ciri ke hadapan daripada pengekod imej SAM dan proses ke hadapan dan perambatan belakang MAE. Output daripada pengekod imej SAM dan kepala unjuran linear MAE dibandingkan untuk mengira kerugian pembinaan semula.
Selepas pra-latihan, pengekod boleh mengekstrak perwakilan ciri untuk pelbagai tugas visual, dan penyahkod juga akan dibuang. Khususnya, untuk membina model SAM yang cekap untuk sebarang tugas pembahagian, makalah ini menggunakan pengekod ringan pra-terlatih SAMI (seperti ViT-Tiny dan ViT-Small) sebagai pengekod imej EfficientSAM dan penyahkod topeng lalai SAM. , seperti yang ditunjukkan dalam Rajah 2 (bawah). Kertas kerja ini memperhalusi model EfficientSAM pada set data SA-1B untuk mencapai pembahagian sebarang tugas.
Eksperimen
Klasifikasi imej. Untuk menilai keberkesanan kaedah ini pada tugas pengelasan imej, penyelidik menggunakan idea SAMI pada model ViT dan membandingkan prestasi mereka pada ImageNet-1K.
Seperti yang ditunjukkan dalam Jadual 1, SAMI dibandingkan dengan kaedah pra-latihan seperti MAE, iBOT, CAE dan BEiT, dan kaedah penyulingan seperti DeiT dan SSTA.
Ketepatan 1 teratas SAMI-B mencapai 84.8%, iaitu lebih tinggi daripada garis dasar pra-latihan, MAE, DMAE, iBOT, CAE dan BEiT. SAMI juga menunjukkan peningkatan yang besar berbanding kaedah penyulingan seperti DeiT dan SSTA. Untuk model ringan seperti ViT-Tiny dan ViT-Small, keputusan SAMI menunjukkan keuntungan yang ketara berbanding DeiT, SSTA, DMAE dan MAE.
Pengesanan objek dan pembahagian contoh. Makalah ini juga memanjangkan tulang belakang ViT yang dipralatih SAMI kepada pengesanan objek hiliran dan tugas pembahagian contoh dan membandingkannya dengan garis dasar yang telah dilatih pada set data COCO. Seperti yang ditunjukkan dalam Jadual 2, SAMI secara konsisten mengatasi prestasi garis dasar lain.
Keputusan eksperimen ini menunjukkan bahawa tulang belakang pengesan pra-latihan yang disediakan oleh SAMI sangat berkesan dalam pengesanan objek dan tugas pembahagian contoh.
Pembahagian semantik. Kertas kerja ini memanjangkan lagi tulang belakang yang telah dilatih kepada tugasan segmentasi semantik untuk menilai keberkesanannya. Keputusan ditunjukkan dalam Jadual 3. Mask2former menggunakan tulang belakang pra-latihan SAMI mencapai mIoU yang lebih baik pada ImageNet-1K daripada menggunakan tulang belakang pra-latihan MAE. Keputusan eksperimen ini mengesahkan bahawa teknologi yang dicadangkan dalam kertas ini boleh digeneralisasikan dengan baik kepada pelbagai tugas hiliran.
Jadual 4 membandingkan EfficientSAMs dengan SAM, MobileSAM dan SAM-MAE-Ti. Mengenai COCO, EfficientSAM-Ti mengatasi prestasi MobileSAM. EfficientSAM-Ti mempunyai pemberat pra-latihan SAMI dan juga berprestasi lebih baik daripada pemberat pra-latihan MAE.
Selain itu, EfficientSAM-S hanya 1.5 mIoU lebih rendah daripada SAM pada kotak COCO dan 3.5 mIoU lebih rendah daripada SAM pada kotak LVIS, dengan parameter 20 kali lebih sedikit. Kertas kerja ini juga mendapati bahawa EfficientSAM juga menunjukkan prestasi yang baik dalam berbilang klik berbanding dengan MobileSAM dan SAM-MAE-Ti.
Jadual 5 menunjukkan AP, APS, APM dan APL bagi pembahagian contoh sifar pukulan. Para penyelidik membandingkan EfficientSAM dengan MobileSAM dan FastSAM, dan dapat dilihat bahawa berbanding dengan FastSAM, EfficientSAM-S memperoleh lebih daripada 6.5 AP pada COCO dan 7.8 AP pada LVIS. Dalam kes EffidientSAM-Ti, ia masih jauh lebih baik daripada FastSAM, dengan 4.1 AP pada COCO dan 5.3 AP pada LVIS, manakala MobileSAM mempunyai 3.6 AP pada COCO dan 5.5 AP pada LVIS.
Selain itu, EfficientSAM jauh lebih ringan daripada FastSAM, parameter efficientSAM-Ti ialah 9.8M, manakala parameter FastSAM ialah 68M.
Rajah 3, 4, dan 5 memberikan beberapa hasil kualitatif supaya pembaca boleh mempunyai pemahaman tambahan tentang keupayaan pembahagian contoh EfficientSAMs.
Untuk butiran penyelidikan lanjut, sila rujuk kertas asal.
Atas ialah kandungan terperinci Kertas skor sempurna VPR 2024! Meta mencadangkan EfficientSAM: cepat belah semuanya!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Pada masanya untuk Festival Musim Bunga, versi 1.5 Model Tongyi Qianwen (Qwen) berada dalam talian. Pagi ini, berita versi baharu itu menarik perhatian komuniti AI. Versi baharu model besar termasuk enam saiz model: 0.5B, 1.8B, 4B, 7B, 14B dan 72B. Antaranya, prestasi versi terkuat mengatasi GPT3.5 dan Mistral-Medium. Versi ini termasuk model Base dan model Sembang, dan menyediakan sokongan berbilang bahasa. Pasukan Tongyi Qianwen Alibaba menyatakan bahawa teknologi yang berkaitan juga telah dilancarkan di laman web rasmi Tongyi Qianwen dan Apl Tongyi Qianwen. Selain itu, keluaran Qwen 1.5 hari ini juga mempunyai sorotan berikut: menyokong panjang konteks 32K membuka pusat pemeriksaan model Base+Chat;

Rangkaian pengesanan tepi dalam semasa biasanya menggunakan seni bina penyahkod pengekod, yang mengandungi modul pensampelan atas dan bawah untuk mengekstrak ciri berbilang peringkat dengan lebih baik. Walau bagaimanapun, struktur ini mengehadkan rangkaian untuk mengeluarkan hasil pengesanan tepi yang tepat dan terperinci. Sebagai tindak balas kepada masalah ini, kertas kerja mengenai AAAI2024 menyediakan penyelesaian baharu. Tajuk tesis: DiffusionEdge:DiffusionProbabilisticModelforCrispEdgeDetection Penulis: Ye Yunfan (Universiti Teknologi Pertahanan Nasional), Xu Kai (Universiti Teknologi Pertahanan Kebangsaan), Huang Yuxing (Universiti Teknologi Pertahanan Nasional), Yi Renjiao (Universiti Teknologi Pertahanan Nasional), Cai Zhiping (Universiti Teknologi Pertahanan Negara) Pautan kertas: https ://ar

Model bahasa besar (LLM) biasanya mempunyai berbilion parameter dan dilatih menggunakan trilion token. Walau bagaimanapun, model sedemikian sangat mahal untuk dilatih dan digunakan. Untuk mengurangkan keperluan pengiraan, pelbagai teknik pemampatan model sering digunakan. Teknik pemampatan model ini secara amnya boleh dibahagikan kepada empat kategori: penyulingan, penguraian tensor (termasuk pemfaktoran peringkat rendah), pemangkasan dan kuantisasi. Kaedah pemangkasan telah wujud sejak sekian lama, tetapi banyak yang memerlukan penalaan halus pemulihan (RFT) selepas pemangkasan untuk mengekalkan prestasi, menjadikan keseluruhan proses mahal dan sukar untuk skala. Penyelidik dari ETH Zurich dan Microsoft telah mencadangkan penyelesaian kepada masalah ini yang dipanggil SliceGPT. Idea teras kaedah ini adalah untuk mengurangkan pembenaman rangkaian dengan memadamkan baris dan lajur dalam matriks berat.

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Apa? Adakah Zootopia dibawa menjadi realiti oleh AI domestik? Didedahkan bersama-sama dengan video itu ialah model penjanaan video domestik berskala besar baharu yang dipanggil "Keling". Sora menggunakan laluan teknikal yang serupa dan menggabungkan beberapa inovasi teknologi yang dibangunkan sendiri untuk menghasilkan video yang bukan sahaja mempunyai pergerakan yang besar dan munasabah, tetapi juga mensimulasikan ciri-ciri dunia fizikal dan mempunyai keupayaan gabungan konsep dan imaginasi yang kuat. Mengikut data, Keling menyokong penjanaan video ultra panjang sehingga 2 minit pada 30fps, dengan resolusi sehingga 1080p dan menyokong berbilang nisbah aspek. Satu lagi perkara penting ialah Keling bukanlah demo atau demonstrasi hasil video yang dikeluarkan oleh makmal, tetapi aplikasi peringkat produk yang dilancarkan oleh Kuaishou, pemain terkemuka dalam bidang video pendek. Selain itu, tumpuan utama adalah untuk menjadi pragmatik, bukan untuk menulis cek kosong, dan pergi ke dalam talian sebaik sahaja ia dikeluarkan Model besar Ke Ling telah pun dikeluarkan di Kuaiying.

Baru-baru ini, bulatan tentera telah terharu dengan berita: jet pejuang tentera AS kini boleh melengkapkan pertempuran udara automatik sepenuhnya menggunakan AI. Ya, baru-baru ini, jet pejuang AI tentera AS telah didedahkan buat pertama kali, mendedahkan misterinya. Nama penuh pesawat pejuang ini ialah Variable Stability Simulator Test Aircraft (VISTA). Ia diterbangkan sendiri oleh Setiausaha Tentera Udara AS untuk mensimulasikan pertempuran udara satu lawan satu. Pada 2 Mei, Setiausaha Tentera Udara A.S. Frank Kendall berlepas menggunakan X-62AVISTA di Pangkalan Tentera Udara Edwards Ambil perhatian bahawa semasa penerbangan selama satu jam, semua tindakan penerbangan telah diselesaikan secara autonomi oleh AI! Kendall berkata - "Sejak beberapa dekad yang lalu, kami telah memikirkan tentang potensi tanpa had pertempuran udara-ke-udara autonomi, tetapi ia sentiasa kelihatan di luar jangkauan." Namun kini,
