Rumah > Peranti teknologi > AI > CVPR 2024 |. Segmentasi semua model mempunyai keupayaan generalisasi yang lemah bagi SAM? Strategi penyesuaian domain diselesaikan

CVPR 2024 |. Segmentasi semua model mempunyai keupayaan generalisasi yang lemah bagi SAM? Strategi penyesuaian domain diselesaikan

王林
Lepaskan: 2024-04-09 16:55:11
ke hadapan
650 orang telah melayarinya
Strategi penyesuaian domain pertama untuk model besar "Segmen Apa-apa" ada di sini! Kertas berkaitan telah diterima oleh CVPR 2024. Kejayaan model bahasa besar (LLM) telah memberi inspirasi kepada bidang penglihatan komputer untuk meneroka model asas untuk pembahagian. Model pembahagian asas ini biasanya digunakan untuk pembahagian imej sifar/sedikit melalui Jurutera Prompt. Antaranya, Model Segmen Anything (SAM) ialah model asas yang paling maju untuk pembahagian imej.个 Tu SAM telah berprestasi buruk pada beberapa tugas hiliran Tetapi penyelidikan terkini menunjukkan bahawa SAM tidak begitu berkuasa dan umum dalam banyak tugasan hiliran , seperti prestasi buruk dalam imej perubatan, objek yang disamarkan, imej semula jadi dengan gangguan tambahan, dsb. Ini mungkin disebabkan oleh
Domain Shift
yang besar antara set data latihan dan set data ujian hiliran. Oleh itu, persoalan yang sangat penting ialah, bagaimana untuk mereka bentuk skema penyesuaian domain untuk menjadikan SAM lebih mantap dalam menghadapi dunia sebenar dan tugas hiliran yang pelbagai?

Menyesuaikan SAM pra-latihan kepada tugas hiliran terutamanya menghadapi tiga cabaran:

Pertama, paradigma penyesuaian domain tradisional tanpa seliaan memerlukan
kos yang diperlukan untuk set data dan sasaran sumber
boleh dilaksanakan.

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

Kedua, untuk penyesuaian domain, mengemas kini semua pemberat biasanya berprestasi lebih baik, tetapi juga dihadkan oleh
kos memori yang mahal.
Akhirnya, SAM boleh menunjukkan keupayaan pembahagian yang pelbagai untuk gesaan pelbagai jenis dan butiran, jadi
apabila kekurangan maklumat segera untuk tugas hiliran
, penyesuaian tanpa pengawasan akan menjadi sangat mencabar.大 Rajah 1 SAM adalah pra-latihan pada set data berskala besar, tetapi terdapat masalah generalisasi. Kami menggunakan penyeliaan yang lemah untuk menyesuaikan SAM pada pelbagai tugas hiliran seni bina latihan kendiri yang diselia
untuk meningkatkan keteguhan
dan kecekapan pengiraan .

Secara khusus, kami mula-mula mengamalkan strategi latihan kendiri dalam domain pasif untuk mengelakkan pergantungan pada data sumber. Latihan kendiri menghasilkan pseudo-label untuk menyelia kemas kini model, tetapi mereka terdedah kepada pseudo-label yang salah Kami memperkenalkan
model sumber beku sebagai rangkaian utama
untuk menyeragamkan kemas kini model.

  • Untuk mengurangkan lagi kos pengiraan yang tinggi bagi mengemas kini berat model penuh, kami menggunakan
    penguraian berat peringkat rendah pada pengekod dan melakukan perambatan balik melalui laluan pintasan peringkat rendah.
  • Akhir sekali, untuk meningkatkan lagi kesan penyesuaian domain pasif, kami memperkenalkan penyeliaan yang lemah, seperti anotasi titik jarang, dalam domain sasaran untuk memberikan maklumat penyesuaian domain yang lebih kukuh Pada masa yang sama, Ini jenis penyeliaan yang lemah secara semula jadi serasi dengan pengekod kiu dalam SAM.
  • Dengan pengawasan yang lemah sebagai Prompt, kami memperoleh lebih banyak label pseudo terlatih sendiri tempatan dan eksplisit. Model yang ditala menunjukkan keupayaan generalisasi yang lebih kukuh pada berbilang tugas hiliran.

Kami merumuskan sumbangan kerja ini seperti berikut: CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

1 Diilhamkan oleh masalah generalisasi SAM dalam tugasan hiliran, kami mencadangkan penyelesaian yang bersifat tugas-agnostik dan tidak memerlukan data sumber, dengan. Latih secara automatik untuk menyesuaikan diri dengan SAM. 2 Kami menggunakan penyeliaan yang lemah, termasuk kotak, titik dan label lain, untuk meningkatkan kesan penyesuaian. Label yang diselia dengan lemah ini serasi sepenuhnya dengan pengekod segera SAM.
3 Kami menjalankan eksperimen yang meluas ke atas 5 jenis tugas pembahagian contoh hiliran untuk menunjukkan keberkesanan kaedah penyesuaian yang diselia dengan lemah yang dicadangkan.
  • Alamat kertas: https://arxiv.org/pdf/2312.03502.pdf
  • Alamat projek: https://github.com/Zhang-Haojie/WeSAM
  • Penambahbaikan Tajuk Umum: Penambahbaikan Tajuk Umum: Model Asas Segmentasi di bawah Anjakan Pengedaran melalui Penyesuaian yang Dikawal Lemah

Kaedah

Pengenalan kaedah terbahagi kepada empat bahagian:

  • nything Model
  • Berdasarkan latihan kendiri Bagaimana rangka kerja penyesuaian
  • penyeliaan yang lemah membantu mencapai latihan kendiri yang berkesan
  • kemas kini berat badan peringkat rendah


Model 1.
SAM terutamanya terdiri daripada tiga komponen Komposisi: Pengekod Imej (ImageEncoder), Pengekod Segera (PromptEncoder), dan Penyahkod (MaskDecoder) .

Pengekod imej telah dilatih terlebih dahulu menggunakan MAE, dan keseluruhan SAM diperhalusi lagi pada set latihan SA-1B dengan 1.1 bilion anotasi Gabungan kehilangan Fokus dan kehilangan Dadu digunakan semasa latihan. Pada masa inferens, imej ujian x mula-mula dikodkan oleh pengekod imej, dan kemudian diberi gesaan, penyahkod ringan membuat tiga peringkat ramalan.

2. Latihan Kendiri Penyesuaian Domain Tanpa Sumber

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

                                                                                                                                                                                                                                                                                                                        Latihan kendiri disesuaikan domain

Untuk set data sasaran yang tidak berlabel DT={xi} dan set data sasaran pra- model segmentasi terlatih. Kami menggunakan
seni bina pelajar-guru untuk latihan kendiri. Seperti yang ditunjukkan dalam Rajah 2, kami mengekalkan tiga rangkaian pengekod, iaitu model anchor, model pelajar, dan model guru, di mana model pelajar dan guru berkongsi pemberat.

Khususnya, bagi setiap sampel xi, penambahan data lemah rawak digunakan sebagai input model utama dan guru, penambahan data kuat rawak digunakan sebagai input model pelajar, dan tiga pengekodan rangkaian pengekod adalah dijana Tiga peta ciri.

Dalam rangkaian penyahkod, diberi bilangan Np gesaan tertentu, seperti kotak, titik atau topeng kasar, satu set topeng pembahagian contoh akan disimpulkan.

Berdasarkan pengetahuan di atas, kami menghuraikan tiga set objektif pengoptimuman untuk latihan kendiri di bawah.

1) Latihan kendiri Pelajar-Guru

Kami mula-mula mengemas kini model pelajar/guru menggunakan fungsi kerugian yang sama digunakan semasa melatih SAM sebagai sasaran pengoptimuman latihan kendiri. Latihan kendiri digunakan secara meluas dalam pembelajaran separa penyeliaan dan baru-baru ini telah terbukti sangat berkesan untuk penyesuaian domain pasif. Khususnya, kami menggunakan hasil ramalan yang dijana oleh model guru sebagai label pseudo, dan menggunakan Kehilangan Fokus dan Kehilangan Dadu untuk mengawasi output pelajar.

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

2) Kehilangan sauh untuk regularisasi yang mantap

Latihan rangkaian hanya menggunakan kehilangan latihan kendiri terdedah kepada pengumpulan pseudo-label palsu yang diramalkan oleh rangkaian guru, yang dipanggil bias pengesahan. Pemerhatian juga menunjukkan prestasi merosot selepas lelaran yang lama hanya menggunakan latihan kendiri. Kaedah penyesuaian domain pasif sedia ada sering menggunakan kekangan tambahan untuk mengelakkan kesan negatif latihan kendiri, seperti pengedaran seragam ramalan.

Kami melakukan regularisasi melalui kehilangan sauh, seperti yang ditunjukkan dalam Persamaan 3,
meminimumkan kehilangan Dadu masing-masing antara model sauh dan model pelajar/guru. Model sauh beku, sebagai pengetahuan yang diwarisi daripada domain sumber, tidak menggalakkan penyelewengan yang berlebihan antara model sumber dan model kemas kini latihan kendiri, dan boleh menghalang keruntuhan model.

3) Ruang ciri pengekod tetap kehilangan kontras CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

下 Kehilangan perbandingan kedua-dua cabang Rajah 3

Kedua-dua matlamat latihan di atas dilakukan dalam ruang keluaran penyahkod. Bahagian percubaan mendedahkan bahawa mengemas kini rangkaian pengekod adalah cara paling cekap untuk menyesuaikan SAM, jadi perlu untuk menggunakan penyelarasan
terus kepada output ciri daripada rangkaian
pengekod. Seperti yang ditunjukkan dalam Rajah 3, kami memangkas ciri setiap contoh daripada peta ciri berdasarkan topeng yang diramalkan dalam sauh dan cawangan guru.
CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
Kami mentakrifkan pasangan sampel positif dan negatif dalam kehilangan kontrastif pasangan sampel positif dibina daripada ciri contoh yang sepadan dengan gesaan yang sama dalam dua cawangan, manakala pasangan sampel negatif dibina daripada ciri contoh yang sepadan dengan gesaan yang berbeza . Kehilangan kontras akhir ditunjukkan di bawah, dengan

ialah pekali suhu. CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了
4) Jumlah kerugian

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

Kami menggabungkan tiga fungsi kehilangan di atas ke dalam kehilangan penyesuaian Tanpa Sumber akhir.

3. Penjanaan Prompt terlatih sendiri

Segmentasi SAM memerlukan input segera untuk menunjukkan objek sasaran untuk dibahagikan, tetapi mungkin terdapat masalah dengan kekaburan butiran. Projek segera boleh dilaksanakan dengan cara automatik sepenuhnya atau melalui interaksi manusia.

1) Menjana segera secara automatik sepenuhnya

Kami mula-mula menggunakan titik pensampelan padat grid sebagai input segera, menjana topeng untuk pembahagian peringkat awal melalui model Anchor, menghapuskan topeng dengan skor IoU dan kestabilan yang rendah, dan kemudian teruskan Penindasan bukan maksimum digunakan untuk mendapatkan hasil pembahagian. Seterusnya, set gesaan tetap dijana daripada topeng akhir sebagai input segera untuk ketiga-tiga cawangan. Oleh itu, panjang topeng bagi ketiga-tiga output pembahagian rangkaian adalah sama dan mempunyai koresponden satu sama satu yang tepat.

2) Pengawasan yang lemah sebagai gesaan

Walaupun gesaan boleh diperolehi dengan menggunakan pensampelan grid pada imej dan menapis topeng pendua yang berkualiti rendah untuk pembahagian automatik. Tetapi pembahagian ini agak berkualiti rendah, mungkin mengandungi banyak ramalan positif palsu dan mempunyai butiran yang tidak jelas. Kualiti segera yang terhasil adalah tidak sekata, menjadikan latihan kendiri kurang berkesan.

Oleh itu, menggunakan kerja penyesuaian domain yang diselia dengan lemah sebelum ini, kami mencadangkan untuk menggunakan tiga kaedah yang diselia dengan lemah, termasuk kotak kotak sempadan, titik anotasi titik jarang dan topeng kasar poligon segmentasi kasar. Dalam SAM, kaedah penyeliaan yang lemah ini sangat sepadan dengan input segera, dan penyeliaan yang lemah boleh disepadukan dengan lancar untuk menyesuaikan diri dengan SAM.

4. Kemas kini berat peringkat rendah

Rangkaian pengekod model asas menjadikannya amat sukar untuk mengemas kini berat semua model. Walau bagaimanapun, banyak kajian sedia ada menunjukkan bahawa mengemas kini pemberat rangkaian pengekod adalah cara yang berkesan untuk menala model pra-latihan.

Untuk dapat mengemas kini rangkaian pengekod dengan lebih cekap dan kos efektif, kami memilih kaedah kemas kini peringkat rendah yang mesra pengiraan. Untuk setiap berat θ dalam rangkaian pengekod, kami menggunakan anggaran peringkat rendah ω = AB dan menetapkan nisbah mampatan r. Hanya A dan B dikemas kini melalui perambatan belakang untuk mengurangkan penggunaan memori. Semasa fasa inferens, pemberat dibina semula dengan menggabungkan penghampiran peringkat rendah dengan pemberat asal, iaitu, θ = θ + AB.

Eksperimen

Dalam eksperimen, kami menyediakan perbandingan terperinci dengan kaedah terkini dan hasil kualitatif. Akhir sekali, kami menganalisis keberkesanan setiap bahagian dan reka bentuk khusus rangkaian.

1. Set Data

Dalam kerja ini, kami menilai lima jenis tugas pembahagian hiliran yang berbeza, beberapa daripadanya mempunyai anjakan pengedaran yang ketara daripada SA-1B. Set data meliputi imej semula jadi yang jelas, imej semula jadi dengan gangguan tambahan, imej perubatan, objek penyamaran dan imej robot, sejumlah 10 jenis.

Pembahagian data: Setiap set data hiliran dibahagikan kepada set latihan tidak bertindih dan set ujian.

Dataset yang dinilai untuk setiap jenis tugasan hiliran disenaraikan dalam Jadual 1, bersama-sama dengan pembahagian set data latihan dan ujian.

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

2. Butiran eksperimen

Model Segmen-Apa-apa sahaja: Disebabkan oleh had ingatan, kami mengguna pakai ViT-B sebagai rangkaian pengekod. Gunakan pengekod pembayang standard dan penyahkod topeng.

Penjanaan segera: Input segera untuk kedua-dua peringkat latihan dan penilaian dikira daripada topeng GT segmentasi contoh, meniru interaksi manusia sebagai pengawasan yang lemah.

Secara khusus, kami mengekstrak kotak daripada kotak sempadan minimum keseluruhan topeng GT. Mata dicipta dengan memilih secara rawak 5 titik sampel positif dalam topeng GT dan 5 titik sampel negatif di luar topeng. Topeng kasar disimulasikan dengan memasang poligon pada topeng GT.

3. Keputusan eksperimen

Jadual 2, 3, 4, dan 5 ialah keputusan ujian pada imej semula jadi dengan gangguan tambahan, imej semula jadi yang jelas, imej perubatan dan penyamaran masing-masing . Keputusan percubaan penuh boleh didapati dalam kertas. Eksperimen menunjukkan bahawa skim kami mengatasi prestasi SAM terlatih dan skim penyesuaian domain terkini pada hampir semua set data segmentasi hiliran.

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

4. Hasil visualisasi

Sebahagian daripada hasil visualisasi ditunjukkan dalam Rajah 4, dan lebih banyak hasil visualisasi boleh didapati dalam kertas. Rajah 4 Hasil visualisasi beberapa contoh

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

5 Eksperimen ablasi dan analisis tambahan

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

Kami berada pada dataset COCO Keberkesanan setiap tiga objektif pengoptimuman latihan kendiri dianalisis, seperti yang ditunjukkan dalam Jadual 7. . Dalam Jadual 7, kami juga menganalisis kesan kaedah yang dicadangkan ke atas penyesuaian tanpa menggunakan sebarang maklumat penyeliaan yang lemah.

CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

Kami menganalisis perbezaan prestasi antara latihan dan ujian menggunakan kategori gesaan yang berbeza, seperti yang ditunjukkan dalam Jadual 8. Percubaan menunjukkan bahawa skim kami masih berfungsi dengan baik di bawah keadaan segera.
Selain itu, kami juga menganalisis keputusan percubaan untuk mengoptimumkan modul yang berbeza, termasuk penyahkod, LayerNorm dan skema finetune yang berbeza serta gabungannya.
Ringkasan

Walaupun model visi asas boleh berfungsi dengan baik pada tugasan segmentasi, ia masih mengalami prestasi yang lemah dalam tugasan hiliran. Kami mengkaji keupayaan generalisasi model Segmen-Apa-apa sahaja dalam berbilang tugas pembahagian imej hiliran dan mencadangkan kaedah latihan kendiri berdasarkan regularisasi utama dan penalaan halus peringkat rendah. Kaedah ini tidak memerlukan akses kepada set data sumber, mempunyai kos memori yang rendah, secara semula jadi serasi dengan penyeliaan yang lemah, dan boleh meningkatkan kesan penyesuaian dengan ketara. Selepas pengesahan percubaan yang meluas, keputusan menunjukkan bahawa kaedah penyesuaian domain kami yang dicadangkan boleh meningkatkan keupayaan generalisasi SAM di bawah pelbagai anjakan pengedaran. CVPR 2024 | 分割一切模型SAM泛化能力差?域适应策略给解决了

Atas ialah kandungan terperinci CVPR 2024 |. Segmentasi semua model mempunyai keupayaan generalisasi yang lemah bagi SAM? Strategi penyesuaian domain diselesaikan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:jiqizhixin.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan