Rumah Peranti teknologi AI CVPR 2023|Meitu & Universiti Sains dan Teknologi Kebangsaan bersama-sama mencadangkan kaedah penyelarasan DropKey: menggunakan dua baris kod untuk mengelakkan masalah overfitting Transformer visual dengan berkesan

CVPR 2023|Meitu & Universiti Sains dan Teknologi Kebangsaan bersama-sama mencadangkan kaedah penyelarasan DropKey: menggunakan dua baris kod untuk mengelakkan masalah overfitting Transformer visual dengan berkesan

Jan 14, 2024 pm 09:15 PM
teori


Baru-baru ini, algoritma berasaskan Transformer telah digunakan secara meluas dalam pelbagai tugas penglihatan komputer, tetapi jenis algoritma ini terdedah kepada masalah pemasangan berlebihan apabila jumlah data latihan adalah kecil. Transformers Penglihatan Sedia Ada biasanya secara langsung memperkenalkan algoritma keciciran yang biasa digunakan dalam CNN sebagai penyelaras, yang melakukan penurunan rawak pada peta berat perhatian dan menetapkan kebarangkalian jatuh bersatu untuk lapisan perhatian pada kedalaman yang berbeza. Walaupun Dropout sangat mudah, terdapat tiga masalah utama dengan kaedah drop ini.

Pertama, melakukan Penurunan rawak selepas normalisasi softmax akan memecahkan taburan kebarangkalian pemberat perhatian dan gagal untuk menghukum puncak berat, menyebabkan model masih terlalu sesuai dengan maklumat khusus setempat (Rajah 1). Kedua, kebarangkalian kejatuhan yang lebih besar dalam lapisan yang lebih dalam rangkaian akan membawa kepada kekurangan maklumat semantik peringkat tinggi, manakala kebarangkalian penurunan yang lebih kecil dalam lapisan yang lebih cetek akan membawa kepada pemasangan yang berlebihan kepada ciri terperinci asas, jadi kebarangkalian penurunan yang berterusan akan membawa kepada ketidakstabilan dalam proses latihan. Akhir sekali, keberkesanan kaedah drop berstruktur yang biasa digunakan dalam CNN on Vision Transformer tidak jelas. . DropKey penyelaras novel dan plug-and-play dicadangkan, yang boleh mengurangkan masalah overfitting dalam Vision Transformer dengan berkesan.

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey


Pautan kertas: https://arxiv.org/abs/2208.02646

Tiga isu teras berikut dikaji dalam artikel:

perhatian yang perlu diutamakan untuk melakukan operasi Drop? Berbeza dengan penurunan terus berat perhatian, kaedah ini melakukan operasi Drop sebelum mengira matriks perhatian dan menggunakan Kunci sebagai unit Drop asas. Kaedah ini secara teorinya mengesahkan bahawa DropKey penyelaras boleh menghukum kawasan tumpuan tinggi dan memperuntukkan wajaran perhatian kepada bidang minat lain, dengan itu meningkatkan keupayaan model untuk menangkap maklumat global.

Kedua, bagaimana untuk menetapkan kebarangkalian Drop? Berbanding dengan semua lapisan yang berkongsi kebarangkalian Jatuh yang sama, makalah ini mencadangkan kaedah tetapan kebarangkalian Jatuh yang baru, yang secara beransur-ansur melemahkan nilai kebarangkalian Jatuh apabila lapisan perhatian diri semakin mendalam.

Ketiga, adakah perlu melakukan operasi Drop berstruktur seperti CNN? Kaedah ini mencuba pendekatan drop berstruktur berdasarkan tingkap blok dan tingkap silang, dan mendapati bahawa teknik ini tidak penting untuk Pengubah Penglihatan.

Latar Belakang

Pengubah Penglihatan (ViT) ialah paradigma baharu dalam model penglihatan komputer terkini Ia digunakan secara meluas dalam tugas seperti pengecaman imej, pengesanan imej, dan pengesanan titik kunci manusia. orang tengah. Secara khusus, ViT membahagikan gambar kepada bilangan blok imej yang tetap, menganggap setiap blok imej sebagai unit asas dan memperkenalkan mekanisme perhatian diri berbilang kepala untuk mengekstrak maklumat ciri yang mengandungi perhubungan bersama. Walau bagaimanapun, kaedah seperti ViT sedia ada sering mengalami masalah overfitting pada set data kecil, iaitu, mereka hanya menggunakan ciri tempatan sasaran untuk menyelesaikan tugas yang ditentukan.

Untuk mengatasi masalah di atas, kertas kerja ini mencadangkan DropKey regularizer plug-and-play yang boleh dilaksanakan hanya dalam dua baris kod untuk mengurangkan masalah overfitting kaedah kelas ViT. Berbeza daripada Dropout sedia ada, DropKey menetapkan Kunci kepada objek drop dan telah mengesahkan secara teori dan eksperimen bahawa perubahan ini boleh menghukum bahagian dengan nilai perhatian yang tinggi sambil menggalakkan model untuk memberi lebih perhatian kepada tampalan imej lain yang berkaitan dengan sasaran, yang berguna untuk menangkap ciri teguh global. Di samping itu, kertas itu juga mencadangkan untuk menetapkan kebarangkalian penurunan yang semakin berkurangan untuk lapisan perhatian yang sentiasa mendalam, yang boleh mengelakkan model daripada memasang ciri tahap rendah secara berlebihan sambil memastikan ciri tahap tinggi yang mencukupi untuk latihan yang stabil. Di samping itu, kertas itu secara eksperimen membuktikan bahawa kaedah penurunan berstruktur tidak diperlukan untuk ViT.

DropKey

Untuk meneroka sebab-sebab penting yang menyebabkan masalah overfitting, penyelidikan ini mula-mula memformalkan mekanisme perhatian menjadi objektif pengoptimuman mudah dan menganalisis bentuk pengembangan Lagrangian. Didapati bahawa apabila model dioptimumkan secara berterusan, tampalan imej dengan bahagian perhatian yang lebih besar dalam lelaran semasa akan cenderung untuk diberikan berat perhatian yang lebih besar dalam lelaran seterusnya. Untuk mengurangkan masalah ini, DropKey secara tersirat menugaskan pengendali penyesuaian kepada setiap blok perhatian dengan menjatuhkan sebahagian Kunci secara rawak untuk mengekang pengagihan perhatian dan menjadikannya lebih lancar. Perlu diingat bahawa berbanding dengan regularizer lain yang direka untuk tugas tertentu, DropKey tidak memerlukan sebarang reka bentuk manual. Memandangkan penurunan rawak dilakukan pada Key semasa fasa latihan, yang akan membawa kepada jangkaan output yang tidak konsisten dalam fasa latihan dan ujian, kaedah ini juga mencadangkan untuk menggunakan kaedah Monte Carlo atau teknik penalaan halus untuk menyelaraskan jangkaan output. Tambahan pula, pelaksanaan kaedah ini hanya memerlukan dua baris kod, seperti yang ditunjukkan dalam Rajah 2.

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

🎜
Rajah 2 Kaedah pelaksanaan DropKey

Secara umumnya, ViT menindih pelbagai lapisan perhatian untuk mempelajari ciri dimensi tinggi secara beransur-ansur. Lazimnya, lapisan cetek mengekstrak ciri visual berdimensi rendah, manakala lapisan dalam bertujuan untuk mengekstrak maklumat kasar tetapi kompleks pada ruang pemodelan. Oleh itu, kajian ini cuba menetapkan kebarangkalian penurunan yang lebih kecil untuk lapisan dalam untuk mengelakkan kehilangan maklumat penting objek sasaran. Khususnya, DropKey tidak melakukan titisan rawak dengan kebarangkalian tetap pada setiap lapisan, tetapi secara beransur-ansur mengurangkan kebarangkalian jatuh apabila bilangan lapisan meningkat. Selain itu, kajian mendapati pendekatan ini bukan sahaja berfungsi dengan DropKey tetapi juga meningkatkan prestasi Tercicir dengan ketara.

Walaupun kaedah drop berstruktur telah dikaji secara terperinci dalam CNN, kesan prestasi kaedah drop ini pada ViT belum dikaji. Untuk meneroka sama ada strategi ini akan meningkatkan lagi prestasi, kertas kerja ini melaksanakan dua bentuk berstruktur DropKey, iaitu DropKey-Block dan DropKey-Cross. Antaranya, DropKey-Block menjatuhkan kawasan berterusan dalam tetingkap segi empat sama berpusat pada titik benih, dan DropKey-Cross menjatuhkan kawasan berterusan berbentuk salib berpusat pada titik benih, seperti yang ditunjukkan dalam Rajah 3. Walau bagaimanapun, kajian mendapati bahawa pendekatan penurunan berstruktur tidak membawa kepada peningkatan prestasi.

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

Rajah 3 Kaedah pelaksanaan berstruktur DropKey

Hasil eksperimen

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

Rajah 4 Perbandingan prestasi DropKey dan Drop out pada CIFAR10/100

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

Rajah 5 Perbandingan kesan visualisasi peta perhatian bagi DropKey dan Dropout pada CIFAR100

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

Tetapan perbandingan strategi kebarangkalian

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey

Rajah 7 Perbandingan prestasi strategi penjajaran jangkaan keluaran yang berbeza

Gambar 9 Perbandingan prestasi DropKey dan Dropout pada ImageNet

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey


Perbandingan Prestasi COCO dan Key

CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey


Gambar 11 Perbandingan prestasi DropKey dan Dropout pada HICO-DETCVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey


CVPR 2023|两行代码高效缓解视觉Transformer过拟合,美图&国科大联合提出正则化方法DropKey


12 Perbandingan prestasi DropKey dan Dropout pada HICO-DET


Figure 13 perbandingan visual peta perhatian antara dropkey dan dropout pada hico-det

summary

kertas ini secara inovatif mencadangkan regularizer untuk vit, digunakan untuk meringankan yang lebih sesuai masalah ViT. Berbanding dengan penyelaras sedia ada, kaedah ini boleh memberikan pengagihan perhatian yang lancar untuk lapisan perhatian dengan hanya menetapkan Kekunci sebagai objek jatuh. Di samping itu, kertas kerja itu juga mencadangkan strategi penetapan kebarangkalian penurunan yang baru, yang berjaya menstabilkan proses latihan sambil berkesan mengurangkan overfitting. Akhir sekali, kertas kerja ini juga meneroka kesan kaedah penurunan berstruktur pada prestasi model.

Atas ialah kandungan terperinci CVPR 2023|Meitu & Universiti Sains dan Teknologi Kebangsaan bersama-sama mencadangkan kaedah penyelarasan DropKey: menggunakan dua baris kod untuk mengelakkan masalah overfitting Transformer visual dengan berkesan. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Menerobos sempadan pengesanan kecacatan tradisional, 'Spektrum Kecacatan' mencapai ketepatan ultra tinggi dan pengesanan kecacatan industri semantik yang kaya buat kali pertama. Jul 26, 2024 pm 05:38 PM

Dalam pembuatan moden, pengesanan kecacatan yang tepat bukan sahaja kunci untuk memastikan kualiti produk, tetapi juga teras untuk meningkatkan kecekapan pengeluaran. Walau bagaimanapun, set data pengesanan kecacatan sedia ada selalunya tidak mempunyai ketepatan dan kekayaan semantik yang diperlukan untuk aplikasi praktikal, menyebabkan model tidak dapat mengenal pasti kategori atau lokasi kecacatan tertentu. Untuk menyelesaikan masalah ini, pasukan penyelidik terkemuka yang terdiri daripada Universiti Sains dan Teknologi Hong Kong Guangzhou dan Teknologi Simou telah membangunkan set data "DefectSpectrum" secara inovatif, yang menyediakan anotasi berskala besar yang kaya dengan semantik bagi kecacatan industri. Seperti yang ditunjukkan dalam Jadual 1, berbanding set data industri lain, set data "DefectSpectrum" menyediakan anotasi kecacatan yang paling banyak (5438 sampel kecacatan) dan klasifikasi kecacatan yang paling terperinci (125 kategori kecacatan

Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Model dialog NVIDIA ChatQA telah berkembang kepada versi 2.0, dengan panjang konteks disebut pada 128K Jul 26, 2024 am 08:40 AM

Komuniti LLM terbuka ialah era apabila seratus bunga mekar dan bersaing Anda boleh melihat Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 dan banyak lagi. model yang cemerlang. Walau bagaimanapun, berbanding dengan model besar proprietari yang diwakili oleh GPT-4-Turbo, model terbuka masih mempunyai jurang yang ketara dalam banyak bidang. Selain model umum, beberapa model terbuka yang mengkhusus dalam bidang utama telah dibangunkan, seperti DeepSeek-Coder-V2 untuk pengaturcaraan dan matematik, dan InternVL untuk tugasan bahasa visual.

Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Latihan dengan berjuta-juta data kristal untuk menyelesaikan masalah fasa kristalografi, kaedah pembelajaran mendalam PhAI diterbitkan dalam Sains Aug 08, 2024 pm 09:22 PM

Editor |KX Sehingga hari ini, perincian dan ketepatan struktur yang ditentukan oleh kristalografi, daripada logam ringkas kepada protein membran yang besar, tidak dapat ditandingi oleh mana-mana kaedah lain. Walau bagaimanapun, cabaran terbesar, yang dipanggil masalah fasa, kekal mendapatkan maklumat fasa daripada amplitud yang ditentukan secara eksperimen. Penyelidik di Universiti Copenhagen di Denmark telah membangunkan kaedah pembelajaran mendalam yang dipanggil PhAI untuk menyelesaikan masalah fasa kristal Rangkaian saraf pembelajaran mendalam yang dilatih menggunakan berjuta-juta struktur kristal tiruan dan data pembelauan sintetik yang sepadan boleh menghasilkan peta ketumpatan elektron yang tepat. Kajian menunjukkan bahawa kaedah penyelesaian struktur ab initio berasaskan pembelajaran mendalam ini boleh menyelesaikan masalah fasa pada resolusi hanya 2 Angstrom, yang bersamaan dengan hanya 10% hingga 20% daripada data yang tersedia pada resolusi atom, manakala Pengiraan ab initio tradisional

Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Google AI memenangi pingat perak IMO Mathematical Olympiad, model penaakulan matematik AlphaProof telah dilancarkan dan pembelajaran pengukuhan kembali Jul 26, 2024 pm 02:40 PM

Bagi AI, Olimpik Matematik tidak lagi menjadi masalah. Pada hari Khamis, kecerdasan buatan Google DeepMind menyelesaikan satu kejayaan: menggunakan AI untuk menyelesaikan soalan sebenar IMO Olimpik Matematik Antarabangsa tahun ini, dan ia hanya selangkah lagi untuk memenangi pingat emas. Pertandingan IMO yang baru berakhir minggu lalu mempunyai enam soalan melibatkan algebra, kombinatorik, geometri dan teori nombor. Sistem AI hibrid yang dicadangkan oleh Google mendapat empat soalan dengan betul dan memperoleh 28 mata, mencapai tahap pingat perak. Awal bulan ini, profesor UCLA, Terence Tao baru sahaja mempromosikan Olimpik Matematik AI (Anugerah Kemajuan AIMO) dengan hadiah berjuta-juta dolar Tanpa diduga, tahap penyelesaian masalah AI telah meningkat ke tahap ini sebelum Julai. Lakukan soalan secara serentak pada IMO Perkara yang paling sukar untuk dilakukan dengan betul ialah IMO, yang mempunyai sejarah terpanjang, skala terbesar dan paling negatif

Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Pandangan alam semula jadi: Ujian kecerdasan buatan dalam perubatan berada dalam keadaan huru-hara Apa yang perlu dilakukan? Aug 22, 2024 pm 04:37 PM

Editor |. ScienceAI Berdasarkan data klinikal yang terhad, beratus-ratus algoritma perubatan telah diluluskan. Para saintis sedang membahaskan siapa yang harus menguji alat dan cara terbaik untuk melakukannya. Devin Singh menyaksikan seorang pesakit kanak-kanak di bilik kecemasan mengalami serangan jantung semasa menunggu rawatan untuk masa yang lama, yang mendorongnya untuk meneroka aplikasi AI untuk memendekkan masa menunggu. Menggunakan data triage daripada bilik kecemasan SickKids, Singh dan rakan sekerja membina satu siri model AI untuk menyediakan potensi diagnosis dan mengesyorkan ujian. Satu kajian menunjukkan bahawa model ini boleh mempercepatkan lawatan doktor sebanyak 22.3%, mempercepatkan pemprosesan keputusan hampir 3 jam bagi setiap pesakit yang memerlukan ujian perubatan. Walau bagaimanapun, kejayaan algoritma kecerdasan buatan dalam penyelidikan hanya mengesahkan perkara ini

PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? PRO |. Mengapa model besar berdasarkan MoE lebih patut diberi perhatian? Aug 07, 2024 pm 07:08 PM

Pada tahun 2023, hampir setiap bidang AI berkembang pada kelajuan yang tidak pernah berlaku sebelum ini. Pada masa yang sama, AI sentiasa menolak sempadan teknologi trek utama seperti kecerdasan yang terkandung dan pemanduan autonomi. Di bawah trend berbilang modal, adakah status Transformer sebagai seni bina arus perdana model besar AI akan digoncang? Mengapakah penerokaan model besar berdasarkan seni bina MoE (Campuran Pakar) menjadi trend baharu dalam industri? Bolehkah Model Penglihatan Besar (LVM) menjadi satu kejayaan baharu dalam penglihatan umum? ...Daripada surat berita ahli PRO 2023 laman web ini yang dikeluarkan dalam tempoh enam bulan lalu, kami telah memilih 10 tafsiran khas yang menyediakan analisis mendalam tentang aliran teknologi dan perubahan industri dalam bidang di atas untuk membantu anda mencapai matlamat anda dalam bidang baharu. tahun. Tafsiran ini datang dari Week50 2023

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature Kadar ketepatan mencapai 60.8%. Model ramalan retrosintesis kimia Universiti Zhejiang berdasarkan Transformer diterbitkan dalam sub-jurnal Nature Aug 06, 2024 pm 07:34 PM

Editor |. KX Retrosynthesis ialah tugas kritikal dalam penemuan ubat dan sintesis organik, dan AI semakin digunakan untuk mempercepatkan proses. Kaedah AI sedia ada mempunyai prestasi yang tidak memuaskan dan kepelbagaian terhad. Dalam amalan, tindak balas kimia sering menyebabkan perubahan molekul tempatan, dengan pertindihan yang besar antara bahan tindak balas dan produk. Diilhamkan oleh ini, pasukan Hou Tingjun di Universiti Zhejiang mencadangkan untuk mentakrifkan semula ramalan retrosintetik satu langkah sebagai tugas penyuntingan rentetan molekul, secara berulang menapis rentetan molekul sasaran untuk menghasilkan sebatian prekursor. Dan model retrosintetik berasaskan penyuntingan EditRetro dicadangkan, yang boleh mencapai ramalan berkualiti tinggi dan pelbagai. Eksperimen yang meluas menunjukkan bahawa model itu mencapai prestasi cemerlang pada set data penanda aras standard USPTO-50 K, dengan ketepatan 1 teratas 60.8%.

See all articles