Jadual Kandungan
Tinjauan Keseluruhan Struktur
Hasil penyelidikan
Kesimpulan
Rumah Peranti teknologi AI Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Apr 08, 2023 pm 01:41 PM
Google Model

Baru-baru ini, pasukan Google AI mencadangkan penyelesaian hujung ke hujung untuk segmentasi panorama menggunakan Mask Transformer, diilhamkan oleh Transformer dan DETR.

Nama penuh ialah penyelesaian hujung ke hujung untuk segmentasi panoptik dengan pengubah topeng, yang digunakan terutamanya untuk menjana lanjutan seni bina MaskTransformer segmentasi.

Penyelesaian menggunakan laluan piksel (terdiri daripada rangkaian neural konvolusi atau Transformer visual) untuk mengekstrak ciri piksel, laluan memori (terdiri daripada modul penyahkod Transformer) untuk mengekstrak ciri memori dan laluan dwi Transformer untuk ciri piksel dan Ciri-ciri interaksi antara kenangan.

Walau bagaimanapun, Transformer dwi-laluan yang menggunakan perhatian silang pada asalnya direka untuk tugas bahasa, yang urutan inputnya terdiri daripada ratusan perkataan.

Untuk tugasan visual, terutamanya masalah segmentasi, jujukan input terdiri daripada puluhan ribu piksel, yang bukan sahaja menunjukkan bahawa magnitud skala input jauh lebih besar, tetapi juga mewakili perwakilan yang lebih rendah berbanding dengan perkataan bahasa .

Segmentasi panorama ialah masalah penglihatan komputer yang kini menjadi tugas teras dalam banyak aplikasi.

Ia terbahagi kepada dua bahagian: segmentasi semantik dan segmentasi contoh.

Pembahagian semantik adalah seperti memberikan label semantik kepada setiap piksel dalam imej, seperti "orang" dan "langit".

Segmentasi tika hanya mengenal pasti dan membahagikan objek boleh dikira dalam graf, seperti "pejalan kaki" dan "kereta", dan seterusnya membahagikannya kepada beberapa subtugas.

Setiap subtugas diproses secara individu dan modul tambahan digunakan untuk menggabungkan hasil setiap peringkat subtugas.

Proses ini bukan sahaja kompleks, tetapi juga memperkenalkan banyak priors yang direka bentuk secara buatan apabila menangani subtugas dan menyepadukan hasil subtugas yang berbeza.

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Dalam "CMT-DeepLab: Clustering Mask Transformers for Panoptic Segmentation" yang diterbitkan di CVPR 2022, artikel itu mencadangkan untuk mentafsir semula dan mereka bentuk semula perhatian silang dari perspektif pengelompokan perhatian silang (iaitu, mengumpulkan piksel dengan label semantik yang sama ke dalam kumpulan yang sama) untuk menyesuaikan diri dengan tugas visual dengan lebih baik.

CMT-DeepLab dibina berdasarkan kaedah terkini MaX-DeepLab dan menggunakan kaedah pengelompokan piksel untuk melakukan perhatian silang, menghasilkan peta perhatian yang lebih padat dan munasabah.

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

kMaX-DeepLab selanjutnya mereka bentuk semula perhatian silang agar lebih seperti algoritma pengelompokan k-means dengan perubahan mudah pada fungsi pengaktifan.

Tinjauan Keseluruhan Struktur

Penyelidik akan mentafsir semulanya dari perspektif pengelompokan, dan bukannya secara langsung menggunakan perhatian silang kepada tugas visual tanpa pengubahsuaian.

Secara khusus, mereka ambil perhatian bahawa pertanyaan objek Mask Transformer boleh dianggap sebagai pusat kluster (bertujuan untuk mengumpulkan piksel dengan label semantik yang sama).

Proses perhatian silang adalah serupa dengan algoritma pengelompokan k-means, (1) proses lelaran untuk menetapkan piksel ke pusat gugusan, di mana berbilang piksel boleh ditugaskan kepada pusat gugusan tunggal dan beberapa Kluster pusat mungkin tidak memperuntukkan piksel, dan (2) pusat kluster dikemas kini dengan purata piksel yang diperuntukkan kepada pusat kluster yang sama, jika tiada piksel diperuntukkan, pusat kluster tidak dikemas kini).

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Dalam CMT-DeepLab dan kMaX-DeepLab, kami merumuskan semula perhatian silang daripada perspektif pengelompokan, yang merangkumi penugasan kelompok berulang dan langkah kemas kini pengelompokan

Memandangkan kepopularan algoritma pengelompokan k-means, dalam CMT-DeepLab, mereka mereka bentuk semula perhatian silang untuk operasi softmax dari segi spatial (iaitu, digunakan sepanjang resolusi spatial bagi operasi softmax imej), yang sebenarnya menetapkan pusat kluster ke arah yang bertentangan, piksel digunakan di sepanjang pusat kluster.

Dalam kMaX-DeepLab, kami memudahkan lagi softmax dari segi spatial kepada argmax dari segi kluster (iaitu, gunakan operasi argmax di sepanjang pusat kluster).

Mereka ambil perhatian bahawa operasi argmax adalah sama dengan tugasan keras (iaitu satu piksel diperuntukkan kepada hanya satu kelompok) yang digunakan dalam algoritma pengelompokan k-means.

Membina semula perhatian silang MaskTransformer daripada perspektif pengelompokan meningkatkan prestasi pembahagian dengan ketara dan memudahkan saluran paip MaskTransformer yang kompleks untuk menjadikannya lebih boleh ditafsir.

Pertama, struktur penyahkod pengekod digunakan untuk mengekstrak ciri piksel daripada imej input. Piksel kemudian dikumpulkan menggunakan satu set pusat kluster, yang dikemas kini selanjutnya berdasarkan tugasan kluster. Akhir sekali, tugasan kluster dan langkah kemas kini dilakukan secara berulang, dan tugasan terakhir boleh digunakan terus sebagai ramalan segmentasi.

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Untuk menukar penyahkod MaskTransformer biasa (terdiri daripada perhatian silang, perhatian diri berbilang kepala dan rangkaian suapan ke hadapan) ke dalam satu yang dicadangkan di atas k-means cross-attention, cuma gantikan softmax spatial-wise dengan parameter maksimum cluster-wise.

Seni bina meta kMaX-DeepLab yang dicadangkan kali ini terdiri daripada tiga komponen: pengekod piksel, penyahkod piksel dipertingkatkan dan penyahkod kMaX.

Pengekod piksel ialah tulang belakang mana-mana rangkaian dan digunakan untuk mengekstrak ciri imej.

Penyahkod piksel yang dipertingkatkan termasuk pengekod Transformer untuk meningkatkan ciri piksel dan lapisan pensampelan untuk menjana ciri peleraian yang lebih tinggi.

Satu siri penyahkod kMaX menukar pusat kluster kepada (1) vektor pembenaman Topeng, yang didarab dengan ciri piksel untuk menjana Topeng yang diramalkan, dan (2) ramalan kelas untuk setiap Topeng.

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

kMaX-DeepLab’s meta-architecture

Hasil penyelidikan

Akhir sekali, pasukan penyelidik melakukan dua data pensegmenan panorama yang paling mencabar Kami nilai CMT-DeepLab dan kMaX-DeepLab menggunakan metrik Kualiti Panorama (PQ) pada COCO dan Cityscapes, dan bandingkan MaX-DeepLab dengan kaedah terkini yang lain.

Antaranya, CMT-DeepLab mencapai peningkatan prestasi yang ketara, manakala kMaX-DeepLab bukan sahaja memudahkan pengubahsuaian, tetapi juga menambah baik PQ pada set COCO val ialah 58.0%, PQ ialah 68.4%, dan 44.0%. Ketepatan Purata Topeng (AP Mask), 83.5% purata persimpangan atas kesatuan (mIoU) pada set pengesahan Cityscapes, tanpa penambahan masa ujian atau penggunaan set data luaran.

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Direka bentuk dari perspektif pengelompokan, kMaX-DeepLab bukan sahaja mempunyai prestasi yang lebih tinggi, tetapi juga boleh menggambarkan peta perhatian dengan lebih munasabah untuk memahami mekanisme kerjanya.

Dalam contoh di bawah, kMaX-DeepLab secara berulang melaksanakan tugasan kelompok dan kemas kini, meningkatkan kualiti Topeng secara beransur-ansur.

Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik

Peta perhatian kMaX-DeepLab boleh divisualisasikan secara langsung sebagai segmentasi panorama, menjadikan mekanisme kerja model lebih munasabah

Kesimpulan

Penyelidikan ini Menunjukkan cara untuk mereka bentuk MaskTransformers dengan lebih baik dalam tugas penglihatan.

Dengan pengubahsuaian mudah, CMT-DeepLab dan kMaX-DeepLab menstruktur semula perhatian silang supaya lebih seperti algoritma pengelompokan.

Oleh itu, model yang dicadangkan mencapai prestasi terkini pada set data COCO dan Cityscapes.

Pasukan penyelidik menyatakan bahawa mereka berharap versi sumber terbuka kMaX-DeepLab dalam perpustakaan DeepLab2 akan menyumbang kepada penyelidikan masa depan tentang reka bentuk seni bina Transformer visual.

Atas ialah kandungan terperinci Pasukan Google melancarkan Transformer baharu untuk mengoptimumkan penyelesaian pembahagian panoramik. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Cara Mengulas DeepSeek Cara Mengulas DeepSeek Feb 19, 2025 pm 05:42 PM

DeepSeek adalah alat pengambilan maklumat yang kuat. .

Cara Mencari DeepSeek Cara Mencari DeepSeek Feb 19, 2025 pm 05:39 PM

DeepSeek adalah enjin carian proprietari yang hanya mencari dalam pangkalan data atau sistem tertentu, lebih cepat dan lebih tepat. Apabila menggunakannya, pengguna dinasihatkan untuk membaca dokumen itu, cuba strategi carian yang berbeza, dapatkan bantuan dan maklum balas mengenai pengalaman pengguna untuk memanfaatkan kelebihan mereka.

Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Sesame Open Door Exchange Web Pautan Pautan Gerbang Perdagangan Laman Web Pendaftaran Terkini Feb 28, 2025 am 11:06 AM

Artikel ini memperkenalkan proses pendaftaran versi web Web Open Exchange (GATE.IO) dan aplikasi Perdagangan Gate secara terperinci. Sama ada pendaftaran web atau pendaftaran aplikasi, anda perlu melawat laman web rasmi atau App Store untuk memuat turun aplikasi tulen, kemudian isi nama pengguna, kata laluan, e -mel, nombor telefon bimbit dan maklumat lain, dan lengkap e -mel atau pengesahan telefon bimbit.

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Feb 21, 2025 pm 10:57 PM

Mengapa pautan Bybit Exchange tidak dimuat turun dan dipasang secara langsung? Bybit adalah pertukaran cryptocurrency yang menyediakan perkhidmatan perdagangan kepada pengguna. Aplikasi mudah alih Exchange tidak boleh dimuat turun terus melalui AppStore atau GooglePlay untuk sebab -sebab berikut: 1. Aplikasi pertukaran cryptocurrency sering tidak memenuhi keperluan ini kerana ia melibatkan perkhidmatan kewangan dan memerlukan peraturan dan standard keselamatan tertentu. 2. Undang -undang dan Peraturan Pematuhan di banyak negara, aktiviti yang berkaitan dengan urus niaga cryptocurrency dikawal atau terhad. Untuk mematuhi peraturan ini, aplikasi bybit hanya boleh digunakan melalui laman web rasmi atau saluran yang diberi kuasa lain

Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Platform Perdagangan Pintu Terbuka Sesame Muat turun Versi Mudah Alih Platform Perdagangan Platform Perdagangan Alamat Muat Turun Feb 28, 2025 am 10:51 AM

Adalah penting untuk memilih saluran rasmi untuk memuat turun aplikasi dan memastikan keselamatan akaun anda.

WEB OPEN DOOR EXCHANGE WEB PAGE LOGIN VERSI VERSI UNTUK GATEIO Laman Web Rasmi Pintu Masuk WEB OPEN DOOR EXCHANGE WEB PAGE LOGIN VERSI VERSI UNTUK GATEIO Laman Web Rasmi Pintu Masuk Mar 04, 2025 pm 11:48 PM

Pengenalan terperinci kepada operasi log masuk versi Web Open Exchange, termasuk langkah masuk dan proses pemulihan kata laluan.

Portal Log Masuk Versi Rasmi Binance Binance Portal Log Masuk Versi Rasmi Binance Binance Feb 21, 2025 pm 05:42 PM

Untuk mengakses versi Login Laman Web Binance yang terkini, ikuti langkah mudah ini. Pergi ke laman web rasmi dan klik butang "Login" di sudut kanan atas. Pilih kaedah log masuk anda yang sedia ada. Masukkan nombor mudah alih berdaftar atau e -mel dan kata laluan anda dan pengesahan lengkap (seperti kod pengesahan mudah alih atau Google Authenticator). Selepas pengesahan yang berjaya, anda boleh mengakses Portal Log masuk laman web rasmi Binance.

Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Top 10 Disyorkan untuk App Perdagangan Aset Digital Crypto (2025 Global Ranking) Mar 18, 2025 pm 12:15 PM

Artikel ini mencadangkan sepuluh platform perdagangan cryptocurrency teratas yang memberi perhatian kepada, termasuk Binance, OKX, Gate.io, Bitflyer, Kucoin, Bybit, Coinbase Pro, Kraken, BYDFI dan Xbit yang desentralisasi. Platform ini mempunyai kelebihan mereka sendiri dari segi kuantiti mata wang transaksi, jenis urus niaga, keselamatan, pematuhan, dan ciri khas. Memilih platform yang sesuai memerlukan pertimbangan yang komprehensif berdasarkan pengalaman perdagangan anda sendiri, toleransi risiko dan keutamaan pelaburan. Semoga artikel ini membantu anda mencari saman terbaik untuk diri sendiri

See all articles