Pemahaman yang lebih mendalam tentang Transformer visual, analisis Transformer visual-AI-php.cn

Jadual Kandungan

Tulis di hadapan&&Pemahaman peribadi penulis

Grad-CAM

Kaedah berasaskan pemangkasan

Kaedah yang Boleh Diterangkan Secara Inheren

Tugas Lain

Tinjauan Masa Depan

Rumah

Peranti teknologi

Pemahaman yang lebih mendalam tentang Transformer visual, analisis Transformer visual

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Dec 15, 2023 am 11:17 AM

Model Penglihatan

Artikel ini dicetak semula dengan kebenaran akaun awam Autonomous Driving Heart Sila hubungi sumber semasa mencetak semula

Tulis di hadapan&&Pemahaman peribadi penulis

Pada masa ini, model algoritma berdasarkan struktur Transformer telah digunakan secara meluas. bidang penglihatan komputer (CV) ) telah memberi impak yang besar. Mereka mengatasi model algoritma rangkaian neural convolutional (CNN) sebelumnya pada banyak tugas asas penglihatan komputer. Berikut ialah kedudukan senarai LeaderBoard terkini bagi tugas penglihatan komputer asas yang berbeza yang saya temui Melalui LeaderBoard, kita dapat melihat penguasaan model algoritma Transformer dalam pelbagai tugas penglihatan komputer

Tugas pengelasan imej

Pertama di ImageNet Leaderboard, dapat dilihat dari senarai bahawa antara lima teratas, setiap model menggunakan struktur Transformer, manakala struktur CNN hanya digunakan sebahagian sahaja, atau digabungkan dengan Transformer.

更深层的理解视觉Transformer，对视觉Transformer的剖析

Leaderboard untuk tugas klasifikasi imej Tugas Pengesanan Tugas

Seterusnya adalah Leaderboard pada Coco Test-Dev struktur seperti algoritma dilanjutkan.

LeaderBoard untuk tugas pengesanan sasaran

更深层的理解视觉Transformer，对视觉Transformer的剖析 Tugas segmentasi semantik

Yang terakhir ialah LeaderBoard pada ADE20K val Ia juga boleh dilihat dari senarai bahawa antara yang teratas dalam senarai, struktur Transformer masih menduduki struktur semasa kedudukan.

Papan Pemimpin untuk tugasan segmentasi semantik

Walaupun Transformer pada masa ini menunjukkan potensi pembangunan yang hebat di China, komuniti penglihatan komputer semasa belum memahami sepenuhnya kerja dalaman Vision Transformer, mahupun membuat keputusan (hasil ramalan output) ), jadi keperluan untuk kebolehtafsirannya secara beransur-ansur muncul. Hanya dengan memahami cara model sedemikian membuat keputusan, kami boleh meningkatkan prestasi mereka dan membina kepercayaan dalam sistem kecerdasan buatan 更深层的理解视觉Transformer，对视觉Transformer的剖析

Tujuan utama artikel ini adalah untuk mengkaji kaedah kebolehtafsiran berbeza Pengubah Penglihatan dan berdasarkan motivasi penyelidikan algoritma yang berbeza, jenis struktur dan senario aplikasi diklasifikasikan untuk membentuk artikel ulasan

Analisis Pengubah Penglihatan

Oleh kerana seperti yang dinyatakan sebentar tadi, struktur Pengubah Penglihatan telah mencapai keputusan yang sangat baik dalam pelbagai tugas asas penglihatan komputer. Begitu banyak kaedah telah muncul dalam komuniti penglihatan komputer untuk meningkatkan kebolehtafsirannya. Dalam artikel ini, kami memberi tumpuan terutamanya pada tugas klasifikasi, dan memilih yang terkini dan terkini daripada lima aspek: Kaedah Atribusi Biasa

Kaedah Berasaskan Perhatian, Kaedah Berasaskan Pemangkasan, Kaedah Yang Boleh Diterangkan Secara InherenLainnya Tugasan Kerja klasik diperkenalkan. Berikut ialah peta minda yang dipaparkan dalam kertas kerja anda boleh membacanya dengan lebih terperinci berdasarkan perkara yang anda minati~

Peta minda artikel ini 更深层的理解视觉Transformer，对视觉Transformer的剖析

Kaedah Atribusi Biasa

Penjelasan berdasarkan kaedah atribut biasanya bermula daripada model Mari kita mulakan dengan menerangkan proses bagaimana ciri input secara beransur-ansur memperoleh hasil output akhir. Kaedah jenis ini digunakan terutamanya untuk mengukur korelasi antara hasil ramalan model dan ciri input Antara kaedah ini, seperti algoritma

Grad-CAM

dan

Grad Bersepadu

digunakan secara langsung pada algoritma berdasarkan Transformer visual. Beberapa kaedah lain seperti SHAP dan

Layer-Wise Relevance Propagation (LRP) telah digunakan untuk meneroka seni bina berasaskan ViT. Walau bagaimanapun, disebabkan kos kaedah pengiraan yang sangat tinggi seperti SHAP, algoritma ViT Shapely baru-baru ini telah direka bentuk untuk menyesuaikan diri dengan penyelidikan aplikasi berkaitan ViT. Kaedah berasaskan perhatianVision Transformer telah memperoleh keupayaan pengekstrakan ciri yang hebat melalui mekanisme perhatiannya. Antara kaedah kebolehtafsiran berasaskan perhatian, memvisualisasikan keputusan berat perhatian adalah kaedah yang sangat berkesan. Artikel ini akan memperkenalkan beberapa teknik visualisasi

Perhatian Mentah: Seperti namanya, kaedah ini adalah untuk menggambarkan peta berat perhatian yang diperoleh daripada lapisan tengah model rangkaian, untuk menganalisis kesan model.
Pelancaran Perhatian: Teknologi ini menjejaki pemindahan maklumat daripada token input kepada pembenaman perantaraan dengan mengembangkan pemberat perhatian dalam lapisan rangkaian yang berbeza.
Aliran Perhatian: Kaedah ini menganggap peta perhatian sebagai rangkaian aliran dan menggunakan algoritma aliran maksimum untuk mengira nilai aliran maksimum daripada pembenaman perantaraan kepada token input.
partialLRP: Kaedah ini dicadangkan untuk menggambarkan mekanisme perhatian berbilang kepala dalam Pengubah Penglihatan, sambil mempertimbangkan kepentingan setiap kepala perhatian.
Grad-SAM: Kaedah ini digunakan untuk mengurangkan had bergantung semata-mata pada matriks perhatian asal untuk menerangkan ramalan model, mendorong penyelidik menggunakan kecerunan dalam pemberat perhatian asal.
Beyond Intuition: Kaedah ini juga merupakan kaedah untuk menerangkan perhatian, termasuk dua peringkat persepsi perhatian dan maklum balas penaakulan.

Akhir sekali, berikut ialah gambarajah visualisasi perhatian bagi kaedah kebolehtafsiran yang berbeza Anda boleh rasa sendiri perbezaan antara kaedah visualisasi yang berbeza.

更深层的理解视觉Transformer，对视觉Transformer的剖析

Perbandingan peta perhatian kaedah visualisasi yang berbeza

Kaedah berasaskan pemangkasan

Pemangkasan adalah kaedah yang sangat berkesan yang digunakan secara meluas untuk mengoptimumkan kecekapan dan kerumitan struktur pengubah. Kaedah pemangkasan mengurangkan bilangan parameter dan kerumitan pengiraan model dengan memadam maklumat yang berlebihan atau tidak berguna. Walaupun algoritma pemangkasan memberi tumpuan kepada meningkatkan kecekapan pengiraan model, jenis algoritma ini masih boleh mencapai kebolehtafsiran model.

Kaedah pemangkasan berdasarkan Vision-Transformer dalam artikel ini boleh dibahagikan secara kasar kepada tiga kategori: boleh diterangkan secara eksplisit (boleh diterangkan secara eksplisit), boleh diterangkan secara tersirat (boleh diterangkan secara tersirat), boleh diterangkan secara jelas.

Explicitly Explainable
Antara kaedah berasaskan pemangkasan, terdapat beberapa jenis kaedah yang boleh memberikan model yang lebih ringkas dan boleh dijelaskan.

IA-RED^2: Matlamat kaedah ini adalah untuk mencapai keseimbangan optimum antara kecekapan pengiraan dan kebolehtafsiran model algoritma. Dan dalam proses ini, fleksibiliti model algoritma ViT asal dikekalkan.
X-Pruner: Kaedah ini ialah kaedah untuk mencantas unit yang menonjol dengan mencipta topeng persepsi yang boleh ditafsir yang mengukur sumbangan setiap unit yang boleh diramal dalam meramalkan kelas tertentu.
Vision DiffMask: Kaedah pemangkasan ini termasuk menambah mekanisme gating pada setiap lapisan ViT Melalui mekanisme gating, output model boleh dikekalkan sambil melindungi input. Di luar ini, model algoritmik dengan jelas boleh mencetuskan subset imej yang tinggal, membolehkan pemahaman yang lebih baik tentang ramalan model.

Implicitly Explainable
Antara kaedah berasaskan pemangkasan, terdapat juga beberapa kaedah klasik yang boleh dibahagikan kepada kategori model explainability yang tersirat.
Dynamic ViT: Kaedah ini menggunakan modul ramalan ringan untuk menganggar kepentingan setiap token berdasarkan ciri semasa. Modul ringan ini kemudiannya ditambahkan pada lapisan ViT yang berbeza untuk memangkas token berlebihan secara hierarki. Paling penting, kaedah ini meningkatkan kebolehtafsiran dengan mencari secara beransur-ansur bahagian imej utama yang menyumbang paling banyak kepada pengelasan.
Efficient Vision Transformer (EViT): Idea teras kaedah ini adalah untuk mempercepatkan EViT dengan menyusun semula token. Dengan mengira skor perhatian, EViT mengekalkan token yang paling berkaitan sambil menggabungkan token yang kurang relevan kepada token tambahan. Pada masa yang sama, untuk menilai kebolehtafsiran EViT, pengarang kertas kerja menggambarkan proses pengecaman token pada berbilang imej input.
Mungkin Boleh Diterangkan
Walaupun kaedah jenis ini pada asalnya tidak direka untuk meningkatkan kebolehtafsiran ViT, kaedah jenis ini memberikan potensi besar untuk penyelidikan lanjut tentang kebolehtafsiran model.
Patch Slimming: Mempercepatkan ViT dengan memfokuskan pada tompok berlebihan dalam imej melalui pendekatan atas ke bawah. Algoritma secara selektif mengekalkan keupayaan tampungan utama untuk menyerlahkan ciri visual yang penting, dengan itu meningkatkan kebolehtafsiran.
Hierarchical Visual Transformer (HVT): Kaedah ini diperkenalkan untuk meningkatkan kebolehskalaan dan prestasi ViT. Apabila kedalaman model meningkat, panjang jujukan secara beransur-ansur berkurangan. Tambahan pula, dengan membahagikan blok ViT kepada beberapa peringkat dan menggunakan operasi pengumpulan pada setiap peringkat, kecekapan pengiraan bertambah baik dengan ketara. Memandangkan penumpuan progresif pada komponen yang paling penting dalam model, terdapat peluang untuk meneroka potensi kesannya terhadap meningkatkan kebolehtafsiran dan kebolehjelasan.

Kaedah yang Boleh Diterangkan Secara Inheren

Di antara kaedah boleh tafsir yang berbeza, terdapat kelas kaedah yang terutamanya membangunkan model algoritmik yang secara intrinsik boleh menerangkannya Namun, model ini sering bergelut untuk mencapai tahap ketepatan yang sama seperti kotak hitam yang lebih kompleks model. Oleh itu, keseimbangan yang teliti mesti dipertimbangkan antara kebolehtafsiran dan prestasi. Seterusnya, beberapa karya klasik diperkenalkan secara ringkas.

ViT-CX: Kaedah ini ialah kaedah tafsiran berasaskan topeng yang disesuaikan untuk model ViT. Pendekatan ini bergantung pada pembenaman tampalan dan kesannya pada output model, dan bukannya memfokuskan padanya. Kaedah ini terdiri daripada dua peringkat: penjanaan topeng dan pengagregatan topeng, dengan itu menyediakan peta kepentingan yang lebih bermakna.
ViT-NeT: Kaedah ini ialah penyahkod pokok neural baharu yang menerangkan proses membuat keputusan melalui struktur pokok dan prototaip. Pada masa yang sama, algoritma juga membenarkan tafsiran visual hasil.
R-Cut: Kaedah ini meningkatkan kebolehtafsiran ViT melalui Relationship Weighted Out and Cut. Kaedah ini merangkumi dua modul iaitu modul Relationship Weighted Out dan Cut. Yang pertama memberi tumpuan kepada mengekstrak kelas maklumat tertentu dari lapisan tengah, menekankan ciri yang berkaitan. Yang terakhir melakukan penguraian ciri berbutir halus. Dengan menyepadukan kedua-dua modul, peta kebolehtafsiran khusus kelas yang padat boleh dihasilkan.

Tugas Lain

Seni bina berasaskan ViT masih perlu dijelaskan untuk tugas penglihatan komputer lain dalam penerokaan. Beberapa kaedah kebolehtafsiran telah dicadangkan khusus untuk tugasan lain, dan kerja terkini dalam bidang berkaitan akan diperkenalkan di bawah

eX-ViT: Algoritma ini ialah pengubah visual baharu yang boleh ditafsir berdasarkan pembahagian semantik yang diselia dengan lemah. Di samping itu, untuk meningkatkan kebolehtafsiran, modul kehilangan berorientasikan atribut diperkenalkan, yang mengandungi tiga kerugian: kehilangan berorientasikan atribut peringkat global, kehilangan kebolehdiskriminasian atribut peringkat tempatan dan kehilangan kepelbagaian atribut. Yang pertama menggunakan peta perhatian untuk mencipta ciri yang boleh ditafsir, manakala dua yang terakhir meningkatkan pembelajaran atribut.
DINO: Kaedah ini adalah kaedah penyeliaan sendiri yang mudah dan kaedah penyulingan sendiri tanpa label. Peta perhatian terakhir yang dipelajari boleh mengekalkan kawasan semantik imej dengan berkesan, dengan itu mencapai tujuan yang boleh ditafsirkan.
Generic Attention-model: Kaedah ini ialah model algoritma untuk ramalan berdasarkan seni bina Transformer. Kaedah ini digunakan untuk tiga seni bina yang paling biasa digunakan, iaitu perhatian kendiri tulen, perhatian kendiri digabungkan dengan perhatian bersama, dan perhatian penyahkod pengekod. Untuk menguji kebolehtafsiran model, pengarang menggunakan tugas menjawab soalan visual, namun, ia juga boleh digunakan untuk tugas CV lain seperti pengesanan objek dan pembahagian imej.
ATMAN: Ini ialah kaedah gangguan modaliti-agnostik yang menggunakan mekanisme perhatian untuk menjana peta korelasi input berbanding ramalan output. Pendekatan ini cuba memahami ramalan ubah bentuk melalui operasi perhatian yang cekap memori.
Concept-Transformer: Algoritma ini menjana penjelasan output model dengan menyerlahkan skor perhatian untuk konsep peringkat tinggi yang ditentukan pengguna, memastikan kebolehpercayaan dan kebolehpercayaan.

Tinjauan Masa Depan

Pada masa ini, model algoritma berdasarkan seni bina Transformer telah mencapai hasil yang cemerlang dalam pelbagai tugas penglihatan komputer. Walau bagaimanapun, pada masa ini terdapat kekurangan penyelidikan yang jelas tentang cara menggunakan kaedah kebolehtafsiran untuk mempromosikan penyahpepijatan dan penambahbaikan model, serta meningkatkan kesaksamaan dan kebolehpercayaan model, terutamanya dalam aplikasi ViT

Kertas kerja ini bertujuan untuk menggunakan tugas pengelasan imej untuk meningkatkan kesaksamaan dan kebolehpercayaan. model. Model algoritma kebolehtafsiran Vision Transformer diklasifikasikan dan disusun untuk membantu pembaca memahami dengan lebih baik seni bina model sedemikian. Saya harap ia akan membantu semua orang

更深层的理解视觉Transformer，对视觉Transformer的剖析

Apa yang perlu ditulis semula ialah: Pautan asal: https: // mp.weixin.qq.com/s/URkobeRNB8dEYzrECaC7tQ

Atas ialah kandungan terperinci Pemahaman yang lebih mendalam tentang Transformer visual, analisis Transformer visual. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

3 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

2 minggu yang lalu By DDD

Akan R.E.P.O. Ada Crossplay?

1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7552

Tutorial CakePHP

1382

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Di luar ORB-SLAM3! SL-SLAM: Adegan bertekstur lemah ringan, kegelisahan teruk dan lemah semuanya dikendalikan May 30, 2024 am 09:35 AM

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles