


Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP
Ketepatan ImageNet pernah menjadi penunjuk utama untuk menilai prestasi model, tetapi dalam medan penglihatan pengiraan hari ini, penunjuk ini nampaknya tidak lengkap secara beransur-ansur.
Memandangkan model penglihatan komputer menjadi lebih kompleks, kepelbagaian model yang tersedia telah meningkat dengan ketara, daripada ConvNets kepada Vision Transformers. Kaedah latihan juga telah berkembang kepada pembelajaran diselia sendiri dan latihan pasangan teks imej seperti CLIP, dan tidak lagi terhad kepada latihan diselia pada ImageNet.
Walaupun ketepatan ImageNet adalah penunjuk penting, ia tidak mencukupi untuk menilai prestasi model sepenuhnya. Seni bina, kaedah latihan dan set data yang berbeza boleh menyebabkan model berfungsi secara berbeza pada tugasan yang berbeza, jadi bergantung semata-mata pada ImageNet untuk menilai model mungkin mempunyai had. Apabila model melebihi set data ImageNet dan ketepatan mencapai ketepuan, keupayaan generalisasi model pada tugas lain mungkin diabaikan. Oleh itu, pelbagai faktor perlu dipertimbangkan untuk menilai prestasi dan kebolehgunaan model.
Walaupun ketepatan ImageNet CLIP serupa dengan ResNet, pengekod visualnya lebih mantap dan boleh dipindahkan. Ini mendorong penyelidik untuk meneroka kelebihan unik CLIP yang tidak jelas apabila mempertimbangkan hanya metrik ImageNet. Ini menyerlahkan kepentingan menganalisis sifat lain untuk membantu menemui model yang berguna.
Selain itu, penanda aras tradisional tidak dapat menilai sepenuhnya keupayaan model untuk mengendalikan cabaran visual dunia sebenar, seperti pelbagai sudut kamera, keadaan pencahayaan atau oklusi. Model yang dilatih pada set data seperti ImageNet sering mendapati sukar untuk memanfaatkan prestasi mereka dalam aplikasi praktikal kerana keadaan dan senario dunia sebenar lebih pelbagai.
Soalan-soalan ini telah membawa kekeliruan baharu kepada pengamal dalam bidang: Bagaimana untuk mengukur model visual? Dan bagaimana untuk memilih model visual yang sesuai dengan keperluan anda?
Dalam kertas kerja baru-baru ini, penyelidik dari MBZUAI dan Meta menjalankan perbincangan mendalam mengenai isu ini.
- Tajuk kertas: ConvNet vs Transformer, Supervised vs CLIP: Beyond ImageNet Accuracy
- 215. pdf
Penyelidikan memfokuskan pada tingkah laku model di luar ketepatan ImageNet, menganalisis prestasi model utama dalam bidang penglihatan komputer, termasuk ConvNeXt dan Vision Transformer (ViT), yang kedua-duanya berprestasi di bawah seliaan dan Prestasi paradigma latihan CLIP.
Model yang dipilih mempunyai bilangan parameter yang sama dan ketepatan yang hampir sama pada ImageNet-1K di bawah setiap paradigma latihan, memastikan perbandingan yang adil. Para penyelidik mendalami satu siri ciri model, seperti jenis ralat ramalan, keupayaan generalisasi, invarian perwakilan yang dipelajari, penentukuran, dsb., memfokuskan pada ciri model tanpa latihan tambahan atau penalaan halus, dengan harapan untuk terus Rujukan disediakan. oleh pengamal menggunakan model terlatih.
Dalam analisis, penyelidik mendapati terdapat perbezaan besar dalam tingkah laku model antara seni bina dan paradigma latihan yang berbeza. Sebagai contoh, model yang dilatih di bawah paradigma CLIP menghasilkan ralat klasifikasi yang lebih sedikit daripada yang dilatih di ImageNet. Walau bagaimanapun, model yang diselia adalah ditentukur dengan lebih baik dan umumnya mengatasi prestasi pada penanda aras keteguhan ImageNet. ConvNeXt mempunyai kelebihan pada data sintetik, tetapi lebih berorientasikan tekstur daripada ViT. Sementara itu, ConvNeXt yang diselia menunjukkan prestasi yang baik pada banyak penanda aras, dengan prestasi kebolehpindahan yang setanding dengan model CLIP.
Adalah dapat dilihat bahawa pelbagai model menunjukkan kelebihan mereka dengan cara yang unik, dan kelebihan ini tidak dapat ditangkap oleh satu penunjuk. Para penyelidik menekankan bahawa metrik penilaian yang lebih terperinci diperlukan untuk memilih model dengan tepat dalam konteks tertentu dan untuk mencipta penanda aras ImageNet-agnostik baharu.
Berdasarkan pemerhatian ini, ketua saintis Meta AI Yann LeCun mengetweet semula kajian itu dan menyukainya:
Pemilihan model
Untuk model yang diselia, penyelidik menggunakan DeiT3-Base/16 terlatih ViT, yang mempunyai seni bina yang sama seperti ViT-Base/16, tetapi kaedah latihan telah ditambah baik, ConvNeXt -Asas telah digunakan. Untuk model CLIP, penyelidik menggunakan pengekod visual ViT-Base/16 dan ConvNeXt-Base dalam OpenCLIP.
Sila ambil perhatian bahawa prestasi model ini sedikit berbeza daripada model OpenAI asal. Semua pusat pemeriksaan model boleh didapati di halaman utama projek GitHub. Perbandingan model terperinci ditunjukkan dalam Jadual 1:
Untuk proses pemilihan model, pengkaji memberi penerangan terperinci:
1 Memandangkan pengkaji menggunakan model yang telah dilatih, dia tidak boleh mengawal tempoh latihan Kuantiti dan kualiti sampel data yang dilihat.
2. Untuk menganalisis ConvNets dan Transformers, banyak kajian terdahulu telah membandingkan ResNet dan ViT. Perbandingan ini secara amnya tidak kondusif untuk ConvNet, kerana ViT biasanya dilatih dengan resipi yang lebih maju dan mencapai ketepatan ImageNet yang lebih tinggi. ViT juga mempunyai beberapa elemen reka bentuk seni bina, seperti LayerNorm, yang tidak dimasukkan ke dalam ResNet apabila ia dicipta bertahun-tahun yang lalu. Oleh itu, untuk penilaian yang lebih seimbang, kami membandingkan ViT dengan ConvNeXt, wakil moden ConvNet yang berprestasi setanding dengan Transformers dan berkongsi banyak reka bentuk.
3. Dari segi mod latihan, penyelidik membandingkan mod penyeliaan dan mod CLIP. Model yang diselia telah mengekalkan prestasi terkini dalam penglihatan komputer. Model CLIP, sebaliknya, berprestasi baik dari segi generalisasi dan kebolehpindahan dan menyediakan sifat untuk menghubungkan perwakilan visual dan linguistik.
4 Memandangkan model yang diselia sendiri menunjukkan tingkah laku yang serupa dengan model yang diselia dalam ujian awal, ia tidak disertakan dalam keputusan. Ini mungkin disebabkan oleh fakta bahawa mereka akhirnya diselia dengan penalaan halus pada ImageNet-1K, yang menjejaskan kajian banyak ciri.
Seterusnya, mari kita lihat cara penyelidik menganalisis atribut yang berbeza. . dalam . Ia menggunakan metrik nisbah ralat (lebih rendah adalah lebih baik) untuk mengukur prestasi model pada faktor tertentu berbanding dengan ketepatan keseluruhan, membolehkan analisis ralat model bernuansa. Hasil pada ImageNet-X menunjukkan:
1 Berbanding model diselia, model CLIP membuat ralat yang lebih sedikit dalam ketepatan ImageNet.
2. Semua model dipengaruhi terutamanya oleh faktor kompleks seperti oklusi.3. Tekstur adalah faktor yang paling mencabar bagi semua model.
Bias Bentuk/Tekstur
Bias Tekstur Bentuk mengesan sama ada model bergantung pada pintasan tekstur rapuh dan bukannya isyarat bentuk peringkat tinggi. Bias ini boleh dikaji dengan menggabungkan imej bercanggah kiu bagi kategori bentuk dan tekstur yang berbeza. Pendekatan ini membantu memahami sejauh mana keputusan model berdasarkan bentuk berbanding tekstur. Para penyelidik menilai bias bentuk-tekstur pada set data konflik kiu dan mendapati bahawa bias tekstur model CLIP adalah lebih kecil daripada model yang diselia, manakala bias bentuk model ViT lebih tinggi daripada ConvNets.
Penentukuran boleh mengukur sama ada keyakinan ramalan model konsisten dengan ketepatan sebenar, yang boleh diukur melalui penunjuk seperti penentukuran yang dijangkakan plot kebolehpercayaan dan histogram keyakinan alat visual untuk penilaian. Penentukuran dinilai pada ImageNet-1K dan ImageNet-R, mengklasifikasikan ramalan kepada 15 tahap. Semasa eksperimen, penyelidik memerhati perkara berikut:
1. Model CLIP terlalu yakin, manakala model yang diselia kurang yakin.
2 ConvNeXt yang diselia melakukan penentukuran yang lebih baik daripada ViT yang diselia.
Keteguhan dan kebolehpindahan
Keteguhan dan kebolehpindahan model adalah penting untuk menyesuaikan diri dengan perubahan dalam pengedaran data dan tugasan baharu. Para penyelidik menilai keteguhan menggunakan pelbagai varian ImageNet dan mendapati bahawa walaupun prestasi purata model ViT dan ConvNeXt adalah setanding, kecuali untuk ImageNet-R dan ImageNet-Sketch, model yang diselia umumnya mengatasi prestasi CLIP dari segi keteguhan . Dari segi kebolehpindahan, ConvNeXt yang diselia mengatasi prestasi ViT dan hampir setanding dengan prestasi model CLIP, seperti yang dinilai pada penanda aras VTAB menggunakan 19 set data.
Synthetic Data
pug-imagenet dan set data sintetik lain dapat mengawal faktor-faktor seperti sudut dan tekstur kamera. Prestasi pada data. PUG-ImageNet mengandungi imej ImageNet fotorealistik dengan variasi sistematik dalam faktor seperti pose dan pencahayaan, dan prestasi diukur sebagai ketepatan 1 teratas mutlak. Para penyelidik memberikan keputusan mengenai faktor yang berbeza dalam PUG-ImageNet dan mendapati bahawa ConvNeXt mengatasi ViT dalam hampir semua faktor. Ini menunjukkan bahawa ConvNeXt mengatasi ViT pada data sintetik, manakala jurang untuk model CLIP adalah lebih kecil kerana ketepatan model CLIP adalah lebih rendah daripada model diselia, yang mungkin berkaitan dengan ketepatan ImageNet asal yang lebih rendah.
Invarian transformasi
Invarian transformasi merujuk kepada keupayaan model untuk menghasilkan perwakilan yang konsisten yang tidak dipengaruhi oleh transformasi input seperti penskalaan atau pergerakan, dengan itu mengekalkan Sifat ini membolehkan model membuat generalisasi dengan baik merentas input yang berbeza tetapi serupa secara semantik. Kaedah yang digunakan termasuk mengubah saiz imej untuk invarian skala, memindahkan tanaman untuk invarian kedudukan dan melaraskan peleraian model ViT menggunakan benam kedudukan terinterpolasi.
Mereka menilai invarian skala, gerakan dan resolusi pada ImageNet-1K dengan mengubah skala/kedudukan tanaman dan resolusi imej. ConvNeXt mengatasi ViT dalam latihan yang diselia. Secara keseluruhannya, model ini lebih teguh untuk transformasi skala/resolusi berbanding dengan pergerakan. Untuk aplikasi yang memerlukan keteguhan tinggi untuk penskalaan, anjakan dan peleraian, keputusan menunjukkan bahawa ConvNeXt yang diselia mungkin merupakan pilihan terbaik.
Ringkasan
Secara keseluruhannya, setiap model mempunyai kelebihan tersendiri. Ini menunjukkan bahawa pemilihan model harus bergantung pada kes penggunaan sasaran, kerana metrik prestasi standard mungkin mengabaikan nuansa kritikal tugas tertentu. Tambahan pula, banyak penanda aras sedia ada diperoleh daripada ImageNet, yang juga berat sebelah penilaian. Membangunkan penanda aras baharu dengan pengedaran data yang berbeza adalah penting untuk menilai model dalam persekitaran perwakilan dunia yang lebih nyata.
Berikut ialah ringkasan rumusan artikel ini:
ConvNet dengan Transformer
11 lebih baik daripada Supervised ConvNeXt invariant invariant inbenches lebih baik. transformasi data dan mempamerkan kemudahalihan dan keteguhan yang lebih baik.
2. ConvNeXt berprestasi lebih baik daripada ViT pada data sintetik.
3. ViT mempunyai sisihan bentuk yang lebih besar.
Penyeliaan lwn. CLIP
1 Walaupun model CLIP lebih unggul dari segi kebolehpindahan, ConvNeXt yang diselia menunjukkan prestasi yang kompetitif dalam tugasan ini. Ini menunjukkan potensi model yang diselia.
2. Model yang diselia menunjukkan prestasi yang lebih baik pada penanda aras keteguhan, mungkin kerana model ini adalah semua varian ImageNet.
3 Model CLIP mempunyai kecenderungan bentuk yang lebih besar dan ralat pengelasan yang lebih sedikit berbanding dengan ketepatan ImageNet.
Atas ialah kandungan terperinci Pada era pasca Sora, bagaimanakah pengamal CV memilih model? Konvolusi atau ViT, pembelajaran diselia atau paradigma CLIP. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Ditulis sebelum ini, hari ini kita membincangkan bagaimana teknologi pembelajaran mendalam boleh meningkatkan prestasi SLAM berasaskan penglihatan (penyetempatan dan pemetaan serentak) dalam persekitaran yang kompleks. Dengan menggabungkan kaedah pengekstrakan ciri dalam dan pemadanan kedalaman, di sini kami memperkenalkan sistem SLAM visual hibrid serba boleh yang direka untuk meningkatkan penyesuaian dalam senario yang mencabar seperti keadaan cahaya malap, pencahayaan dinamik, kawasan bertekstur lemah dan seks yang teruk. Sistem kami menyokong berbilang mod, termasuk konfigurasi monokular, stereo, monokular-inersia dan stereo-inersia lanjutan. Selain itu, ia juga menganalisis cara menggabungkan SLAM visual dengan kaedah pembelajaran mendalam untuk memberi inspirasi kepada penyelidikan lain. Melalui percubaan yang meluas pada set data awam dan data sampel sendiri, kami menunjukkan keunggulan SL-SLAM dari segi ketepatan kedudukan dan keteguhan penjejakan.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
