


Penilaian LeCun: Penilaian meta ConvNet dan Transformer, yang manakah lebih kuat?
Bagaimana untuk memilih model visual berdasarkan keperluan khusus?
Bagaimanakah model ConvNet/ViT dan diselia/CLIP membandingkan antara satu sama lain pada penunjuk selain ImageNet?
Penyelidikan terkini yang diterbitkan oleh penyelidik dari MABZUAI dan Meta secara komprehensif membandingkan model visual biasa pada penunjuk "tidak standard".
Alamat kertas: https://arxiv.org/pdf/2311.09215.pdf
LeCun sangat memuji penyelidikan ini dan menggelarnya sebagai penyelidikan yang sangat baik. Kajian ini membandingkan seni bina ConvNext dan VIT yang bersaiz sama, memberikan perbandingan komprehensif pelbagai sifat apabila dilatih dalam mod diselia dan menggunakan kaedah CLIP.
Melebihi ketepatan ImageNet
Lanskap model penglihatan komputer menjadi semakin pelbagai dan kompleks.
Dari ConvNets awal hingga evolusi Vision Transformers, jenis model yang tersedia sentiasa berkembang.
Begitu juga, paradigma latihan telah berkembang daripada latihan diselia pada ImageNet kepada pembelajaran penyeliaan sendiri dan latihan pasangan teks imej seperti CLIP.
Semasa menandakan kemajuan, ledakan pilihan ini menimbulkan cabaran utama kepada pengamal: Bagaimanakah anda memilih model sasaran yang sesuai untuk anda?
Ketepatan ImageNet sentiasa menjadi penunjuk utama untuk menilai prestasi model. Sejak mencetuskan revolusi pembelajaran mendalam, ia telah memacu kemajuan yang ketara dalam bidang kecerdasan buatan.
Walau bagaimanapun, ia tidak dapat mengukur nuansa model yang terhasil daripada seni bina, paradigma latihan dan data yang berbeza.
Jika dinilai semata-mata oleh ketepatan ImageNet, model dengan sifat yang berbeza mungkin kelihatan serupa (Rajah 1). Had ini menjadi lebih jelas apabila model mula mengatasi ciri ImageNet dan mencapai ketepuan dalam ketepatan.
Untuk merapatkan jurang, penyelidik menjalankan penerokaan mendalam tentang tingkah laku model di luar ketepatan ImageNet.
Untuk mengkaji kesan seni bina dan objektif latihan terhadap prestasi model, Vision Transformer (ViT) dan ConvNeXt telah dibandingkan secara khusus. Ketepatan pengesahan ImageNet-1K dan keperluan pengiraan kedua-dua seni bina moden ini adalah setanding.
Selain itu, kajian membandingkan model diselia yang diwakili oleh DeiT3-Base/16 dan ConvNeXt-Base, serta pengekod visual OpenCLIP berdasarkan model CLIP.
Analisis Keputusan
Analisis penyelidik direka untuk mengkaji tingkah laku model yang boleh dinilai tanpa latihan lanjut atau penalaan halus.
Pendekatan ini amat penting untuk pengamal yang mempunyai sumber pengkomputeran terhad, kerana mereka sering bergantung pada model pra-latihan.
Dalam analisis khusus, walaupun pengarang mengiktiraf nilai tugas hiliran seperti pengesanan objek, tumpuannya adalah pada ciri yang memberikan cerapan dengan keperluan pengiraan yang minimum dan mencerminkan gelagat yang penting untuk aplikasi dunia sebenar. .
Ia menggunakan kadar ralat (lebih rendah adalah lebih baik) untuk mengukur prestasi model pada faktor tertentu berbanding dengan ketepatan keseluruhan, membolehkan analisis ralat model bernuansa. Hasil pada ImageNet-X menunjukkan:
1 Berbanding dengan ketepatan ImageNetnya, model CLIP membuat ralat yang lebih sedikit daripada model yang diselia.2. Semua model dipengaruhi terutamanya oleh faktor kompleks seperti oklusi. 3. Tekstur adalah faktor yang paling mencabar bagi semua model. Shape/Tekstur Bias Shape/Tekstur Bias menyemak sama ada model bergantung pada pintasan bentuk tekstur lanjutan. Bias ini boleh dikaji dengan menggabungkan imej bercanggah kiu bagi kategori bentuk dan tekstur yang berbeza. Pendekatan ini membantu memahami sejauh mana keputusan model berdasarkan bentuk berbanding tekstur. Para penyelidik menilai bias bentuk-tekstur pada set data konflik kiu dan mendapati bahawa bias tekstur model CLIP adalah lebih kecil daripada model diselia, manakala bias bentuk model ViT lebih tinggi daripada ConvNets. . Penentukuran model Penentukuran mengukur sama ada keyakinan ramalan model konsisten dengan ketepatan sebenar. Ini boleh dinilai melalui metrik seperti ralat penentukuran jangkaan (ECE), serta alat visualisasi seperti plot kebolehpercayaan dan histogram keyakinan. Para penyelidik menilai penentukuran pada ImageNet-1K dan ImageNet-R, mengklasifikasikan ramalan kepada 15 tahap. Dalam eksperimen, perkara berikut diperhatikan: - Model CLIP mempunyai keyakinan yang tinggi, manakala model yang diselia sedikit tidak mencukupi. - ConvNeXt yang diselia lebih baik ditentukur daripada ViT yang diselia. Keteguhan dan mudah alih Keteguhan dan mudah alih model adalah kunci untuk menyesuaikan diri dengan perubahan dalam pengedaran data dan tugasan baharu. Para penyelidik menilai kekukuhan menggunakan varian ImageNet yang berbeza dan mendapati bahawa walaupun model ViT dan ConvNeXt mempunyai prestasi purata yang sama, kecuali untuk ImageNet-R dan ImageNet-Sketch, model yang diselia secara umumnya mengatasi prestasi dari segi CLIP. Dari segi kemudahalihan, dinilai pada 19 set data menggunakan penanda aras VTAB, ConvNeXt yang diselia mengatasi prestasi ViT dan hampir setanding dengan prestasi model CLIP. Data sintetik Data data sintetik seperti PUG-ImageNet, yang boleh mengawal dengan tepat faktor seperti sudut kamera dan tekstur, telah menjadi saluran analisis data penyelidik prestasi yang menjanjikan model. PUG-ImageNet mengandungi imej ImageNet fotorealistik dengan variasi sistematik dalam pencahayaan dan faktor lain, dengan prestasi diukur sebagai ketepatan tertinggi mutlak. Para penyelidik memberikan keputusan untuk faktor yang berbeza dalam PUG-ImageNet dan mendapati bahawa ConvNeXt mengatasi ViT dalam hampir semua faktor. Ini menunjukkan bahawa ConvNeXt mengatasi ViT pada data sintetik, manakala jurang model CLIP lebih kecil, kerana ketepatan model CLIP lebih rendah daripada model diselia, yang mungkin berkaitan dengan ketepatan ImageNet asal yang lebih rendah . Invarian Ciri Invarian ciri merujuk kepada keupayaan model untuk menghasilkan perwakilan yang konsisten yang tidak dipengaruhi oleh transformasi input, dengan itu mengekalkan semantik atau pergerakan. Ciri ini membolehkan model membuat generalisasi dengan baik merentas input yang berbeza tetapi serupa dari segi semantik. Pendekatan penyelidik termasuk mengubah saiz imej untuk invarian skala, mengalihkan tanaman untuk invarian kedudukan dan melaraskan peleraian model ViT menggunakan benam kedudukan terinterpolasi. ConvNeXt mengatasi prestasi ViT dalam latihan yang diselia. Secara keseluruhan, model ini lebih teguh untuk transformasi skala/resolusi daripada pergerakan. Untuk aplikasi yang memerlukan keteguhan tinggi untuk penskalaan, anjakan dan peleraian, keputusan menunjukkan bahawa ConvNeXt yang diselia mungkin merupakan pilihan terbaik. Penyelidik mendapati setiap model mempunyai kelebihan tersendiri. Ini menunjukkan bahawa pilihan model harus bergantung pada kes penggunaan sasaran, kerana metrik prestasi standard mungkin mengabaikan nuansa kritikal misi. Tambahan pula, banyak penanda aras sedia ada diperoleh daripada ImageNet, yang berat sebelah penilaian. Membangunkan penanda aras baharu dengan pengagihan data yang berbeza adalah penting untuk menilai model dalam konteks yang lebih realistik mewakili. ConvNet vs Transformer - Dalam banyak penanda aras, ConvNeXt yang diselia mempunyai prestasi yang lebih baik daripada VIT yang diselia: ia ditentukur lebih baik, invarian kepada transformasi data, menunjukkan prestasi yang lebih baik Kebolehpindahan kebaikan. - ConvNeXt mengatasi ViT pada data sintetik. - ViT mempunyai bias bentuk yang lebih tinggi. Selia lwn CLIP - Walaupun model CLIP lebih baik dari segi kebolehpindahan, ConvNeXt yang diselia menunjukkan prestasi kompetitif dalam tugasan ini. Ini menunjukkan potensi model yang diselia. - Model yang diselia lebih baik dalam penanda aras keteguhan, mungkin kerana model ini adalah varian ImageNet. - Model CLIP mempunyai bias bentuk yang lebih tinggi dan ralat pengelasan yang lebih sedikit berbanding dengan ketepatan ImageNetnya.
Atas ialah kandungan terperinci Penilaian LeCun: Penilaian meta ConvNet dan Transformer, yang manakah lebih kuat?. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Cecair memproses 7 juta rekod dan membuat peta interaktif dengan teknologi geospatial. Artikel ini meneroka cara memproses lebih dari 7 juta rekod menggunakan Laravel dan MySQL dan mengubahnya menjadi visualisasi peta interaktif. Keperluan Projek Cabaran Awal: Ekstrak Wawasan berharga menggunakan 7 juta rekod dalam pangkalan data MySQL. Ramai orang mula -mula mempertimbangkan bahasa pengaturcaraan, tetapi mengabaikan pangkalan data itu sendiri: Bolehkah ia memenuhi keperluan? Adakah penghijrahan data atau pelarasan struktur diperlukan? Bolehkah MySQL menahan beban data yang besar? Analisis awal: Penapis utama dan sifat perlu dikenalpasti. Selepas analisis, didapati bahawa hanya beberapa atribut yang berkaitan dengan penyelesaiannya. Kami mengesahkan kemungkinan penapis dan menetapkan beberapa sekatan untuk mengoptimumkan carian. Carian Peta Berdasarkan Bandar

Terdapat banyak sebab mengapa permulaan MySQL gagal, dan ia boleh didiagnosis dengan memeriksa log ralat. Penyebab umum termasuk konflik pelabuhan (periksa penghunian pelabuhan dan ubah suai konfigurasi), isu kebenaran (periksa keizinan pengguna yang menjalankan perkhidmatan), ralat fail konfigurasi (periksa tetapan parameter), rasuah direktori data (memulihkan data atau membina semula ruang meja), isu ruang jadual InnoDB (semak fail ibdata1) Apabila menyelesaikan masalah, anda harus menganalisisnya berdasarkan log ralat, cari punca utama masalah, dan mengembangkan tabiat sandaran data secara teratur untuk mencegah dan menyelesaikan masalah.

Untuk menetapkan masa untuk Vue Axios, kita boleh membuat contoh Axios dan menentukan pilihan masa tamat: dalam tetapan global: vue.prototype. $ Axios = axios.create ({timeout: 5000}); Dalam satu permintaan: ini. $ axios.get ('/api/pengguna', {timeout: 10000}).

Artikel ini memperkenalkan operasi pangkalan data MySQL. Pertama, anda perlu memasang klien MySQL, seperti MySqlworkbench atau Command Line Client. 1. Gunakan perintah MySQL-Uroot-P untuk menyambung ke pelayan dan log masuk dengan kata laluan akaun root; 2. Gunakan CreateTatabase untuk membuat pangkalan data, dan gunakan Pilih pangkalan data; 3. Gunakan createtable untuk membuat jadual, menentukan medan dan jenis data; 4. Gunakan InsertInto untuk memasukkan data, data pertanyaan, kemas kini data dengan kemas kini, dan padam data dengan padam. Hanya dengan menguasai langkah -langkah ini, belajar menangani masalah biasa dan mengoptimumkan prestasi pangkalan data anda boleh menggunakan MySQL dengan cekap.

Jurutera Backend Senior Remote Company Kekosongan Syarikat: Lokasi Lokasi: Jauh Pejabat Jauh Jenis: Gaji sepenuh masa: $ 130,000- $ 140,000 Penerangan Pekerjaan Mengambil bahagian dalam penyelidikan dan pembangunan aplikasi mudah alih Circle dan ciri-ciri berkaitan API awam yang meliputi keseluruhan kitaran hayat pembangunan perisian. Tanggungjawab utama kerja pembangunan secara bebas berdasarkan rubyonrails dan bekerjasama dengan pasukan react/redux/relay front-end. Membina fungsi teras dan penambahbaikan untuk aplikasi web dan bekerjasama rapat dengan pereka dan kepimpinan sepanjang proses reka bentuk berfungsi. Menggalakkan proses pembangunan positif dan mengutamakan kelajuan lelaran. Memerlukan lebih daripada 6 tahun backend aplikasi web kompleks

MySQL boleh mengembalikan data JSON. Fungsi JSON_EXTRACT mengekstrak nilai medan. Untuk pertanyaan yang kompleks, pertimbangkan untuk menggunakan klausa WHERE untuk menapis data JSON, tetapi perhatikan kesan prestasinya. Sokongan MySQL untuk JSON sentiasa meningkat, dan disyorkan untuk memberi perhatian kepada versi dan ciri terkini.

Pengoptimuman prestasi MySQL perlu bermula dari tiga aspek: konfigurasi pemasangan, pengindeksan dan pengoptimuman pertanyaan, pemantauan dan penalaan. 1. Selepas pemasangan, anda perlu menyesuaikan fail my.cnf mengikut konfigurasi pelayan, seperti parameter innodb_buffer_pool_size, dan tutup query_cache_size; 2. Buat indeks yang sesuai untuk mengelakkan indeks yang berlebihan, dan mengoptimumkan pernyataan pertanyaan, seperti menggunakan perintah menjelaskan untuk menganalisis pelan pelaksanaan; 3. Gunakan alat pemantauan MySQL sendiri (ShowProcessList, ShowStatus) untuk memantau kesihatan pangkalan data, dan kerap membuat semula dan mengatur pangkalan data. Hanya dengan terus mengoptimumkan langkah -langkah ini, prestasi pangkalan data MySQL diperbaiki.

Penjelasan terperinci mengenai atribut asid asid pangkalan data adalah satu set peraturan untuk memastikan kebolehpercayaan dan konsistensi urus niaga pangkalan data. Mereka menentukan bagaimana sistem pangkalan data mengendalikan urus niaga, dan memastikan integriti dan ketepatan data walaupun dalam hal kemalangan sistem, gangguan kuasa, atau pelbagai pengguna akses serentak. Gambaran keseluruhan atribut asid Atomicity: Transaksi dianggap sebagai unit yang tidak dapat dipisahkan. Mana -mana bahagian gagal, keseluruhan transaksi dilancarkan kembali, dan pangkalan data tidak mengekalkan sebarang perubahan. Sebagai contoh, jika pemindahan bank ditolak dari satu akaun tetapi tidak meningkat kepada yang lain, keseluruhan operasi dibatalkan. Begintransaction; UpdateAcCountSsetBalance = Balance-100Wh
