Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini-AI-php.cn

Jadual Kandungan

Klasifikasi tangkapan sifar menggunakan CLIP

Rumah

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

王林

Apr 11, 2023 pm 11:10 PM

Model

Walaupun ImageNet telah lama menyelesaikan misi sejarahnya, ia masih merupakan set data utama dalam bidang penglihatan komputer.

Pada tahun 2016, kadar ketepatan sota model klasifikasi yang dilatih pada ImageNet masih kurang daripada 80% sehingga hari ini, generalisasi sifar pukulan berdasarkan pra-latihan berskala besar model sahaja boleh mencapai ketepatan 80.1%.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Baru-baru ini LAION melatih satu jenama baru ViT-G/14 CLIP Model, pada set data ImageNet, ketepatan OpenAI CLIP asal hanya 75.4%, manakala OpenCLIP mencapai ketepatan tangkapan sifar sebanyak 80.1% dan mencapai tangkapan sifar sebanyak 74.9% pada MS Pengambilan Imej COCO (Recall@5), yang juga model CLIP sumber terbuka paling berkuasa pada masa ini .

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

LAION bermaksud Rangkaian Terbuka Kecerdasan Buatan Berskala Besar Ia adalah organisasi bukan untung dengan ahli dari seluruh dunia, bertujuan untuk menyediakan Kecerdasan Buatan berskala besar kepada awam Skala model pembelajaran mesin, set data dan kod yang berkaitan. Mereka mendakwa mereka benar-benar Open AI, 100% bukan untung dan 100% percuma.

Rakan yang berminat boleh update model CLIP yang mereka ada!

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Alamat model: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k

Prestasi khusus model OpenCLIP pada setiap set data ditunjukkan dalam jadual di bawah.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Keupayaan sifar tangkapan

Secara umumnya, model komputer visi (CV) berprestasi baik dalam pelbagai tugas Prestasi sota pada adalah berdasarkan data latihan dalam bidang tertentu dan tidak boleh digeneralisasikan kepada bidang atau tugas lain, menyebabkan pemahaman terhad tentang sifat umum dunia visual.

Masalah generalisasi adalah penting terutamanya dalam bidang yang kekurangan sejumlah besar data latihan.

Sebaik-baiknya, model CV harus mempelajari kandungan semantik imej dan bukannya memfokuskan terlalu banyak pada label tertentu dalam set latihan. Sebagai contoh, untuk imej anjing, model harus dapat memahami bahawa terdapat anjing dalam imej, dan seterusnya memahami bahawa terdapat pokok di latar belakang, waktu siang hari, anjing itu berada di atas rumput, dsb. .

Tetapi keputusan semasa yang diperoleh dengan menggunakan "latihan klasifikasi" adalah betul-betul bertentangan dengan jangkaan Model ini belajar untuk menolak perwakilan dalaman anjing ke dalam "ruang vektor anjing" yang sama dan menolak kucing ke dalam "ruang vektor kucing" yang sama, jawapan kepada semua soalan adalah binari, iaitu sama ada imej itu boleh diselaraskan dengan label kategori.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Melatih semula model klasifikasi untuk tugasan baharu juga merupakan penyelesaian, tetapi latihan itu sendiri memerlukan banyak masa dan kewangan pelaburan untuk mengumpul set data klasifikasi dan model kereta api.

Nasib baik, model CLIP OpenAI ialah model pengelasan yang sangat fleksibel dan biasanya boleh digunakan dalam tugas pengelasan baharu tanpa latihan semula.

Mengapa CLIP boleh Zero-Shot

Pralatihan Bahasa-Imej Kontrastif (CLIP, Contrastive Language-Image Pretraining) ialah model yang dikeluarkan oleh OpenAI pada 2021, terutamanya berdasarkan Transformer.

CLIP terdiri daripada dua model, pengekod Transformer untuk menukar teks kepada pembenaman dan Transformer Visual (ViT) untuk mengekod imej.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Kedua-dua model teks dan imej dalam CLIP dioptimumkan semasa pra-latihan untuk menjajarkan teks dan imej yang serupa dalam ruang vektor. Semasa proses latihan, pasangan imej-teks dalam data ditolak lebih rapat bersama dalam ruang vektor, manakala vektor imej dan teks yang bukan milik pasangan dipisahkan.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Terdapat beberapa perbezaan antara CLIP dan model klasifikasi umum:

Pertama, OpenAI menggunakan data yang dirangkak daripada Latihan Internet pada set data berskala sangat besar yang mengandungi 400 juta pasangan imej teks, faedahnya ialah:

1 Latihan CLIP hanya memerlukan "pasangan teks imej" dan tidak memerlukan label kelas tertentu, dan Jenis data ini adalah. banyak terdapat dalam dunia dalam talian yang berteraskan media sosial hari ini.

2. Set data yang besar bermakna keupayaan CLIP untuk memahami konsep teks biasa dalam imej.

3. Deskriptor teks selalunya mengandungi pelbagai ciri dalam imej, bukan sekadar ciri kategori, yang bermaksud imej dan perwakilan teks yang lebih komprehensif boleh diwujudkan.

Kelebihan di atas juga merupakan faktor utama dalam keupayaan CLIP untuk mewujudkan Zero-shot Pengarang kertas itu juga membandingkan model ResNet-101 dan model CLIP yang dilatih khas pada ImageNet, dan menggunakannya pada data lain yang diperolehi. daripada Set ImageNet, rajah di bawah menunjukkan perbandingan prestasi.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Ia boleh dilihat bahawa walaupun ResNet-101 dilatih pada ImageNet, prestasinya pada set data yang serupa adalah lebih baik daripada CLIP Performance pada tugas yang sama adalah jauh lebih teruk.

Apabila menggunakan model ResNet pada medan lain, kaedah biasa ialah "probe linear", iaitu ciri yang dipelajari dalam beberapa lapisan terakhir model ResNet dimasukkan ke dalam pengelas linear, dan kemudian Fine- ditala untuk set data tertentu.

Dalam kertas CLIP, pengesanan linear ResNet-50 dibandingkan dengan CLIP tangkapan sifar Kesimpulannya ialah dalam senario yang sama, CLIP tangkapan sifar berprestasi lebih baik daripada ResNet dalam pelbagai tugas .

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Walau bagaimanapun, perlu diperhatikan bahawa Zero-shot tidak mengatasi prestasi pengesanan linear apabila diberi lebih banyak sampel latihan.

Klasifikasi tangkapan sifar menggunakan CLIP

Seperti yang anda boleh ketahui daripada penerangan di atas, pengekod imej dan teks boleh mencipta vektor 512 dimensi yang memetakan imej input dan input teks kepada yang sama ruang vektor.

Menggunakan CLIP untuk pengelasan sifar pukulan bermakna meletakkan maklumat kategori ke dalam ayat teks.

Sebagai contoh, jika anda memasukkan imej dan ingin menentukan sama ada kategorinya ialah kereta, burung atau kucing, anda boleh mencipta tiga rentetan teks untuk mewakili kategori:

T1 mewakili kereta: foto kereta

T2 mewakili burung: foto burung

T3 mewakili kucing: foto kucing

Masukkan perihalan kategori ke dalam teks pengekod, dan A vektor boleh diperolehi yang boleh mewakili kategori.

Anggapkan bahawa input adalah foto kucing Gunakan model ViT untuk mengekodnya Selepas memperoleh vektor imej, hitung jarak kosinus antaranya dan vektor kategori sebagai persamaan adalah yang tertinggi, bermakna kategori imej adalah milik kucing.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Seperti yang anda lihat, label kategori bukanlah perkataan yang mudah, tetapi berdasarkan templat "foto {label }" Format diformat semula menjadi ayat, yang boleh dilanjutkan kepada ramalan kategori tanpa kekangan latihan.

Dalam percubaan, menggunakan templat gesaan ini meningkatkan ketepatan klasifikasi ImageNet sebanyak 1.3 mata peratusan Walau bagaimanapun, templat gesaan tidak sentiasa meningkatkan prestasi Dalam penggunaan sebenar, ia perlu diuji berdasarkan set data yang berbeza.

Pelaksanaan Python

Ia juga sangat mudah untuk menggunakan CLIP untuk klasifikasi tangkapan sifar Pengarang memilih set data frgfm/imagenette dalam Hugging Face sebagai demonstrasi labels , dan semuanya disimpan sebagai nilai integer.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Menggunakan CLIP untuk pengelasan memerlukan menukar label nilai integer kepada kandungan teks yang sepadan.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Sebelum mengira secara langsung persamaan antara tag dan foto, anda perlu memulakan model CLIP, yang boleh dilaksanakan menggunakan CLIP yang ditemui melalui Hugging Face transformer.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Pengubah teks tidak boleh membaca teks secara langsung, tetapi memerlukan satu set nilai integer dipanggil ID token (atau input_ID), di mana setiap A unik integer mewakili perkataan atau sub-perkataan (iaitu token).

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Masukkan tensor yang ditukar ke dalam pengubah teks untuk mendapatkan pembenaman teks label

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Perhatikan bahawa pada masa ini CLIP Vektor keluaran belum dinormalisasi, dan keputusan persamaan yang diperoleh selepas pendaraban titik adalah tidak tepat.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Seterusnya, anda boleh memilih imej dalam set data untuk ujian dan mendapatkan vektor imej selepas proses pemprosesan yang sama.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Selepas menukar imej kepada vektor dengan dimensi (1, 3, 224, 224), masukkannya ke dalam model untuk mendapatkan pembenaman

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Langkah seterusnya ialah mengira persamaan produk titik antara benam imej dan sepuluh benam teks label dalam set data yang mempunyai skor tertinggi ialah kategori yang diramalkan.

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Model memberikan hasil untuk pemain kaset (pemain kaset), dalam keseluruhan set data Selepas dijalankan sekali lagi, kita boleh mendapatkan ketepatan 98.7%

Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini

Selain klasifikasi Zero-shot, carian berbilang mod, pengesanan sasaran, Model generatif seperti pembahagian Dall-E dan Stable OpenAI, CLIP membuka pintu baharu kepada penglihatan komputer.

Atas ialah kandungan terperinci Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

2 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Repo: Cara menghidupkan semula rakan sepasukan

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Hello Kitty Island Adventure: Cara mendapatkan biji gergasi

4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Berapa lama masa yang diperlukan untuk mengalahkan fiksyen berpecah?

3 minggu yang lalu By DDD

R.E.P.O. Simpan Fail Lokasi: Di manakah & bagaimana untuk melindunginya?

3 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7335

Tutorial Java

1627

Tutorial CakePHP

1352

Tutorial Laravel

1264

Tutorial PHP

1209

Tunjukkan Lagi

Related knowledge

Model MoE sumber terbuka paling berkuasa di dunia ada di sini, dengan keupayaan bahasa Cina setanding dengan GPT-4, dan harganya hanya hampir satu peratus daripada GPT-4-Turbo May 07, 2024 pm 04:13 PM

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

KAN, yang menggantikan MLP, telah diperluaskan kepada konvolusi oleh projek sumber terbuka Jun 01, 2024 pm 10:03 PM

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Hello, Atlas elektrik! Robot Boston Dynamics hidup semula, gerakan pelik 180 darjah menakutkan Musk Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Apr 09, 2024 am 11:52 AM

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Kerja baharu pada ramalan siri masa + model besar NLP: secara automatik menjana gesaan tersirat untuk ramalan siri masa Mar 18, 2024 am 09:20 AM

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

FisheyeDetNet: algoritma pengesanan sasaran pertama berdasarkan kamera fisheye Apr 26, 2024 am 11:37 AM

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

See all articles