


Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini
Walaupun ImageNet telah lama menyelesaikan misi sejarahnya, ia masih merupakan set data utama dalam bidang penglihatan komputer.
Pada tahun 2016, kadar ketepatan sota model klasifikasi yang dilatih pada ImageNet masih kurang daripada 80% sehingga hari ini, generalisasi sifar pukulan berdasarkan pra-latihan berskala besar model sahaja boleh mencapai ketepatan 80.1%.
Baru-baru ini LAION melatih satu jenama baru ViT-G/14 CLIP Model, pada set data ImageNet, ketepatan OpenAI CLIP asal hanya 75.4%, manakala OpenCLIP mencapai ketepatan tangkapan sifar sebanyak 80.1% dan mencapai tangkapan sifar sebanyak 74.9% pada MS Pengambilan Imej COCO (Recall@5), yang juga model CLIP sumber terbuka paling berkuasa pada masa ini .
LAION bermaksud Rangkaian Terbuka Kecerdasan Buatan Berskala Besar Ia adalah organisasi bukan untung dengan ahli dari seluruh dunia, bertujuan untuk menyediakan Kecerdasan Buatan berskala besar kepada awam Skala model pembelajaran mesin, set data dan kod yang berkaitan. Mereka mendakwa mereka benar-benar Open AI, 100% bukan untung dan 100% percuma.
Rakan yang berminat boleh update model CLIP yang mereka ada!
Alamat model: https://huggingface.co/laion/CLIP-ViT-bigG-14 -laion2B-39B-b160k
Prestasi khusus model OpenCLIP pada setiap set data ditunjukkan dalam jadual di bawah.
Secara umumnya, model komputer visi (CV) berprestasi baik dalam pelbagai tugas Prestasi sota pada adalah berdasarkan data latihan dalam bidang tertentu dan tidak boleh digeneralisasikan kepada bidang atau tugas lain, menyebabkan pemahaman terhad tentang sifat umum dunia visual.
Masalah generalisasi adalah penting terutamanya dalam bidang yang kekurangan sejumlah besar data latihan.
Sebaik-baiknya, model CV harus mempelajari kandungan semantik imej dan bukannya memfokuskan terlalu banyak pada label tertentu dalam set latihan. Sebagai contoh, untuk imej anjing, model harus dapat memahami bahawa terdapat anjing dalam imej, dan seterusnya memahami bahawa terdapat pokok di latar belakang, waktu siang hari, anjing itu berada di atas rumput, dsb. .
Tetapi keputusan semasa yang diperoleh dengan menggunakan "latihan klasifikasi" adalah betul-betul bertentangan dengan jangkaan Model ini belajar untuk menolak perwakilan dalaman anjing ke dalam "ruang vektor anjing" yang sama dan menolak kucing ke dalam "ruang vektor kucing" yang sama, jawapan kepada semua soalan adalah binari, iaitu sama ada imej itu boleh diselaraskan dengan label kategori.
Melatih semula model klasifikasi untuk tugasan baharu juga merupakan penyelesaian, tetapi latihan itu sendiri memerlukan banyak masa dan kewangan pelaburan untuk mengumpul set data klasifikasi dan model kereta api.
Nasib baik, model CLIP OpenAI ialah model pengelasan yang sangat fleksibel dan biasanya boleh digunakan dalam tugas pengelasan baharu tanpa latihan semula.
Mengapa CLIP boleh Zero-ShotPralatihan Bahasa-Imej Kontrastif (CLIP, Contrastive Language-Image Pretraining) ialah model yang dikeluarkan oleh OpenAI pada 2021, terutamanya berdasarkan Transformer. CLIP terdiri daripada dua model, pengekod Transformer untuk menukar teks kepada pembenaman dan Transformer Visual (ViT) untuk mengekod imej.Kedua-dua model teks dan imej dalam CLIP dioptimumkan semasa pra-latihan untuk menjajarkan teks dan imej yang serupa dalam ruang vektor. Semasa proses latihan, pasangan imej-teks dalam data ditolak lebih rapat bersama dalam ruang vektor, manakala vektor imej dan teks yang bukan milik pasangan dipisahkan.
Terdapat beberapa perbezaan antara CLIP dan model klasifikasi umum:
Pertama, OpenAI menggunakan data yang dirangkak daripada Latihan Internet pada set data berskala sangat besar yang mengandungi 400 juta pasangan imej teks, faedahnya ialah:
1 Latihan CLIP hanya memerlukan "pasangan teks imej" dan tidak memerlukan label kelas tertentu, dan Jenis data ini adalah. banyak terdapat dalam dunia dalam talian yang berteraskan media sosial hari ini.
2. Set data yang besar bermakna keupayaan CLIP untuk memahami konsep teks biasa dalam imej.
3. Deskriptor teks selalunya mengandungi pelbagai ciri dalam imej, bukan sekadar ciri kategori, yang bermaksud imej dan perwakilan teks yang lebih komprehensif boleh diwujudkan.
Kelebihan di atas juga merupakan faktor utama dalam keupayaan CLIP untuk mewujudkan Zero-shot Pengarang kertas itu juga membandingkan model ResNet-101 dan model CLIP yang dilatih khas pada ImageNet, dan menggunakannya pada data lain yang diperolehi. daripada Set ImageNet, rajah di bawah menunjukkan perbandingan prestasi.
Ia boleh dilihat bahawa walaupun ResNet-101 dilatih pada ImageNet, prestasinya pada set data yang serupa adalah lebih baik daripada CLIP Performance pada tugas yang sama adalah jauh lebih teruk.
Apabila menggunakan model ResNet pada medan lain, kaedah biasa ialah "probe linear", iaitu ciri yang dipelajari dalam beberapa lapisan terakhir model ResNet dimasukkan ke dalam pengelas linear, dan kemudian Fine- ditala untuk set data tertentu.
Dalam kertas CLIP, pengesanan linear ResNet-50 dibandingkan dengan CLIP tangkapan sifar Kesimpulannya ialah dalam senario yang sama, CLIP tangkapan sifar berprestasi lebih baik daripada ResNet dalam pelbagai tugas .
Walau bagaimanapun, perlu diperhatikan bahawa Zero-shot tidak mengatasi prestasi pengesanan linear apabila diberi lebih banyak sampel latihan.
Klasifikasi tangkapan sifar menggunakan CLIP
Seperti yang anda boleh ketahui daripada penerangan di atas, pengekod imej dan teks boleh mencipta vektor 512 dimensi yang memetakan imej input dan input teks kepada yang sama ruang vektor.
Menggunakan CLIP untuk pengelasan sifar pukulan bermakna meletakkan maklumat kategori ke dalam ayat teks.
Sebagai contoh, jika anda memasukkan imej dan ingin menentukan sama ada kategorinya ialah kereta, burung atau kucing, anda boleh mencipta tiga rentetan teks untuk mewakili kategori:
T1 mewakili kereta: foto kereta
T2 mewakili burung: foto burung
T3 mewakili kucing: foto kucing
Masukkan perihalan kategori ke dalam teks pengekod, dan A vektor boleh diperolehi yang boleh mewakili kategori.
Anggapkan bahawa input adalah foto kucing Gunakan model ViT untuk mengekodnya Selepas memperoleh vektor imej, hitung jarak kosinus antaranya dan vektor kategori sebagai persamaan adalah yang tertinggi, bermakna kategori imej adalah milik kucing.
Seperti yang anda lihat, label kategori bukanlah perkataan yang mudah, tetapi berdasarkan templat "foto {label }" Format diformat semula menjadi ayat, yang boleh dilanjutkan kepada ramalan kategori tanpa kekangan latihan.
Dalam percubaan, menggunakan templat gesaan ini meningkatkan ketepatan klasifikasi ImageNet sebanyak 1.3 mata peratusan Walau bagaimanapun, templat gesaan tidak sentiasa meningkatkan prestasi Dalam penggunaan sebenar, ia perlu diuji berdasarkan set data yang berbeza.
Pelaksanaan Python
Ia juga sangat mudah untuk menggunakan CLIP untuk klasifikasi tangkapan sifar Pengarang memilih set data frgfm/imagenette dalam Hugging Face sebagai demonstrasi labels , dan semuanya disimpan sebagai nilai integer.
Menggunakan CLIP untuk pengelasan memerlukan menukar label nilai integer kepada kandungan teks yang sepadan.
Sebelum mengira secara langsung persamaan antara tag dan foto, anda perlu memulakan model CLIP, yang boleh dilaksanakan menggunakan CLIP yang ditemui melalui Hugging Face transformer.
Pengubah teks tidak boleh membaca teks secara langsung, tetapi memerlukan satu set nilai integer dipanggil ID token (atau input_ID), di mana setiap A unik integer mewakili perkataan atau sub-perkataan (iaitu token).
Masukkan tensor yang ditukar ke dalam pengubah teks untuk mendapatkan pembenaman teks label
Perhatikan bahawa pada masa ini CLIP Vektor keluaran belum dinormalisasi, dan keputusan persamaan yang diperoleh selepas pendaraban titik adalah tidak tepat.
Seterusnya, anda boleh memilih imej dalam set data untuk ujian dan mendapatkan vektor imej selepas proses pemprosesan yang sama.
Selepas menukar imej kepada vektor dengan dimensi (1, 3, 224, 224), masukkannya ke dalam model untuk mendapatkan pembenaman
Langkah seterusnya ialah mengira persamaan produk titik antara benam imej dan sepuluh benam teks label dalam set data yang mempunyai skor tertinggi ialah kategori yang diramalkan.
Model memberikan hasil untuk pemain kaset (pemain kaset), dalam keseluruhan set data Selepas dijalankan sekali lagi, kita boleh mendapatkan ketepatan 98.7%
Selain klasifikasi Zero-shot, carian berbilang mod, pengesanan sasaran, Model generatif seperti pembahagian Dall-E dan Stable OpenAI, CLIP membuka pintu baharu kepada penglihatan komputer.
Atas ialah kandungan terperinci Ketepatan sampel sifar ImageNet melebihi 80% untuk kali pertama, dan model CLIP sumber terbuka terkuat di planet ini dikemas kini. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Hari ini saya ingin berkongsi kerja penyelidikan terbaru dari University of Connecticut yang mencadangkan kaedah untuk menyelaraskan data siri masa dengan model pemprosesan bahasa semula jadi (NLP) yang besar pada ruang terpendam untuk meningkatkan prestasi peramalan siri masa. Kunci kepada kaedah ini ialah menggunakan petunjuk spatial terpendam (prompt) untuk meningkatkan ketepatan ramalan siri masa. Tajuk kertas: S2IP-LLM: SemanticSpaceInformedPromptLearningwithLLMforTimeSeriesForecasting Alamat muat turun: https://arxiv.org/pdf/2403.05798v1.pdf 1. Model latar belakang masalah besar

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi
