Jadual Kandungan
Mencapai SOTA baharu dalam tugasan silang modal
Model kecil + model besar
Pasukan Penyelidik
Rumah Peranti teknologi AI Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Mar 31, 2023 pm 10:42 PM
ai kertas

Kertas ini telah diterima oleh CVPR2023.

GPT-4, yang boleh membaca imej, dikeluarkan! Tetapi anda perlu beratur untuk menggunakannya. . .

Mengapa tidak mencuba ini dahulu~

Tambah model kecil, anda boleh membuat model bahasa besar seperti ChatGPT dan GPT-3 yang hanya boleh memahami teks dengan mudah Baca gambar , semua jenis butiran rumit boleh dikendalikan di hujung jari anda.

Dan melatih model kecil ini boleh dilakukan dengan satu kad (RTX 3090).

Untuk kesannya, lihat sahaja pada gambar.

Sebagai contoh, masukkan gambar "pemandangan muzik" kepada GPT-3 terlatih dan tanyakannya: Apakah aktiviti yang diadakan di tempat kejadian?

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Tanpa teragak-agak, GPT-3 memberikan jawapan kepada Konsert.

Untuk menjadikannya lebih sukar, berikan GPT-3 foto Jiang Zi dan biarkan ia mengenal pasti jenis bahan tirai dalam foto itu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

GPT-3: Renda.

Bingo! (Nampaknya ada sesuatu padanya)

Kaedah ini merupakan pencapaian terbaru pasukan dari Universiti Sains dan Teknologi Elektronik Hangzhou dan Universiti Teknologi Hefei: Nabi, yang mereka miliki sudah dibangunkan setengah tahun yang lalu Dapatkan untuk bekerja pada ini.

Pengarang pertama makalah itu ialah Shao Zhenwei, seorang pelajar siswazah Universiti Hangzhou Dianzi Dia didiagnosis dengan "atrofi otot tulang belakang progresif" ketika dia berumur 1 tahun. Dia menyesal tidak lulus Universiti Zhejiang semasa kolej peperiksaan kemasukan dan memilih Universiti Hangzhou Dianzi, yang berhampiran dengan rumah .

Kertas kerja ini telah diterima oleh CVPR2023.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Mencapai SOTA baharu dalam tugasan silang modal

Tanpa berlengah lagi, mari kita lihat terus bacaan GPT-3 dengan sokongan kaedah Nabi Rajah kebolehan.

Mula-mula kita lihat keputusan ujiannya pada set data.

Pasukan penyelidik menguji Nabi pada dua set data soalan dan jawapan visual berasaskan pengetahuan luaran, OK-VQA dan A-OKVQA, yang kedua-duanya mencipta SOTA baharu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Lebih khusus lagi, pada set data OK-VQA, berbanding dengan model besar Deepmind Flamingo dengan parameter 80B, Nabi mencapai Dengan ketepatan kadar 61.1%, ia berjaya mengalahkan Flamingo (57.8%).

Dan dari segi sumber pengkomputeran yang diperlukan, Nabi juga "menewaskan" Flamingo.

Flamingo-80B perlu dilatih pada 1536 kad grafik TPUv4 selama 15 hari, manakala Nabi hanya memerlukan satu kad grafik RTX-3090 untuk melatih model VQA 4 hari, dan kemudian panggil OpenAI API beberapa kali.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Malah, kaedah seperti Nabi telah digunakan sebelum ini untuk membantu GPT-3 mengendalikan tugasan silang modal, seperti PICA, dan kemudiannya KAT dan REVIVE.

Walau bagaimanapun, mereka mungkin tidak memuaskan dalam mengendalikan beberapa butiran.

Beri saya buah berangan, biarkan mereka membaca gambar di bawah bersama-sama, dan kemudian jawab soalan: Apakah jenis buah yang akan dihasilkan oleh pokok dalam gambar itu?

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Satu-satunya maklumat PICA, KAT dan REVIVE yang diekstrak daripada gambar ialah: sekumpulan orang berjalan di dataran itu, langsung mengabaikan pokok kelapa di belakangnya. Jawapan akhir hanya boleh diteka.

Dengan Nabi, keadaan ini tidak akan berlaku Ia menyelesaikan masalah maklumat imej yang tidak mencukupi yang diekstrak dengan kaedah di atas dan seterusnya merangsang potensi GPT-3.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Jadi bagaimana Nabi melakukannya?

Model kecil + model besar

Mengekstrak maklumat dengan berkesan dan menjawab soalan dengan tepat dengan rangka kerja dua peringkat yang unik untuk dapat melakukan ini.

Pembahagian kerja antara dua peringkat ini juga jelas:

  • Fasa 1: Berikan beberapa jawapan yang mencerahkan berdasarkan soalan;
  • Fasa 2: Jawapan ini akan mengecilkan skop, memberikan GPT-3 ruang yang cukup untuk merealisasikan potensinya.

Pertama, pada peringkat pertama, pasukan penyelidik melatih model MCAN yang dipertingkatkan (model VQA) terhadap set data VQA pengetahuan luaran yang khusus.

Selepas melatih model, ekstrak dua jawapan heuristik daripadanya: calon jawab dan contoh sedar jawapan.

Antaranya, calon jawapan diisih berdasarkan output tahap keyakinan oleh lapisan klasifikasi model, dan 10 teratas dipilih.

Contoh kesedaran jawapan merujuk kepada menggunakan ciri sebelum lapisan pengelasan model sebagai ciri jawapan yang berpotensi bagi sampel, sampel berlabel yang paling serupa dalam ruang ciri ini.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Langkah seterusnya ialah peringkat kedua, yang agak mudah dan kasar.

Susun "jawapan yang diilhamkan" yang diperoleh pada langkah sebelumnya ke dalam gesaan, kemudian masukkan gesaan ke GPT-3 dan lengkapkan soalan visual dan jawapan di bawah gesaan tertentu.

Walau bagaimanapun, walaupun beberapa petunjuk jawapan telah diberikan dalam langkah sebelumnya, ini tidak bermakna GPT-3 terhad kepada jawapan ini.

Jika keyakinan jawapan yang diberikan oleh gesaan itu terlalu rendah atau jawapan yang betul bukan antara gesaan tersebut, GPT-3 benar-benar mungkin untuk menjana jawapan baharu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Pasukan Penyelidik

Sudah tentu, sebagai tambahan kepada hasil penyelidikan, pasukan di sebalik kajian ini juga perlu disebut.

Pengarang pertamaShao Zhenwei telah didiagnosis dengan "atrofi otot tulang belakang progresif" semasa dia berumur 1 tahun Ia adalah kecacatan fizikal peringkat pertama dan tidak mempunyai keupayaan untuk menjaga dirinya sendiri Kehidupan dan pembelajaran memerlukan penjagaan penuh daripada ibu.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Walau bagaimanapun, walaupun keterbatasan fizikalnya, kehausan Shao Zhenwei untuk pengetahuan tidak berkurangan.

Dalam peperiksaan kemasukan kolej 2017, beliau mendapat markah tinggi sebanyak 644 mata dan diterima masuk ke jurusan komputer Universiti Sains dan Teknologi Elektronik Hangzhou dengan mendapat tempat pertama.

Dalam tempoh ini, beliau turut memenangi penghormatan seperti Bintang Peningkatan Diri Pelajar Kolej Cina 2018, Biasiswa Kebangsaan 2020 dan Graduan Cemerlang Wilayah Zhejiang 2021.

Semasa tempoh ijazahnya, Shao Zhenwei telah mula menjalankan aktiviti penyelidikan saintifik bersama Profesor Yu Zhou.

Pada tahun 2021, Shao Zhenwei berpeluang bertemu dengan Universiti Zhejiang ketika dia sedang bersiap untuk kenaikan pangkat pasca siswazah, jadi dia tinggal di sekolah itu dan menyertai kumpulan penyelidik Profesor Yu Zhou untuk melanjutkan pengajian ke peringkat sarjana tahun kedua sekolah siswazah, dan hala tuju penyelidikannya ialah pembelajaran silang modal.

Profesor Yu Zhou ialah pengarang kedua dan pengarang yang sepadan bagi kertas penyelidikan ini. Beliau ialah profesor termuda di Sekolah Sains Komputer Universiti Hangzhou Dianping dan ahli “Sistem Kompleks. Modeling and Simulation” Makmal Kementerian Pendidikan.

Sejak sekian lama, Yu Zhou mengkhusus dalam hala tuju kecerdasan pelbagai modal, dan telah mengetuai pasukan penyelidik untuk memenangi kejuaraan dan naib juara dalam cabaran menjawab soalan visual antarabangsa Cabaran VQA berkali-kali.

Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu

Kebanyakan ahli pasukan penyelidik berada di Hangzhou Electronics Makmal Perisikan Media (MIL).

Makmal ini diketuai oleh Profesor Yu Jun, Cendekiawan Muda Terbilang Negara Dalam beberapa tahun kebelakangan ini, makmal telah menerbitkan satu siri kertas persidangan jurnal peringkat tinggi (TPAMI, IJCV, CVPR, dll.) yang memfokuskan pada. pembelajaran pelbagai modal, dan telah memenangi banyak anugerah jurnal IEEE pada persidangan itu.

Makmal ini telah menganjurkan lebih daripada 20 projek nasional seperti Pelan R&D Utama Negara dan Yayasan Sains Semula Jadi Kebangsaan China Ia telah memenangi hadiah pertama Anugerah Sains Semula Jadi Wilayah Zhejiang dan hadiah kedua Semula Jadi Pendidikan Anugerah Sains.

Atas ialah kandungan terperinci Lelaki dari Hangzhou Electronics adalah yang pertama mendapat fungsi membaca imej GPT Satu kad boleh merealisasikan SOTA baharu. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌
Akan R.E.P.O. Ada Crossplay?
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Baris arahan shutdown centos Baris arahan shutdown centos Apr 14, 2025 pm 09:12 PM

Perintah shutdown CentOS adalah penutupan, dan sintaks adalah tutup [pilihan] [maklumat]. Pilihan termasuk: -h menghentikan sistem dengan segera; -P mematikan kuasa selepas penutupan; -r mulakan semula; -T Waktu Menunggu. Masa boleh ditentukan sebagai segera (sekarang), minit (minit), atau masa tertentu (HH: mm). Maklumat tambahan boleh dipaparkan dalam mesej sistem.

Sony mengesahkan kemungkinan menggunakan GPU khas di PS5 Pro untuk membangunkan AI dengan AMD Sony mengesahkan kemungkinan menggunakan GPU khas di PS5 Pro untuk membangunkan AI dengan AMD Apr 13, 2025 pm 11:45 PM

Mark Cerny, Ketua Arkitek SonyinterActiveEntainment (SIE, Sony Interactive Entertainment), telah mengeluarkan lebih banyak butiran perkakasan dari PlayStation5Pro hos generasi akan datang (PS5Pro), termasuk GPU seni bina AMDRDNA2.x yang dinamakan, dan Kod Arsitektur AMDRDNA2.x yang dinamakan. Tumpuan peningkatan prestasi PS5Pro masih pada tiga tiang, termasuk GPU yang lebih kuat, jejak sinar maju dan fungsi resolusi super PSSR yang berkuasa AI. GPU mengamalkan seni bina AmdrDNA2 yang disesuaikan, yang Sony menamakan RDNA2.x, dan ia mempunyai beberapa seni bina RDNA3.

Apakah kaedah sandaran untuk gitlab di centos Apakah kaedah sandaran untuk gitlab di centos Apr 14, 2025 pm 05:33 PM

Dasar sandaran dan pemulihan Gitlab di bawah sistem CentOS untuk memastikan keselamatan data dan pemulihan, Gitlab pada CentOS menyediakan pelbagai kaedah sandaran. Artikel ini akan memperkenalkan beberapa kaedah sandaran biasa, parameter konfigurasi dan proses pemulihan secara terperinci untuk membantu anda menubuhkan strategi sandaran dan pemulihan GitLab lengkap. 1. Backup Manual Gunakan Gitlab-Rakegitlab: Backup: Buat Perintah untuk Melaksanakan Backup Manual. Perintah ini menyokong maklumat utama seperti repositori Gitlab, pangkalan data, pengguna, kumpulan pengguna, kunci, dan kebenaran. Fail sandaran lalai disimpan dalam direktori/var/opt/gitlab/sandaran. Anda boleh mengubah suai /etc /gitlab

Cara Memeriksa Konfigurasi HDFS CentOS Cara Memeriksa Konfigurasi HDFS CentOS Apr 14, 2025 pm 07:21 PM

Panduan Lengkap untuk Memeriksa Konfigurasi HDFS Dalam Sistem CentOS Artikel ini akan membimbing anda bagaimana untuk memeriksa konfigurasi dan menjalankan status HDFS secara berkesan pada sistem CentOS. Langkah -langkah berikut akan membantu anda memahami sepenuhnya persediaan dan operasi HDFS. Sahkan Pembolehubah Alam Sekitar Hadoop: Pertama, pastikan pembolehubah persekitaran Hadoop ditetapkan dengan betul. Di terminal, laksanakan arahan berikut untuk mengesahkan bahawa Hadoop dipasang dan dikonfigurasi dengan betul: Hadoopversion Semak fail konfigurasi HDFS: Fail konfigurasi teras HDFS terletak di/etc/hadoop/conf/direktori, di mana core-site.xml dan hdfs-site.xml adalah kritikal. gunakan

Apakah kaedah penalaan prestasi zookeeper di CentOS Apakah kaedah penalaan prestasi zookeeper di CentOS Apr 14, 2025 pm 03:18 PM

Penalaan prestasi zookeeper pada centOs boleh bermula dari pelbagai aspek, termasuk konfigurasi perkakasan, pengoptimuman sistem operasi, pelarasan parameter konfigurasi, pemantauan dan penyelenggaraan, dan lain -lain. Memori yang cukup: memperuntukkan sumber memori yang cukup untuk zookeeper untuk mengelakkan cakera kerap membaca dan menulis. CPU multi-teras: Gunakan CPU multi-teras untuk memastikan bahawa zookeeper dapat memprosesnya selari.

Cara Melatih Model Pytorch di CentOs Cara Melatih Model Pytorch di CentOs Apr 14, 2025 pm 03:03 PM

Latihan yang cekap model pytorch pada sistem CentOS memerlukan langkah -langkah, dan artikel ini akan memberikan panduan terperinci. 1. Penyediaan Persekitaran: Pemasangan Python dan Ketergantungan: Sistem CentOS biasanya mempamerkan python, tetapi versi mungkin lebih tua. Adalah disyorkan untuk menggunakan YUM atau DNF untuk memasang Python 3 dan menaik taraf PIP: Sudoyumupdatepython3 (atau SudodnfupdatePython3), pip3install-upgradepip. CUDA dan CUDNN (Percepatan GPU): Jika anda menggunakan Nvidiagpu, anda perlu memasang Cudatool

Bagaimana sokongan GPU untuk Pytorch di CentOS Bagaimana sokongan GPU untuk Pytorch di CentOS Apr 14, 2025 pm 06:48 PM

Membolehkan pecutan GPU pytorch pada sistem CentOS memerlukan pemasangan cuda, cudnn dan GPU versi pytorch. Langkah-langkah berikut akan membimbing anda melalui proses: Pemasangan CUDA dan CUDNN Tentukan keserasian versi CUDA: Gunakan perintah NVIDIA-SMI untuk melihat versi CUDA yang disokong oleh kad grafik NVIDIA anda. Sebagai contoh, kad grafik MX450 anda boleh menyokong CUDA11.1 atau lebih tinggi. Muat turun dan pasang Cudatoolkit: Lawati laman web rasmi Nvidiacudatoolkit dan muat turun dan pasang versi yang sepadan mengikut versi CUDA tertinggi yang disokong oleh kad grafik anda. Pasang Perpustakaan Cudnn:

Akhirnya berubah! Fungsi carian Microsoft Windows akan membawa kemas kini baru Akhirnya berubah! Fungsi carian Microsoft Windows akan membawa kemas kini baru Apr 13, 2025 pm 11:42 PM

Penambahbaikan Microsoft ke fungsi carian Windows telah diuji pada beberapa saluran Windows Insider di EU. Sebelum ini, fungsi carian Windows bersepadu dikritik oleh pengguna dan mempunyai pengalaman yang buruk. Kemas kini ini membahagikan fungsi carian ke dalam dua bahagian: carian tempatan dan carian web berasaskan Bing untuk meningkatkan pengalaman pengguna. Versi baru antara muka carian melakukan carian fail tempatan secara lalai. Jika anda perlu mencari dalam talian, anda perlu mengklik tab "Microsoft Bingwebsearch" untuk menukar. Selepas bertukar, bar carian akan memaparkan "Microsoft Bingwebsearch:", di mana pengguna boleh memasukkan kata kunci. Langkah ini berkesan mengelakkan pencampuran hasil carian tempatan dengan hasil carian Bing

See all articles