Rumah > Peranti teknologi > AI > teks badan

Inilah cara untuk mengajar ChatGPT cara membaca gambar

WBOY
Lepaskan: 2023-04-12 22:58:05
ke hadapan
1734 orang telah melayarinya

Model "Wen Sheng Tu" akan menjadi popular pada tahun 2022, jadi apakah yang akan popular pada tahun 2023?

Jawapan daripada jurutera pembelajaran mesin Daniel Bourke ialah: sebaliknya!

Tidak, model "teks gambar" yang baru dikeluarkan telah menjadi popular di Internet, dan kesannya yang sangat baik telah menyebabkan ramai netizen menyiarkan semula dan menyukainya.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Ia bukan sahaja fungsi asas "melihat gambar dan bercakap", tetapi juga boleh menulis puisi cinta, menerangkan plot, mereka bentuk dialog untuk objek dalam gambar, dsb., AI ini boleh melakukan semua Pegang dengan teguh!

Sebagai contoh, apabila anda menjumpai makanan yang menggoda dalam talian, hantarkan sahaja gambar itu, dan ia akan serta-merta mengenali bahan-bahan yang diperlukan dan langkah memasak:

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Malah beberapa butiran Leeuwenhoek dalam gambar boleh "dilihat" dengan jelas.

Apabila ditanya bagaimana hendak keluar dari rumah terbalik dalam gambar, jawapan AI ialah: Tidakkah terdapat gelongsor di sisi?

Inilah cara untuk mengajar ChatGPT cara membaca gambar

AI baharu ini dipanggil BLIP-2 (Bootstrapping Language-Image Pra-training 2), dan kod itu kini menjadi sumber terbuka.

Perkara yang paling penting ialah, tidak seperti penyelidikan terdahulu, BLIP-2 menggunakan rangka kerja pra-latihan universal, jadi ia boleh disambungkan kepada model bahasa anda sendiri secara sewenang-wenangnya.

Sesetengah netizen sudah membayangkan gabungan hebat menukar antara muka kepada ChatGPT.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Steven Hoi, salah seorang pengarang, malah berkata: BLIP-2 akan menjadi "versi pelbagai mod ChatGPT" pada masa hadapan.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Jadi, apakah perkara lain yang menakjubkan tentang BLIP-2? Pandang ke bawah bersama-sama.

Keupayaan pemahaman yang sangat baik

Permainan BLIP-2 boleh dikatakan sangat pelbagai.

Anda hanya perlu memberikan gambar, dan anda boleh bercakap dengannya, dan ia boleh memenuhi pelbagai keperluan seperti bercerita melalui gambar, menaakul dan menghasilkan teks yang diperibadikan.

Sebagai contoh, BLIP-2 bukan sahaja dapat mengenal pasti dengan mudah tempat pemandangan dalam gambar sebagai Tembok Besar, tetapi juga memperkenalkan sejarah Tembok Besar:

Tembok Besar China adalah dibina oleh Qin Shihuang pada 221 SM untuk melindungi ibu kota empayar Dibina untuk melindungi daripada pencerobohan dari utara.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Berikan filem tetap, BLIP-2 bukan sahaja tahu dari mana asalnya, tetapi juga tahu kesudahan cerita: tenggelamnya Titanic, lelaki The Lord tenggelam.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

BLIP-2 juga mempunyai pemahaman yang sangat tepat tentang ekspresi manusia.

Apabila ditanya apakah ekspresi lelaki dalam gambar ini dan mengapa dia menjadi seperti ini, jawapan BLIP-2 ialah: Dia takut ayam itu kerana ia terbang ke arahnya.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Apa yang lebih menakjubkan ialah BLIP-2 juga berprestasi sangat baik pada banyak soalan terbuka.

Minta tulis ayat romantik berdasarkan gambar di bawah:

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Jawapannya begini: Cinta ibarat matahari terbenam , Sukar untuk melihatnya datang, tetapi apabila ia berlaku, ia sangat indah.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Bukan sahaja orang ini mempunyai pemahaman yang sempurna, tetapi pencapaian sasteranya juga cukup kuat!

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Biarkan ia menjana dialog untuk dua haiwan dalam gambar BLIP-2 juga boleh mengawal kucing sombong x anjing bodoh Tetapan:

Kucing: Hei, anjing, boleh saya tumpang belakang awak?

Anjing: Pasti, kenapa tidak?

Kucing: Saya penat berjalan dalam salji.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Jadi, bagaimanakah BLIP-2 mencapai keupayaan pemahaman yang begitu hebat?

Mencapai SOTA baharu pada pelbagai tugas bahasa visual

Memandangkan kos latihan hujung ke hujung model berskala besar semakin tinggi, BLIP-2 menggunakan ramalan umum dan cekap kaedah Strategi latihan:

Pra-latihan bahasa visual Bootstrap daripada pengekod imej pra-latihan beku dan model bahasa besar beku di luar rak.

Ini juga bermakna semua orang boleh memilih model yang mereka mahu gunakan.

Untuk merapatkan jurang antara mod, penyelidik mencadangkan Transformer pertanyaan ringan.

Transformer dilatih dalam dua peringkat:

Peringkat pertama bootstraps pembelajaran perwakilan bahasa visual daripada pengekod imej beku, dan peringkat kedua bootstraps penglihatan daripada model bahasa beku kepada penjanaan bahasa belajar.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Untuk menguji prestasi BLIP-2, penyelidik bermula daripada penjanaan teks imej sampel sifar, jawapan soalan visual, imej- pengambilan teks, dan sari kata imej telah dinilai pada tugas.

Keputusan akhir menunjukkan bahawa BLIP-2 mencapai SOTA pada pelbagai tugas bahasa visual.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Antaranya, BLIP-2 adalah 8.7% lebih tinggi daripada Flamingo 80B pada VQAv2 pukulan sifar, dan parameter latihan dikurangkan sebanyak 54 kali.

Dan jelas sekali sama ada pengekod imej yang lebih kukuh atau model bahasa yang lebih kukuh akan menghasilkan prestasi yang lebih baik.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Adalah diingatkan bahawa pengkaji juga menyebut di akhir kertas kerja bahawa BLIP-2 masih mempunyai kekurangan iaitu kekurangan. keupayaan pembelajaran konteks :

Setiap sampel mengandungi hanya satu pasangan teks imej, dan pada masa ini mustahil untuk mempelajari korelasi antara berbilang pasangan teks imej dalam satu urutan.

Pasukan Penyelidik

Pasukan penyelidik BLIP-2 adalah daripada Salesforce Research.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Pengarang pertama ialah Junnan Li, yang juga pengarang BLIP yang dilancarkan setahun lalu.

Pada masa ini, beliau adalah seorang saintis penyelidikan kanan di Institut Penyelidikan Salesforce Asia. Lulus dari Universiti Hong Kong dengan ijazah sarjana muda dan Ph.D dari Universiti Nasional Singapura.

Bidang penyelidikan sangat luas, termasuk pembelajaran penyeliaan kendiri, pembelajaran separa penyeliaan, pembelajaran penyeliaan lemah dan bahasa visual.

Berikut ialah pautan kertas dan pautan GitHub BLIP-2. Rakan yang berminat boleh mengambilnya~

Pautan kertas: https://arxiv.org/pdf/2301.12597

Pautan GitHub: https://github.com/salesforce/LAVIS/tree/main/projects/blip2

Pautan rujukan: [1]https://twitter.com/mrdbourke / status/1620353263651688448

[2] https://twitter.com/LiJunnan0409/status/1620259379223343107

Atas ialah kandungan terperinci Inilah cara untuk mengajar ChatGPT cara membaca gambar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Label berkaitan:
sumber:51cto.com
Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn
Tutorial Popular
Lagi>
Muat turun terkini
Lagi>
kesan web
Kod sumber laman web
Bahan laman web
Templat hujung hadapan