Jadual Kandungan
Keupayaan pemahaman yang sangat baik
Mencapai SOTA baharu pada pelbagai tugas bahasa visual
Pasukan Penyelidik
Rumah Peranti teknologi AI Inilah cara untuk mengajar ChatGPT cara membaca gambar

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Apr 12, 2023 pm 10:58 PM
chatgpt kaedah Tengok gambar

Model "Wen Sheng Tu" akan menjadi popular pada tahun 2022, jadi apakah yang akan popular pada tahun 2023?

Jawapan daripada jurutera pembelajaran mesin Daniel Bourke ialah: sebaliknya!

Tidak, model "teks gambar" yang baru dikeluarkan telah menjadi popular di Internet, dan kesannya yang sangat baik telah menyebabkan ramai netizen menyiarkan semula dan menyukainya.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Ia bukan sahaja fungsi asas "melihat gambar dan bercakap", tetapi juga boleh menulis puisi cinta, menerangkan plot, mereka bentuk dialog untuk objek dalam gambar, dsb., AI ini boleh melakukan semua Pegang dengan teguh!

Sebagai contoh, apabila anda menjumpai makanan yang menggoda dalam talian, hantarkan sahaja gambar itu, dan ia akan serta-merta mengenali bahan-bahan yang diperlukan dan langkah memasak:

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Malah beberapa butiran Leeuwenhoek dalam gambar boleh "dilihat" dengan jelas.

Apabila ditanya bagaimana hendak keluar dari rumah terbalik dalam gambar, jawapan AI ialah: Tidakkah terdapat gelongsor di sisi?

Inilah cara untuk mengajar ChatGPT cara membaca gambar

AI baharu ini dipanggil BLIP-2 (Bootstrapping Language-Image Pra-training 2), dan kod itu kini menjadi sumber terbuka.

Perkara yang paling penting ialah, tidak seperti penyelidikan terdahulu, BLIP-2 menggunakan rangka kerja pra-latihan universal, jadi ia boleh disambungkan kepada model bahasa anda sendiri secara sewenang-wenangnya.

Sesetengah netizen sudah membayangkan gabungan hebat menukar antara muka kepada ChatGPT.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Steven Hoi, salah seorang pengarang, malah berkata: BLIP-2 akan menjadi "versi pelbagai mod ChatGPT" pada masa hadapan.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Jadi, apakah perkara lain yang menakjubkan tentang BLIP-2? Pandang ke bawah bersama-sama.

Keupayaan pemahaman yang sangat baik

Permainan BLIP-2 boleh dikatakan sangat pelbagai.

Anda hanya perlu memberikan gambar, dan anda boleh bercakap dengannya, dan ia boleh memenuhi pelbagai keperluan seperti bercerita melalui gambar, menaakul dan menghasilkan teks yang diperibadikan.

Sebagai contoh, BLIP-2 bukan sahaja dapat mengenal pasti dengan mudah tempat pemandangan dalam gambar sebagai Tembok Besar, tetapi juga memperkenalkan sejarah Tembok Besar:

Tembok Besar China adalah dibina oleh Qin Shihuang pada 221 SM untuk melindungi ibu kota empayar Dibina untuk melindungi daripada pencerobohan dari utara.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Berikan filem tetap, BLIP-2 bukan sahaja tahu dari mana asalnya, tetapi juga tahu kesudahan cerita: tenggelamnya Titanic, lelaki The Lord tenggelam.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

BLIP-2 juga mempunyai pemahaman yang sangat tepat tentang ekspresi manusia.

Apabila ditanya apakah ekspresi lelaki dalam gambar ini dan mengapa dia menjadi seperti ini, jawapan BLIP-2 ialah: Dia takut ayam itu kerana ia terbang ke arahnya.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Apa yang lebih menakjubkan ialah BLIP-2 juga berprestasi sangat baik pada banyak soalan terbuka.

Minta tulis ayat romantik berdasarkan gambar di bawah:

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Jawapannya begini: Cinta ibarat matahari terbenam , Sukar untuk melihatnya datang, tetapi apabila ia berlaku, ia sangat indah.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Bukan sahaja orang ini mempunyai pemahaman yang sempurna, tetapi pencapaian sasteranya juga cukup kuat!

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Biarkan ia menjana dialog untuk dua haiwan dalam gambar BLIP-2 juga boleh mengawal kucing sombong x anjing bodoh Tetapan:

Kucing: Hei, anjing, boleh saya tumpang belakang awak?

Anjing: Pasti, kenapa tidak?

Kucing: Saya penat berjalan dalam salji.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Jadi, bagaimanakah BLIP-2 mencapai keupayaan pemahaman yang begitu hebat?

Mencapai SOTA baharu pada pelbagai tugas bahasa visual

Memandangkan kos latihan hujung ke hujung model berskala besar semakin tinggi, BLIP-2 menggunakan ramalan umum dan cekap kaedah Strategi latihan:

Pra-latihan bahasa visual Bootstrap daripada pengekod imej pra-latihan beku dan model bahasa besar beku di luar rak.

Ini juga bermakna semua orang boleh memilih model yang mereka mahu gunakan.

Untuk merapatkan jurang antara mod, penyelidik mencadangkan Transformer pertanyaan ringan.

Transformer dilatih dalam dua peringkat:

Peringkat pertama bootstraps pembelajaran perwakilan bahasa visual daripada pengekod imej beku, dan peringkat kedua bootstraps penglihatan daripada model bahasa beku kepada penjanaan bahasa belajar.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Untuk menguji prestasi BLIP-2, penyelidik bermula daripada penjanaan teks imej sampel sifar, jawapan soalan visual, imej- pengambilan teks, dan sari kata imej telah dinilai pada tugas.

Keputusan akhir menunjukkan bahawa BLIP-2 mencapai SOTA pada pelbagai tugas bahasa visual.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Antaranya, BLIP-2 adalah 8.7% lebih tinggi daripada Flamingo 80B pada VQAv2 pukulan sifar, dan parameter latihan dikurangkan sebanyak 54 kali.

Dan jelas sekali sama ada pengekod imej yang lebih kukuh atau model bahasa yang lebih kukuh akan menghasilkan prestasi yang lebih baik.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Adalah diingatkan bahawa pengkaji juga menyebut di akhir kertas kerja bahawa BLIP-2 masih mempunyai kekurangan iaitu kekurangan. keupayaan pembelajaran konteks :

Setiap sampel mengandungi hanya satu pasangan teks imej, dan pada masa ini mustahil untuk mempelajari korelasi antara berbilang pasangan teks imej dalam satu urutan.

Pasukan Penyelidik

Pasukan penyelidik BLIP-2 adalah daripada Salesforce Research.

Inilah cara untuk mengajar ChatGPT cara membaca gambar

Pengarang pertama ialah Junnan Li, yang juga pengarang BLIP yang dilancarkan setahun lalu.

Pada masa ini, beliau adalah seorang saintis penyelidikan kanan di Institut Penyelidikan Salesforce Asia. Lulus dari Universiti Hong Kong dengan ijazah sarjana muda dan Ph.D dari Universiti Nasional Singapura.

Bidang penyelidikan sangat luas, termasuk pembelajaran penyeliaan kendiri, pembelajaran separa penyeliaan, pembelajaran penyeliaan lemah dan bahasa visual.

Berikut ialah pautan kertas dan pautan GitHub BLIP-2. Rakan yang berminat boleh mengambilnya~

Pautan kertas: https://arxiv.org/pdf/2301.12597

Pautan GitHub: https://github.com/salesforce/LAVIS/tree/main/projects/blip2

Pautan rujukan: [1]https://twitter.com/mrdbourke / status/1620353263651688448

[2] https://twitter.com/LiJunnan0409/status/1620259379223343107

Atas ialah kandungan terperinci Inilah cara untuk mengajar ChatGPT cara membaca gambar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

AI Hentai Generator

Menjana ai hentai secara percuma.

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Tetapan grafik terbaik
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa
4 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25: Cara Membuka Segala -galanya Di Myrise
1 bulan yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

ChatGPT kini membenarkan pengguna percuma menjana imej dengan menggunakan DALL-E 3 dengan had harian ChatGPT kini membenarkan pengguna percuma menjana imej dengan menggunakan DALL-E 3 dengan had harian Aug 09, 2024 pm 09:37 PM

DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

Cara menulis novel dalam aplikasi Novel Percuma Tomato Kongsi tutorial cara menulis novel dalam Novel Tomato. Cara menulis novel dalam aplikasi Novel Percuma Tomato Kongsi tutorial cara menulis novel dalam Novel Tomato. Mar 28, 2024 pm 12:50 PM

Novel Tomato adalah perisian membaca novel yang sangat popular Kami sering mempunyai novel dan komik baru untuk dibaca dalam Novel Tomato Setiap novel dan komik sangat menarik ingin menulis ke dalam teks. Jadi bagaimana kita menulis novel di dalamnya? Kongsi tutorial novel Tomato tentang cara menulis novel 1. Mula-mula buka aplikasi novel percuma Tomato pada telefon bimbit anda dan klik pada Pusat Peribadi - Pusat Penulis 2. Lompat ke halaman Pembantu Penulis Tomato - klik pada Buat buku baru di penghujung novel.

Bagaimana untuk memasukkan bios pada papan induk Berwarna-warni? Ajar anda dua kaedah Bagaimana untuk memasukkan bios pada papan induk Berwarna-warni? Ajar anda dua kaedah Mar 13, 2024 pm 06:01 PM

Papan induk berwarna-warni menikmati populariti tinggi dan bahagian pasaran dalam pasaran domestik China, tetapi sesetengah pengguna papan induk Berwarna-warni masih tidak tahu cara memasukkan bios untuk tetapan? Sebagai tindak balas kepada situasi ini, editor telah membawakan anda secara khas dua kaedah untuk memasukkan bios motherboard yang berwarna-warni. Datang dan cuba! Kaedah 1: Gunakan kekunci pintasan permulaan cakera U untuk terus memasuki sistem pemasangan cakera U Kekunci pintasan untuk papan induk Berwarna untuk memulakan cakera U dengan satu klik ialah ESC atau F11 Pertama, gunakan Black Shark Installation Master untuk mencipta Black Cakera but cakera Shark U, dan kemudian hidupkan komputer Apabila anda melihat skrin permulaan, tekan terus kekunci ESC atau F11 pada papan kekunci untuk memasuki tetingkap untuk pemilihan item permulaan secara berurutan ke tempat "USB " dipaparkan, dan kemudian

Bagaimana untuk memulihkan kenalan yang dipadam pada WeChat (tutorial mudah memberitahu anda cara memulihkan kenalan yang dipadam) Bagaimana untuk memulihkan kenalan yang dipadam pada WeChat (tutorial mudah memberitahu anda cara memulihkan kenalan yang dipadam) May 01, 2024 pm 12:01 PM

Malangnya, orang sering memadamkan kenalan tertentu secara tidak sengaja atas sebab tertentu WeChat ialah perisian sosial yang digunakan secara meluas. Untuk membantu pengguna menyelesaikan masalah ini, artikel ini akan memperkenalkan cara mendapatkan semula kenalan yang dipadam dengan cara yang mudah. 1. Fahami mekanisme pemadaman kenalan WeChat Ini memberi kita kemungkinan untuk mendapatkan semula kenalan yang dipadamkan Mekanisme pemadaman kenalan dalam WeChat mengalih keluar mereka daripada buku alamat, tetapi tidak memadamkannya sepenuhnya. 2. Gunakan fungsi "Pemulihan Buku Kenalan" terbina dalam WeChat menyediakan "Pemulihan Buku Kenalan" untuk menjimatkan masa dan tenaga Pengguna boleh mendapatkan semula kenalan yang telah dipadamkan dengan cepat melalui fungsi ini. 3. Masuk ke halaman tetapan WeChat dan klik sudut kanan bawah, buka aplikasi WeChat "Saya" dan klik ikon tetapan di sudut kanan atas untuk memasuki halaman tetapan.

Bagaimana untuk menetapkan saiz fon pada telefon mudah alih (mudah melaraskan saiz fon pada telefon bimbit) Bagaimana untuk menetapkan saiz fon pada telefon mudah alih (mudah melaraskan saiz fon pada telefon bimbit) May 07, 2024 pm 03:34 PM

Menetapkan saiz fon telah menjadi keperluan pemperibadian yang penting kerana telefon mudah alih menjadi alat penting dalam kehidupan seharian manusia. Untuk memenuhi keperluan pengguna yang berbeza, artikel ini akan memperkenalkan cara meningkatkan pengalaman penggunaan telefon mudah alih dan melaraskan saiz fon telefon mudah alih melalui operasi mudah. Mengapa anda perlu melaraskan saiz fon telefon mudah alih anda - Melaraskan saiz fon boleh menjadikan teks lebih jelas dan mudah dibaca - Sesuai untuk keperluan membaca pengguna yang berbeza umur - Mudah untuk pengguna yang kurang penglihatan menggunakan saiz fon fungsi tetapan sistem telefon mudah alih - Cara memasukkan antara muka tetapan sistem - Dalam Cari dan masukkan pilihan "Paparan" dalam antara muka tetapan - cari pilihan "Saiz Fon" dan laraskan saiz fon dengan pihak ketiga aplikasi - muat turun dan pasang aplikasi yang menyokong pelarasan saiz fon - buka aplikasi dan masukkan antara muka tetapan yang berkaitan - mengikut individu

Rahsia penetasan telur naga mudah alih terbongkar (langkah demi langkah untuk mengajar anda cara berjaya menetas telur naga mudah alih) Rahsia penetasan telur naga mudah alih terbongkar (langkah demi langkah untuk mengajar anda cara berjaya menetas telur naga mudah alih) May 04, 2024 pm 06:01 PM

Permainan mudah alih telah menjadi sebahagian daripada kehidupan orang ramai dengan perkembangan teknologi. Ia telah menarik perhatian ramai pemain dengan imej telur naga yang comel dan proses penetasan yang menarik, dan salah satu permainan yang telah menarik perhatian ramai ialah versi mudah alih Dragon Egg. Untuk membantu pemain memupuk dan mengembangkan naga mereka sendiri dengan lebih baik dalam permainan, artikel ini akan memperkenalkan kepada anda cara menetas telur naga dalam versi mudah alih. 1. Pilih jenis telur naga yang sesuai Pemain perlu berhati-hati memilih jenis telur naga yang mereka suka dan sesuai dengan diri mereka, berdasarkan pelbagai jenis sifat dan kebolehan telur naga yang disediakan dalam permainan. 2. Tingkatkan tahap mesin pengeraman Pemain perlu meningkatkan tahap mesin pengeraman dengan menyelesaikan tugasan dan mengumpul prop Tahap mesin pengeraman menentukan kelajuan penetasan dan kadar kejayaan penetasan. 3. Kumpul sumber yang diperlukan untuk penetasan Pemain perlu berada dalam permainan

Kuasai dengan cepat: Bagaimana untuk membuka dua akaun WeChat pada telefon bimbit Huawei didedahkan! Kuasai dengan cepat: Bagaimana untuk membuka dua akaun WeChat pada telefon bimbit Huawei didedahkan! Mar 23, 2024 am 10:42 AM

Dalam masyarakat hari ini, telefon bimbit telah menjadi sebahagian daripada kehidupan kita. Sebagai alat penting untuk komunikasi harian, kerja dan kehidupan kita, WeChat sering digunakan. Walau bagaimanapun, mungkin perlu untuk memisahkan dua akaun WeChat apabila mengendalikan transaksi yang berbeza, yang memerlukan telefon mudah alih untuk menyokong log masuk ke dua akaun WeChat pada masa yang sama. Sebagai jenama domestik yang terkenal, telefon bimbit Huawei digunakan oleh ramai orang Jadi apakah kaedah untuk membuka dua akaun WeChat pada telefon bimbit Huawei? Mari kita dedahkan rahsia kaedah ini. Pertama sekali, anda perlu menggunakan dua akaun WeChat pada masa yang sama pada telefon mudah alih Huawei anda Cara paling mudah ialah

Perbezaan antara kaedah dan fungsi bahasa Go dan analisis senario aplikasi Perbezaan antara kaedah dan fungsi bahasa Go dan analisis senario aplikasi Apr 04, 2024 am 09:24 AM

Perbezaan antara kaedah dan fungsi bahasa Go terletak pada perkaitannya dengan struktur: kaedah dikaitkan dengan struktur dan digunakan untuk mengendalikan data struktur atau fungsi adalah bebas daripada jenis dan digunakan untuk melaksanakan operasi umum.

See all articles