Inilah cara untuk mengajar ChatGPT cara membaca gambar
Model "Wen Sheng Tu" akan menjadi popular pada tahun 2022, jadi apakah yang akan popular pada tahun 2023?
Jawapan daripada jurutera pembelajaran mesin Daniel Bourke ialah: sebaliknya!
Tidak, model "teks gambar" yang baru dikeluarkan telah menjadi popular di Internet, dan kesannya yang sangat baik telah menyebabkan ramai netizen menyiarkan semula dan menyukainya.
Ia bukan sahaja fungsi asas "melihat gambar dan bercakap", tetapi juga boleh menulis puisi cinta, menerangkan plot, mereka bentuk dialog untuk objek dalam gambar, dsb., AI ini boleh melakukan semua Pegang dengan teguh!
Sebagai contoh, apabila anda menjumpai makanan yang menggoda dalam talian, hantarkan sahaja gambar itu, dan ia akan serta-merta mengenali bahan-bahan yang diperlukan dan langkah memasak:
Malah beberapa butiran Leeuwenhoek dalam gambar boleh "dilihat" dengan jelas.
Apabila ditanya bagaimana hendak keluar dari rumah terbalik dalam gambar, jawapan AI ialah: Tidakkah terdapat gelongsor di sisi?
AI baharu ini dipanggil BLIP-2 (Bootstrapping Language-Image Pra-training 2), dan kod itu kini menjadi sumber terbuka.
Perkara yang paling penting ialah, tidak seperti penyelidikan terdahulu, BLIP-2 menggunakan rangka kerja pra-latihan universal, jadi ia boleh disambungkan kepada model bahasa anda sendiri secara sewenang-wenangnya.
Sesetengah netizen sudah membayangkan gabungan hebat menukar antara muka kepada ChatGPT.
Steven Hoi, salah seorang pengarang, malah berkata: BLIP-2 akan menjadi "versi pelbagai mod ChatGPT" pada masa hadapan.
Jadi, apakah perkara lain yang menakjubkan tentang BLIP-2? Pandang ke bawah bersama-sama.
Keupayaan pemahaman yang sangat baik
Permainan BLIP-2 boleh dikatakan sangat pelbagai.
Anda hanya perlu memberikan gambar, dan anda boleh bercakap dengannya, dan ia boleh memenuhi pelbagai keperluan seperti bercerita melalui gambar, menaakul dan menghasilkan teks yang diperibadikan.
Sebagai contoh, BLIP-2 bukan sahaja dapat mengenal pasti dengan mudah tempat pemandangan dalam gambar sebagai Tembok Besar, tetapi juga memperkenalkan sejarah Tembok Besar:
Tembok Besar China adalah dibina oleh Qin Shihuang pada 221 SM untuk melindungi ibu kota empayar Dibina untuk melindungi daripada pencerobohan dari utara.
Berikan filem tetap, BLIP-2 bukan sahaja tahu dari mana asalnya, tetapi juga tahu kesudahan cerita: tenggelamnya Titanic, lelaki The Lord tenggelam.
BLIP-2 juga mempunyai pemahaman yang sangat tepat tentang ekspresi manusia.
Apabila ditanya apakah ekspresi lelaki dalam gambar ini dan mengapa dia menjadi seperti ini, jawapan BLIP-2 ialah: Dia takut ayam itu kerana ia terbang ke arahnya.
Apa yang lebih menakjubkan ialah BLIP-2 juga berprestasi sangat baik pada banyak soalan terbuka.
Minta tulis ayat romantik berdasarkan gambar di bawah:
Jawapannya begini: Cinta ibarat matahari terbenam , Sukar untuk melihatnya datang, tetapi apabila ia berlaku, ia sangat indah.
Bukan sahaja orang ini mempunyai pemahaman yang sempurna, tetapi pencapaian sasteranya juga cukup kuat!
Biarkan ia menjana dialog untuk dua haiwan dalam gambar BLIP-2 juga boleh mengawal kucing sombong x anjing bodoh Tetapan:
Kucing: Hei, anjing, boleh saya tumpang belakang awak?
Anjing: Pasti, kenapa tidak?
Kucing: Saya penat berjalan dalam salji.
Jadi, bagaimanakah BLIP-2 mencapai keupayaan pemahaman yang begitu hebat?
Mencapai SOTA baharu pada pelbagai tugas bahasa visual
Memandangkan kos latihan hujung ke hujung model berskala besar semakin tinggi, BLIP-2 menggunakan ramalan umum dan cekap kaedah Strategi latihan:
Pra-latihan bahasa visual Bootstrap daripada pengekod imej pra-latihan beku dan model bahasa besar beku di luar rak.
Ini juga bermakna semua orang boleh memilih model yang mereka mahu gunakan.
Untuk merapatkan jurang antara mod, penyelidik mencadangkan Transformer pertanyaan ringan.
Transformer dilatih dalam dua peringkat:
Peringkat pertama bootstraps pembelajaran perwakilan bahasa visual daripada pengekod imej beku, dan peringkat kedua bootstraps penglihatan daripada model bahasa beku kepada penjanaan bahasa belajar.
Untuk menguji prestasi BLIP-2, penyelidik bermula daripada penjanaan teks imej sampel sifar, jawapan soalan visual, imej- pengambilan teks, dan sari kata imej telah dinilai pada tugas.
Keputusan akhir menunjukkan bahawa BLIP-2 mencapai SOTA pada pelbagai tugas bahasa visual.
Antaranya, BLIP-2 adalah 8.7% lebih tinggi daripada Flamingo 80B pada VQAv2 pukulan sifar, dan parameter latihan dikurangkan sebanyak 54 kali.
Dan jelas sekali sama ada pengekod imej yang lebih kukuh atau model bahasa yang lebih kukuh akan menghasilkan prestasi yang lebih baik.
Adalah diingatkan bahawa pengkaji juga menyebut di akhir kertas kerja bahawa BLIP-2 masih mempunyai kekurangan iaitu kekurangan. keupayaan pembelajaran konteks :
Setiap sampel mengandungi hanya satu pasangan teks imej, dan pada masa ini mustahil untuk mempelajari korelasi antara berbilang pasangan teks imej dalam satu urutan.
Pasukan Penyelidik
Pasukan penyelidik BLIP-2 adalah daripada Salesforce Research.
Pengarang pertama ialah Junnan Li, yang juga pengarang BLIP yang dilancarkan setahun lalu.
Pada masa ini, beliau adalah seorang saintis penyelidikan kanan di Institut Penyelidikan Salesforce Asia. Lulus dari Universiti Hong Kong dengan ijazah sarjana muda dan Ph.D dari Universiti Nasional Singapura.
Bidang penyelidikan sangat luas, termasuk pembelajaran penyeliaan kendiri, pembelajaran separa penyeliaan, pembelajaran penyeliaan lemah dan bahasa visual.
Berikut ialah pautan kertas dan pautan GitHub BLIP-2. Rakan yang berminat boleh mengambilnya~
Pautan kertas: https://arxiv.org/pdf/2301.12597
Pautan GitHub: https://github.com/salesforce/LAVIS/tree/main/projects/blip2
Pautan rujukan: [1]https://twitter.com/mrdbourke / status/1620353263651688448
[2] https://twitter.com/LiJunnan0409/status/1620259379223343107
Atas ialah kandungan terperinci Inilah cara untuk mengajar ChatGPT cara membaca gambar. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



DALL-E 3 telah diperkenalkan secara rasmi pada September 2023 sebagai model yang jauh lebih baik daripada pendahulunya. Ia dianggap sebagai salah satu penjana imej AI terbaik setakat ini, mampu mencipta imej dengan perincian yang rumit. Walau bagaimanapun, semasa pelancaran, ia adalah tidak termasuk

Novel Tomato adalah perisian membaca novel yang sangat popular Kami sering mempunyai novel dan komik baru untuk dibaca dalam Novel Tomato Setiap novel dan komik sangat menarik ingin menulis ke dalam teks. Jadi bagaimana kita menulis novel di dalamnya? Kongsi tutorial novel Tomato tentang cara menulis novel 1. Mula-mula buka aplikasi novel percuma Tomato pada telefon bimbit anda dan klik pada Pusat Peribadi - Pusat Penulis 2. Lompat ke halaman Pembantu Penulis Tomato - klik pada Buat buku baru di penghujung novel.

Papan induk berwarna-warni menikmati populariti tinggi dan bahagian pasaran dalam pasaran domestik China, tetapi sesetengah pengguna papan induk Berwarna-warni masih tidak tahu cara memasukkan bios untuk tetapan? Sebagai tindak balas kepada situasi ini, editor telah membawakan anda secara khas dua kaedah untuk memasukkan bios motherboard yang berwarna-warni. Datang dan cuba! Kaedah 1: Gunakan kekunci pintasan permulaan cakera U untuk terus memasuki sistem pemasangan cakera U Kekunci pintasan untuk papan induk Berwarna untuk memulakan cakera U dengan satu klik ialah ESC atau F11 Pertama, gunakan Black Shark Installation Master untuk mencipta Black Cakera but cakera Shark U, dan kemudian hidupkan komputer Apabila anda melihat skrin permulaan, tekan terus kekunci ESC atau F11 pada papan kekunci untuk memasuki tetingkap untuk pemilihan item permulaan secara berurutan ke tempat "USB " dipaparkan, dan kemudian

Malangnya, orang sering memadamkan kenalan tertentu secara tidak sengaja atas sebab tertentu WeChat ialah perisian sosial yang digunakan secara meluas. Untuk membantu pengguna menyelesaikan masalah ini, artikel ini akan memperkenalkan cara mendapatkan semula kenalan yang dipadam dengan cara yang mudah. 1. Fahami mekanisme pemadaman kenalan WeChat Ini memberi kita kemungkinan untuk mendapatkan semula kenalan yang dipadamkan Mekanisme pemadaman kenalan dalam WeChat mengalih keluar mereka daripada buku alamat, tetapi tidak memadamkannya sepenuhnya. 2. Gunakan fungsi "Pemulihan Buku Kenalan" terbina dalam WeChat menyediakan "Pemulihan Buku Kenalan" untuk menjimatkan masa dan tenaga Pengguna boleh mendapatkan semula kenalan yang telah dipadamkan dengan cepat melalui fungsi ini. 3. Masuk ke halaman tetapan WeChat dan klik sudut kanan bawah, buka aplikasi WeChat "Saya" dan klik ikon tetapan di sudut kanan atas untuk memasuki halaman tetapan.

Menetapkan saiz fon telah menjadi keperluan pemperibadian yang penting kerana telefon mudah alih menjadi alat penting dalam kehidupan seharian manusia. Untuk memenuhi keperluan pengguna yang berbeza, artikel ini akan memperkenalkan cara meningkatkan pengalaman penggunaan telefon mudah alih dan melaraskan saiz fon telefon mudah alih melalui operasi mudah. Mengapa anda perlu melaraskan saiz fon telefon mudah alih anda - Melaraskan saiz fon boleh menjadikan teks lebih jelas dan mudah dibaca - Sesuai untuk keperluan membaca pengguna yang berbeza umur - Mudah untuk pengguna yang kurang penglihatan menggunakan saiz fon fungsi tetapan sistem telefon mudah alih - Cara memasukkan antara muka tetapan sistem - Dalam Cari dan masukkan pilihan "Paparan" dalam antara muka tetapan - cari pilihan "Saiz Fon" dan laraskan saiz fon dengan pihak ketiga aplikasi - muat turun dan pasang aplikasi yang menyokong pelarasan saiz fon - buka aplikasi dan masukkan antara muka tetapan yang berkaitan - mengikut individu

Permainan mudah alih telah menjadi sebahagian daripada kehidupan orang ramai dengan perkembangan teknologi. Ia telah menarik perhatian ramai pemain dengan imej telur naga yang comel dan proses penetasan yang menarik, dan salah satu permainan yang telah menarik perhatian ramai ialah versi mudah alih Dragon Egg. Untuk membantu pemain memupuk dan mengembangkan naga mereka sendiri dengan lebih baik dalam permainan, artikel ini akan memperkenalkan kepada anda cara menetas telur naga dalam versi mudah alih. 1. Pilih jenis telur naga yang sesuai Pemain perlu berhati-hati memilih jenis telur naga yang mereka suka dan sesuai dengan diri mereka, berdasarkan pelbagai jenis sifat dan kebolehan telur naga yang disediakan dalam permainan. 2. Tingkatkan tahap mesin pengeraman Pemain perlu meningkatkan tahap mesin pengeraman dengan menyelesaikan tugasan dan mengumpul prop Tahap mesin pengeraman menentukan kelajuan penetasan dan kadar kejayaan penetasan. 3. Kumpul sumber yang diperlukan untuk penetasan Pemain perlu berada dalam permainan

Dalam masyarakat hari ini, telefon bimbit telah menjadi sebahagian daripada kehidupan kita. Sebagai alat penting untuk komunikasi harian, kerja dan kehidupan kita, WeChat sering digunakan. Walau bagaimanapun, mungkin perlu untuk memisahkan dua akaun WeChat apabila mengendalikan transaksi yang berbeza, yang memerlukan telefon mudah alih untuk menyokong log masuk ke dua akaun WeChat pada masa yang sama. Sebagai jenama domestik yang terkenal, telefon bimbit Huawei digunakan oleh ramai orang Jadi apakah kaedah untuk membuka dua akaun WeChat pada telefon bimbit Huawei? Mari kita dedahkan rahsia kaedah ini. Pertama sekali, anda perlu menggunakan dua akaun WeChat pada masa yang sama pada telefon mudah alih Huawei anda Cara paling mudah ialah

Perbezaan antara kaedah dan fungsi bahasa Go terletak pada perkaitannya dengan struktur: kaedah dikaitkan dengan struktur dan digunakan untuk mengendalikan data struktur atau fungsi adalah bebas daripada jenis dan digunakan untuk melaksanakan operasi umum.
