Pada masa ini, GPT-4 Vision menunjukkan keupayaan menakjubkan dalam pemahaman bahasa dan pemprosesan visual.
Namun, bagi mereka yang mencari alternatif yang menjimatkan kos tanpa menjejaskan prestasi, pilihan sumber terbuka ialah pilihan dengan potensi tanpa had.
Youssef Hosni ialah pembangun asing yang menyediakan kami dengan tiga alternatif sumber terbuka dengan kebolehcapaian yang dijamin mutlak untuk menggantikan GPT-4V.
Tiga model bahasa visual sumber terbuka LLaVa, CogAgent dan BakLLaVA mempunyai potensi besar dalam bidang pemprosesan visual dan layak untuk pemahaman kami yang mendalam. Penyelidikan dan pembangunan model ini boleh memberikan kami penyelesaian pemprosesan visual yang lebih cekap dan tepat. Dengan menggunakan model ini, kami boleh meningkatkan ketepatan dan kecekapan tugas seperti pengecaman imej, pengesanan sasaran dan penjanaan imej, membawa
gambar
LLaVa ialah penyelidikan dan aplikasi pelbagai mod dalam bidang pemprosesan visual Model besar, dibangunkan oleh kerjasama antara penyelidik di Universiti Wisconsin-Madison, Penyelidikan Microsoft dan Universiti Columbia. Versi awal dikeluarkan pada bulan April.
Ia menggabungkan pengekod visual dan Vicuna (untuk pemahaman visual dan bahasa umum) untuk menunjukkan keupayaan sembang yang sangat baik.
Pictures
Pada bulan Oktober, LLaVA-1.5 yang dinaik taraf hampir dengan prestasi GPT-4 berbilang mod dan mencapai keputusan terkini (SOTA) pada set data Sains QA.
Gambar
Latihan model 13B boleh disiapkan dalam masa 1 hari dengan hanya 8 A100.
Gambar
Seperti yang anda lihat, LLaVA boleh mengendalikan semua jenis soalan, dan jawapan yang dijana adalah komprehensif dan logik.
LLaVA menunjukkan beberapa keupayaan berbilang modal yang hampir dengan tahap GPT-4, dengan skor relatif GPT-4 sebanyak 85% dari segi sembang visual.
Dari segi penaakulan soal jawab, LLaVA malah mencapai SoTA baharu - 92.53%, mengalahkan rantaian pemikiran pelbagai mod.
Gambar
Dari segi penaakulan visual, persembahannya sangat menarik perhatian.
Gambar
Gambar
Soalan: "Jika ada kesilapan fakta, sila tunjukkan. Jika tidak, sila beritahu saya, apa yang berlaku di padang pasir?" dengan betul lagi.
LLaVA-1.5 yang dinaik taraf memberikan jawapan yang sempurna: "Tiada padang pasir sama sekali dalam gambar, tetapi terdapat pantai pokok palma, latar langit bandar dan perairan yang besar
GambarSelain itu. , LLaVA-1.5 ialah OK Ekstrak maklumat daripada graf dan jawabnya dalam format yang diperlukan, seperti mengeluarkannya dalam format JSON.
PicturesBeri LLaVA-1.5 gambar yang penuh dengan buah-buahan dan sayur-sayuran, dan ia juga boleh menukar gambar itu kepada JSON seperti GPT-4V.
Gambar
Apakah maksud gambar di bawah?
Picture
Ini adalah lakaran ringkas berdasarkan "Inception" Nolan untuk menambah kesukaran, nama watak telah ditukar kepada nama samaran.
LLaVA-1.5 dengan mengejutkan menjawab: "Ini adalah gambar tentang filem "Inception". Ia menunjukkan tahap yang berbeza dalam dunia mimpi, dan setiap tahap diwakili oleh garis. Gambar itu ditulis pada sehelai kertas, Kertas diletakkan di atas meja makan.
Gambar
Selain itu, LLaVA-1.5 boleh mengecam kod pengesahan tanpa "jailbreaking".
Gambar
Ia juga boleh mengesan jenis syiling dalam gambar.
Gambar
Apa yang sangat mengagumkan ialah LLaVA-1.5 juga boleh memberitahu anda jenis baka anjing dalam gambar itu.
Gambar
Sesetengah netizen menggunakan Bing untuk menghasilkan gambar seorang lelaki memakai kot musim sejuk di pantai musim panas yang cerah, dan meminta LLaVA 1.5 untuk menunjukkan masalah dalam gambar. Matanya sangat tajam -
Ini adalah foto yang diproses atau di Photoshop, di mana seorang lelaki memakai jaket dan berdiri di pantai. Lelaki itu membuka kotnya dan matahari menyinarinya. Masalah dengan imej ini ialah ia bukan pemandangan pantai sebenar. Lelaki itu sebenarnya tidak berdiri di pantai dan matahari tidak menyinarinya. Imej ini telah diphotoshop untuk mencipta ilusi pemandangan pantai, tetapi ia tidak benar-benar mewakili pemandangan itu.
GambarPengiktirafan OCR, prestasi LLaVA juga sangat hebat.
Pictures
pictures
picturescogagent
cogagent adalah model bahasa visual sumber terbuka yang diperbaiki berdasarkan COGVLM, seorang penyelidik dari Universiti Tsinghua. CogAgent-18B mempunyai 11 bilion parameter visual dan 7 bilion parameter bahasa.
GambarAlamat kertas: https://arxiv.org/pdf/2312.08914.pdf
CogAgent-18B mencapai prestasi umum tercanggih pada 9 penanda aras rentas mod klasik (termasuk VQAv2, OK-VQ, TextVQA, ST-VQA, ChartQA, infoVQA, DocVQA, MM-Vet dan POPE).
Ia dengan ketara mengatasi model sedia ada pada set data manipulasi GUI seperti AITW dan Mind2Web.
Selain semua fungsi sedia ada CogVLM (dialog berbilang pusingan visual, pembumian visual), CogAgent.NET juga menyediakan lebih banyak fungsi:
1 Menyokong input visual dan menjawab soalan dialog beresolusi tinggi. Menyokong input imej resolusi ultra tinggi 1120x1120.
2 Ia mempunyai keupayaan untuk menggambarkan ejen dan boleh mengembalikan pelan, tindakan seterusnya dan operasi khusus dengan koordinat untuk sebarang tugasan pada mana-mana tangkapan skrin antara muka pengguna grafik.
3 Fungsi menjawab soalan berkaitan GUI telah dipertingkatkan untuk membolehkannya mengendalikan isu yang berkaitan dengan tangkapan skrin mana-mana GUI seperti halaman web, aplikasi PC, aplikasi mudah alih, dll.
4. Keupayaan yang dipertingkatkan untuk tugasan berkaitan OCR dengan menambah baik pra-latihan dan penalaan halus.
Menggunakan CogAgent, ia boleh membantu kami mencari kertas terbaik CVPR23 langkah demi langkah.
Gambar
boleh membantu kami menukar paparan telefon kepada mod terang.
Pictures
Berapa bilangan suka dan tweet semula tweet ini dan mengapa ia begitu popular, CogAgent boleh menganalisisnya, malah ia boleh membalas dengan "Brilliant".
Gambar
Bagaimana untuk memilih laluan terpantas dari Universiti Florida ke Hollywood? Jika anda bermula pada pukul 8 pagi, bagaimana anda menganggarkan berapa lama masa yang diperlukan? CogAgent boleh menjawab semua.
Pictures
Anda boleh menetapkan tema tertentu dan biarkan CogAgent menghantar e-mel ke peti mel yang ditentukan.
Pictures
Kalau nak dengar lagu "You raise me up", CogAgent boleh senaraikan step by step.
Pictures
CogAgent boleh menerangkan dengan tepat adegan dalam "Genshin Impact" dan juga boleh membimbing anda tentang cara untuk sampai ke titik teleportasi.
Pictures
BakLLaVA1 ialah model asas Mistral 7B yang dipertingkatkan dengan seni bina LLaVA 1.5.
Dalam versi pertama, model asas Mistral 7B mengatasi prestasi Llama 2 13B dalam pelbagai penanda aras.
Dalam repo mereka, anda boleh menjalankan BakLLaVA-1. Halaman ini sentiasa dikemas kini untuk memudahkan penalaan dan penaakulan. (https://github.com/SkunkworksAI/BakLLaVA)
BakLLaVA-1 adalah sumber terbuka sepenuhnya, tetapi telah dilatih mengenai beberapa data, termasuk korpus LLaVA, dan oleh itu tidak dibenarkan untuk kegunaan komersial.
BakLLaVA 2 menggunakan set data yang lebih besar dan seni bina yang dikemas kini untuk mengatasi kaedah LLaVa semasa. BakLLaVA menyingkirkan batasan BakLLaVA-1 dan boleh digunakan secara komersil.
Rujukan:
https://yousefhosni.medium.com/discover-4-open-source-alternatives-to-gpt-4-vision-82be9519dcc5
Atas ialah kandungan terperinci Universiti Tsinghua dan Universiti Zhejiang mengetuai ledakan model visual sumber terbuka, dan GPT-4V, LLaVA, CogAgent dan platform lain membawa perubahan revolusioner. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!