Model teks tulen melatih perwakilan 'visual'! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod-AI-php.cn

Jadual Kandungan

Konsep visual model bahasa

Set Data Keupayaan Visual: Menunjuk kepada Adegan

Hasil eksperimen

Rumah

Peranti teknologi

Model teks tulen melatih perwakilan 'visual'! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

王林

Feb 01, 2024 pm 09:12 PM

Model kereta api susunan

Adakah model bahasa besar yang hanya boleh "membaca" mempunyai persepsi visual dunia sebenar? Dengan memodelkan hubungan antara rentetan, apakah sebenarnya yang boleh dipelajari oleh model bahasa tentang dunia visual?

Baru-baru ini, penyelidik di MIT Computer Science and Artificial Intelligence Laboratory (MIT CSAIL) menilai model bahasa, memfokuskan pada keupayaan visual mereka. Mereka menguji kebolehan model dengan memintanya menjana dan mengenali konsep visual yang semakin kompleks, daripada bentuk dan objek mudah kepada adegan yang kompleks. Para penyelidik juga menunjukkan cara melatih sistem pembelajaran perwakilan visual awal menggunakan model teks sahaja. Dengan penyelidikan ini, mereka meletakkan asas untuk pembangunan lanjut dan penambahbaikan sistem pembelajaran perwakilan visual.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Pautan kertas: https://arxiv.org/abs/2401.01862

Memandangkan model bahasa tidak dapat memproses maklumat visual, kod digunakan untuk memaparkan imej dalam kajian.

Walaupun imej yang dihasilkan oleh LLM mungkin tidak realistik seperti imej semula jadi, daripada hasil penjanaan dan pembetulan kendiri model, ia mampu memodelkan rentetan/teks dengan tepat, yang membolehkan model bahasa belajar tentang dunia visual pelbagai konsep.

Penyelidik juga mengkaji kaedah untuk pembelajaran perwakilan visual yang diselia sendiri menggunakan imej yang dihasilkan oleh model teks. Keputusan menunjukkan bahawa kaedah ini berpotensi untuk digunakan untuk melatih model penglihatan dan melakukan penilaian semantik imej semula jadi hanya menggunakan LLM.

Konsep visual model bahasa

Mula-mula tanya soalan: Apakah maksud orang ramai memahami konsep visual "katak"?

Adakah cukup untuk mengetahui warna kulitnya, berapa banyak kakinya, kedudukan matanya, bagaimana rupanya ketika melompat dan sebagainya?

Orang ramai sering berfikir bahawa untuk memahami konsep katak, seseorang perlu melihat imej katak dan memerhatinya dari pelbagai sudut dan senario kehidupan sebenar.

Sejauh manakah kita dapat memahami makna visual bagi konsep yang berbeza jika kita hanya memerhati teks?

Dari perspektif latihan model, input latihan model bahasa besar (LLM) hanyalah data teks, tetapi model tersebut telah terbukti memahami maklumat tentang konsep seperti bentuk dan warna, malah boleh menukarkannya kepada penglihatan. melalui transformasi linear dalam perwakilan model.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Dalam erti kata lain, model visual dan model bahasa adalah sangat serupa dari segi perwakilan dunia.

Walau bagaimanapun, kebanyakan kaedah sedia ada untuk pencirian model adalah berdasarkan set atribut yang telah dipilih untuk meneroka maklumat yang dikodkan oleh model ini Kaedah ini tidak boleh mengembangkan atribut secara dinamik, dan juga memerlukan akses kepada parameter dalaman model .

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Jadi para penyelidik mengemukakan dua soalan:

2. Adakah mungkin untuk melatih sistem visual yang boleh digunakan untuk imej semula jadi "hanya menggunakan model teks"?

Untuk mengetahui, penyelidik mencapai pengukuran dengan menguji model bahasa yang berbeza dalam merender (melukis) dan mengenali (lihat) konsep visual dunia sebenar untuk menilai maklumat yang disertakan dalam model tersebut melatih pengelas ciri secara individu untuk setiap atribut.

Walaupun model bahasa tidak boleh menjana imej, model besar seperti GPT-4 boleh menjana kod untuk memaparkan objek Artikel ini menggunakan proses gesaan teks -> kod -> imej untuk meningkatkan secara beransur-ansur kesukaran memaparkan objek untuk diukur. keupayaan model.

Penyelidik mendapati bahawa LLM sangat baik dalam menghasilkan pemandangan visual kompleks yang terdiri daripada berbilang objek, dan boleh memodelkan hubungan ruang dengan cekap, tetapi tidak dapat menangkap dunia visual dengan baik, termasuk sifat objek, seperti tekstur , bentuk tepat dan sentuhan permukaan dengan objek lain dalam imej.

Artikel itu juga menilai keupayaan LLM untuk mengenal pasti konsep persepsi, memasukkan lukisan yang diwakili oleh kod, dan kod tersebut termasuk urutan, kedudukan dan warna bentuk, dan kemudian meminta model bahasa menjawab kandungan visual yang diterangkan dalam kod-kod tersebut.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Hasil eksperimen mendapati bahawa LLM adalah bertentangan dengan manusia: bagi manusia, proses menulis kod adalah sukar, tetapi mudah untuk mengesahkan kandungan imej manakala model sukar untuk dilakukan mentafsir/mengiktiraf kandungan kod tetapi ia boleh menghasilkan adegan yang kompleks.

Selain itu, hasil kajian juga membuktikan bahawa keupayaan penjanaan visual model bahasa boleh dipertingkatkan lagi melalui pembetulan berasaskan teks.

Penyelidik mula-mula menggunakan model bahasa untuk menjana kod yang menggambarkan konsep, dan kemudian terus memasukkan gesaan "memperbaiki kod yang dijana" (memperbaiki kod yang dijana) sebagai syarat untuk mengubah suai kod ditambah baik melalui pendekatan berulang ini kesan visual.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Set Data Keupayaan Visual: Menunjuk kepada Adegan

Para penyelidik membina tiga set data perihalan teks untuk mengukur keupayaan model untuk mencipta, mengecam dan mengubah suai kod pemaparan imej, dengan kerumitan antara bentuk dan gabungan yang mudah , objek dan adegan yang kompleks.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

1. Bentuk dan gubahannya

mengandungi komposisi bentuk daripada kategori yang berbeza, seperti titik, garisan, bentuk 3D dan bentuk 2D yang berbeza. tekstur, kedudukan dan susunan ruang.

Set data lengkap mengandungi lebih daripada 400,000 contoh, yang mana 1500 sampel digunakan untuk ujian percubaan.

2. Objek

Mengandungi 1000 objek paling biasa dalam set data ADE 20K, yang lebih sukar untuk dijana dan dikenali kerana ia mengandungi gabungan bentuk yang lebih kompleks.

3. Adegan

terdiri daripada huraian adegan yang kompleks, termasuk berbilang objek dan lokasi yang berbeza, dan diperoleh dengan mengambil 1000 huraian adegan secara rawak dan seragam daripada set data MS-COCO.

Konsep visual dalam set data diterangkan dalam bahasa Contohnya, huraian pemandangan ialah "hari musim panas yang cerah di pantai, dengan langit biru dan lautan yang tenang."

Semasa proses ujian, LLM diminta menjana kod dan menyusun imej yang diberikan berdasarkan adegan yang digambarkan.

Hasil eksperimen

Tugas menilai model terutamanya terdiri daripada tiga:

1 Jana/lukis teks: Menilai keupayaan LLM dalam menghasilkan kod pemaparan imej yang sepadan dengan konsep tertentu.

2. Kenali/lihat teks: Uji prestasi LLM dalam mengenali konsep visual dan adegan yang diwakili dalam kod. Kami menguji perwakilan kod lukisan manusia pada setiap model.

3 Membetulkan lukisan menggunakan maklum balas teks: Nilaikan keupayaan LLM untuk mengubah suai kod terjananya secara berulang menggunakan maklum balas bahasa semula jadi yang dijananya.

Gesaan untuk input model dalam ujian ialah: tulis kod dalam bahasa pengaturcaraan [nama bahasa pengaturcaraan] yang melukis [konsep]

Kemudian susun dan buat mengikut kod output model, dan secara visual menjana imej Kualiti dan kepelbagaian dinilai:

1. Kesetiaan

Kira kesetiaan antara imej yang dijana dan penerangan sebenar dengan mendapatkan penerangan terbaik bagi imej. Skor CLIP mula-mula digunakan untuk mengira persetujuan antara setiap imej dan semua perihalan berpotensi dalam kategori yang sama (bentuk/objek/adegan), dan kemudian kedudukan perihalan sebenar dilaporkan sebagai peratusan (cth. skor 100% bermakna bahawa konsep yang benar berada pada kedudukan pertama) .

2. Kepelbagaian

Untuk menilai keupayaan model untuk menghasilkan kandungan yang berbeza, skor kepelbagaian LPIPS digunakan pada pasangan imej yang mewakili konsep visual yang sama.

3. Realisme

Untuk koleksi sampel imej 1K daripada ImageNet, gunakan Fréchet Inception Distance (FID ) untuk mengukur perbezaan taburan antara imej semula jadi dan imej yang dijana LLM.

Dalam eksperimen perbandingan, model yang diperoleh oleh Stable Diffusion digunakan sebagai garis dasar.

Apakah yang boleh LLM gambarkan?

Hasil penyelidikan mendapati LLM boleh menggambarkan konsep dunia sebenar daripada keseluruhan hierarki visual, menggabungkan dua konsep yang tidak berkaitan (seperti kek berbentuk kereta), menjana fenomena visual (seperti imej kabur) dan berjaya mentafsir ruang dengan betul Perhubungan (seperti "deretan basikal" yang disusun secara melintang).

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Seperti yang dijangka, daripada keputusan skor CLIP Lihat, keupayaan model berkurangan apabila kerumitan konsep meningkat daripada bentuk kepada adegan.

Untuk konsep visual yang lebih kompleks, seperti melukis pemandangan yang mengandungi berbilang objek, GPT-3.5 dan GPT-4 adalah lebih baik daripada python-matplotlib dan python-turtle apabila melukis pemandangan dengan penerangan kompleks menggunakan pemprosesan dan tikz Lebih tepat .

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Untuk objek dan adegan, skor CLIP menunjukkan bahawa konsep termasuk "orang", "kenderaan" dan "adegan luar" adalah yang paling mudah untuk dilukis model adalah dalam setiap keupayaan Pengaturcaraan dalam senario, dan kualiti perwakilan dalaman konsep berbeza yang terlibat.

Apa yang tidak dapat dibayangkan oleh LLM?

Dalam sesetengah kes, model sukar untuk dilukis walaupun untuk konsep yang agak mudah, dan penyelidik merumuskan tiga mod kegagalan biasa:

1. Model bahasa tidak boleh mengendalikan satu set bentuk dan konsep tertentu organisasi ruang;

2. Lukisan kasar dan kurang terperinci, paling kerap dilihat dalam Davinci, terutamanya apabila menggunakan matplotlib dan pengekodan penyu

3 konsep (kategori tipikal senario).

4. Semua model tidak boleh melukis angka.

Kepelbagaian dan Realisme

Model bahasa menunjukkan keupayaan untuk menjana visualisasi yang berbeza bagi konsep yang sama.

Untuk menghasilkan sampel yang berbeza dari pemandangan yang sama, artikel membandingkan dua strategi:

1 Pensampelan berulang daripada model

2 plot baru konsep.

Keupayaan model untuk mewakili pelbagai pelaksanaan konsep visual dicerminkan dalam skor kepelbagaian LPIPS yang tinggi, keupayaan untuk menghasilkan imej yang pelbagai menunjukkan bahawa LLM mampu mewakili konsep visual dalam pelbagai cara, tanpa terhad kepada sesuatu; prototaip set terhad.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Imej yang dijana oleh LLM adalah jauh kurang realistik berbanding imej semula jadi, dan model mendapat skor yang sangat rendah pada metrik FID berbanding dengan Resapan Stabil, tetapi model moden berprestasi lebih baik daripada model lama.

Mempelajari sistem visual daripada teks

Latihan dan penilaian

Para penyelidik menggunakan model visual pra-latihan yang diperoleh daripada pembelajaran tanpa pengawasan sebagai tulang belakang rangkaian, menggunakan kaedah MoCo-v23 juta 384× dalam LLM Model ResNet-50 dilatih pada set data imej 384 untuk jumlah 200 zaman selepas latihan, dua kaedah digunakan untuk menilai prestasi model yang dilatih pada setiap set data:

1 Klasifikasi ImageNet-1 k Latih lapisan linear pada tulang belakang selama 100 zaman,

2 Gunakan pengambilan semula 5 jiran terdekat (kNN) pada ImageNet-100.

Seperti yang dapat dilihat daripada keputusan, model yang dilatih hanya menggunakan data yang dijana oleh LLM boleh memberikan keupayaan perwakilan yang berkuasa untuk imej semula jadi tanpa perlu melatih lapisan linear.

Model teks tulen melatih perwakilan visual! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod

Analisis Keputusan

Para penyelidik membandingkan imej yang dijana oleh LLM dengan yang dijana oleh program sedia ada, termasuk program generatif mudah seperti dead-levaves, fraktal dan StyleGAN, untuk menghasilkan imej yang sangat pelbagai.

Daripada keputusan, kaedah LLM adalah lebih baik daripada dead-levaves dan fraktal, tetapi bukan sota selepas pemeriksaan manual terhadap data, penyelidik mengaitkan rendah diri ini Terdapat kekurangan tekstur dalam kebanyakan imej yang dihasilkan LLM; .

Untuk menangani isu ini, penyelidik menggabungkan set data Shaders-21k dengan sampel yang diperoleh daripada LLM untuk menjana imej kaya tekstur.

Seperti yang dapat dilihat daripada keputusan, penyelesaian ini boleh meningkatkan prestasi dengan ketara dan mengatasi penyelesaian yang dihasilkan oleh program lain.

Atas ialah kandungan terperinci Model teks tulen melatih perwakilan 'visual'! Penyelidikan terkini MIT: Model bahasa boleh melukis gambar menggunakan kod. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

AI Hentai Generator

Menjana ai hentai secara percuma.

Tunjukkan Lagi

Artikel Panas

R.E.P.O. Kristal tenaga dijelaskan dan apa yang mereka lakukan (kristal kuning)

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Tetapan grafik terbaik

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

1 minggu yang lalu By DDD

R.E.P.O. Cara Memperbaiki Audio Jika anda tidak dapat mendengar sesiapa

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Cara Membuka Segala -galanya Di Myrise

3 minggu yang lalu By 尊渡假赌尊渡假赌尊渡假赌

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7449

Tutorial CakePHP

1374

Apakah format nama akaun stim

kunci pengaktifan win11 kekal

Sambungan NYT menunjukkan dan jawapan

Tunjukkan Lagi

Related knowledge

Apakah sepuluh platform perdagangan mata wang maya? Feb 20, 2025 pm 02:15 PM

Dengan populariti kriptografi, platform perdagangan mata wang maya telah muncul. Sepuluh platform perdagangan mata wang maya teratas di dunia disenaraikan seperti berikut mengikut jumlah transaksi dan bahagian pasaran: Binance, Coinbase, FTX, Kucoin, Crypto.com, Kraken, Huobi, Gate.io, Bitfinex, Gemini. Platform ini menawarkan pelbagai perkhidmatan, dari pelbagai pilihan cryptocurrency untuk perdagangan derivatif, sesuai untuk peniaga yang berbeza -beza.

Cara menyesuaikan pertukaran terbuka bijan ke dalam bahasa Cina Mar 04, 2025 pm 11:51 PM

Bagaimana cara menyesuaikan pertukaran terbuka bijan ke bahasa Cina? Tutorial ini merangkumi langkah -langkah terperinci mengenai komputer dan telefon bimbit Android, dari penyediaan awal hingga proses operasi, dan kemudian menyelesaikan masalah biasa, membantu anda dengan mudah menukar antara muka pertukaran terbuka ke Cina dan cepat memulakan dengan platform perdagangan.

10 platform perdagangan cryptocurrency teratas, sepuluh aplikasi platform perdagangan mata wang yang disyorkan Mar 17, 2025 pm 06:03 PM

Sepuluh platform perdagangan cryptocurrency teratas termasuk: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

10 platform perdagangan mata wang maya teratas 2025 Aplikasi Perdagangan Cryptocurrency Kedudukan Sepuluh Teratas Mar 17, 2025 pm 05:54 PM

Sepuluh Platform Perdagangan Mata Wang Maya 2025: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8. Crypto.com, 9. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Apakah platform mata wang digital yang selamat dan boleh dipercayai? Mar 17, 2025 pm 05:42 PM

Platform mata wang digital yang selamat dan boleh dipercayai: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Antara aplikasi Perdagangan Mata Wang Maya yang manakah yang terbaik? Mar 19, 2025 pm 05:00 PM

10 Perdagangan Perdagangan Mata Wang Maya Top: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6 Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Aplikasi Perisian Mata Wang Maya Selamat yang Disyorkan Top 10 Aplikasi Perdagangan Mata Wang Digital Ranking 2025 Mar 17, 2025 pm 05:48 PM

Disyorkan Aplikasi Perisian Mata Wang Maya Selamat: 1. Okx, 2. Binance, 3. Gate.io, 4. Kraken, 5. Huobi, 6. Coinbase, 7. Kucoin, 8 crypto.com, 9. Bitfinex, 10. Keselamatan, kecairan, yuran pengendalian, pemilihan mata wang, antara muka pengguna dan sokongan pelanggan harus dipertimbangkan ketika memilih platform.

Melampaui SFT, rahsia di belakang O1/DeepSeek-R1 juga boleh digunakan dalam model besar multimodal Mar 12, 2025 pm 01:03 PM

Penyelidik dari Universiti Shanghai Jiaoto, Shanghai Ailab dan Universiti Cina Hong Kong telah melancarkan projek sumber terbuka Visual-RFT (Visual Fine Fine Tuning), yang hanya memerlukan sedikit data untuk meningkatkan prestasi model bahasa besar visual (LVLM). Visual-RFT bijak menggabungkan pendekatan pembelajaran tetulang berasaskan peraturan DeepSeek-R1 dengan paradigma penalaan Fine-Penalaan Terbuka (RFT) OpenAI, berjaya memperluaskan pendekatan ini dari medan teks ke medan visual. Dengan merancang ganjaran peraturan yang sepadan untuk tugas-tugas seperti subkategori visual dan pengesanan objek, Visual-RFT mengatasi batasan kaedah DeepSeek-R1 yang terhad kepada teks, penalaran matematik dan bidang lain, menyediakan cara baru untuk latihan LVLM. Vis

See all articles