


Bolehkah DALL-E dan Flamingo memahami satu sama lain? Tiga rangkaian saraf SOTA pra-latihan menyatukan imej dan teks
Matlamat penting penyelidikan pelbagai mod adalah untuk meningkatkan keupayaan mesin untuk memahami imej dan teks. Khususnya, penyelidik telah melakukan usaha yang hebat tentang cara untuk mencapai komunikasi yang bermakna antara kedua-dua model. Sebagai contoh, penjanaan kapsyen imej seharusnya dapat menukar kandungan semantik imej kepada teks koheren yang boleh difahami oleh manusia. Sebaliknya, model generatif imej teks juga boleh mengeksploitasi semantik penerangan teks untuk mencipta imej yang realistik.
Ini membawa kepada beberapa soalan menarik berkaitan semantik: untuk imej tertentu, perihalan teks yang manakah paling tepat menerangkan imej itu? Begitu juga, untuk teks tertentu, apakah cara yang paling bermakna untuk melaksanakan imej? Mengenai soalan pertama, beberapa kajian mendakwa bahawa penerangan imej terbaik haruslah maklumat yang semula jadi dan boleh memulihkan kandungan visual. Bagi soalan kedua, imej yang bermakna harus berkualiti tinggi, pelbagai dan sesuai dengan kandungan teks.
Dalam apa jua keadaan, didorong oleh komunikasi manusia, tugas interaktif yang melibatkan model penjanaan imej teks dan model penjanaan teks imej boleh membantu kami memilih pasangan teks imej yang paling tepat.
Seperti yang ditunjukkan dalam Rajah 1, dalam tugasan pertama, model teks imej ialah penghantar maklumat, dan model imej teks ialah penerima maklumat. Matlamat penghantar adalah untuk menyampaikan kandungan imej kepada penerima menggunakan bahasa semula jadi supaya ia memahami bahasa dan membina semula perwakilan visual yang realistik. Sebaik sahaja penerima boleh membina semula maklumat imej asal dengan kesetiaan yang tinggi, ia menunjukkan bahawa maklumat telah berjaya dipindahkan. Penyelidik percaya bahawa penerangan teks yang dihasilkan dengan cara ini adalah optimum, dan imej yang dihasilkan melaluinya juga paling serupa dengan imej asal.
Peraturan ini diilhamkan oleh penggunaan bahasa orang ramai untuk berkomunikasi. Bayangkan senario berikut: Dalam adegan panggilan kecemasan, polis mengetahui tentang kemalangan kereta dan status orang yang cedera melalui telefon. Ini pada asasnya melibatkan proses penerangan imej oleh saksi di tempat kejadian. Pihak polis perlu membina semula keadaan alam sekitar secara mental berdasarkan penerangan lisan untuk mengatur operasi menyelamat yang sesuai. Jelas sekali, penerangan teks yang terbaik harus menjadi panduan terbaik untuk pembinaan semula tempat kejadian.
Tugas kedua melibatkan pembinaan semula teks: model imej teks menjadi penghantar mesej, dan model teks imej menjadi penerima mesej. Apabila kedua-dua model bersetuju dengan kandungan maklumat pada peringkat teks, medium imej yang digunakan untuk menyampaikan maklumat adalah imej optimum yang menghasilkan semula teks sumber.
Dalam artikel ini, kaedah yang dicadangkan oleh penyelidik dari Universiti Munich, Siemens dan institusi lain berkait rapat dengan komunikasi antara ejen. Bahasa adalah kaedah utama untuk bertukar maklumat antara ejen. Tetapi bagaimana kita boleh memastikan bahawa ejen pertama dan ejen kedua mempunyai pemahaman yang sama tentang apa itu kucing atau apa itu anjing?
Alamat kertas: https://arxiv.org/pdf/2212.12249.pdf
Idea yang ingin diterokai oleh artikel ini ialah meminta ejen pertama menganalisis imej dan menjana teks yang menerangkan imej, dan kemudian ejen kedua mendapatkan teks dan mensimulasikan imej berdasarkannya. Antaranya, proses yang terakhir boleh dianggap sebagai proses penjelmaan. Kajian ini percaya bahawa komunikasi berjaya jika imej yang disimulasikan oleh ejen kedua adalah serupa dengan imej input yang diterima oleh ejen pertama (lihat Rajah 1).
Dalam eksperimen, kajian ini menggunakan model luar biasa, terutamanya model pra-latihan berskala besar yang dibangunkan baru-baru ini. Contohnya, Flamingo dan BLIP ialah model penerangan imej yang boleh menjana penerangan teks secara automatik berdasarkan imej. Begitu juga, model penjanaan imej yang dilatih pada pasangan teks imej boleh memahami semantik teks yang mendalam dan mensintesis imej berkualiti tinggi, seperti model DALL-E dan model resapan terpendam (SD).
Selain itu, kajian itu memanfaatkan model CLIP untuk membandingkan imej atau teks. CLIP ialah model bahasa visual yang memetakan imej dan teks dalam ruang benam yang dikongsi. Kajian ini menggunakan set data teks imej yang dibuat secara manual seperti COCO dan NoCaps untuk menilai kualiti teks yang dijana. Model generatif imej dan teks mempunyai komponen stokastik yang membenarkan pensampelan daripada pengedaran, dengan itu memilih yang terbaik daripada julat teks dan imej calon. Kaedah pensampelan yang berbeza, termasuk pensampelan kernel, boleh digunakan dalam model penerangan imej, dan artikel ini menggunakan pensampelan kernel sebagai model asas untuk menunjukkan keunggulan kaedah yang digunakan dalam artikel ini.
Gambaran Keseluruhan Kaedah
Rangka kerja artikel ini terdiri daripada tiga rangkaian neural SOTA terlatih. Pertama, model penjanaan imej-teks; kedua, model penjanaan imej-teks ketiga, model perwakilan berbilang mod yang terdiri daripada pengekod imej dan pengekod teks, yang masing-masing boleh memetakan imej atau teks ke dalam semantiknya.
Pembinaan semula imej melalui penerangan teks
Seperti yang ditunjukkan di bahagian kiri Rajah 2 Seperti yang ditunjukkan dalam bahagian, tugas pembinaan semula imej adalah untuk membina semula imej sumber menggunakan bahasa sebagai arahan, dan pelaksanaan proses ini akan membawa kepada penjanaan teks optimum yang menerangkan pemandangan sumber. Pertama, imej sumber x dimasukkan ke model BLIP untuk menjana berbilang teks calon y_k. Contohnya, seekor panda merah memakan daun di dalam hutan. Set calon teks yang dijana diwakili oleh C, dan kemudian teks y_k dihantar ke model SD untuk menjana imej x'_k. Di sini x'_k merujuk kepada imej yang dihasilkan berdasarkan panda merah. Selepas itu, pengekod imej CLIP digunakan untuk mengekstrak ciri semantik daripada sumber dan imej yang dihasilkan: dan
.
Kemudian persamaan kosinus antara kedua-dua vektor benam ini dikira dengan tujuan mencari huraian teks calon y_s, iaitu
di mana s ialah indeks imej yang paling hampir dengan imej sumber.
Kajian ini menggunakan CIDEr (Metrik Penerangan Imej) dan merujuk anotasi manusia untuk menilai teks terbaik. Memandangkan kami berminat dengan kualiti teks yang dihasilkan, kajian ini menetapkan model BLIP kepada teks output yang lebih kurang sama panjangnya. Ini memastikan perbandingan yang agak adil, kerana panjang teks berkorelasi positif dengan jumlah maklumat dalam imej yang boleh disampaikan. Semasa kerja ini, semua model akan dibekukan dan tiada penalaan halus akan dilakukan.
Pembinaan semula teks melalui imej
Bahagian kanan Rajah 2 menunjukkan kebalikan proses yang diterangkan dalam bahagian sebelumnya. Model BLIP memerlukan meneka teks sumber berpandukan SD, yang mempunyai akses kepada teks tetapi hanya boleh memaparkan kandungannya dalam bentuk imej. Proses bermula dengan menggunakan SD untuk menjana imej calon x_k untuk teks y, dan set imej calon yang terhasil dilambangkan dengan K. Menjana imej menggunakan SD melibatkan proses pensampelan rawak, di mana setiap proses penjanaan mungkin berakhir dengan sampel imej sah yang berbeza dalam ruang piksel yang besar. Kepelbagaian pensampelan ini menyediakan kumpulan calon untuk menapis imej terbaik. Selepas itu, model BLIP menjana penerangan teks y’_k untuk setiap imej sampel x_k. Di sini y’_k merujuk kepada teks awal Seekor panda merah sedang merayap di dalam hutan. Kajian kemudiannya menggunakan pengekod teks CLIP untuk mengekstrak ciri teks sumber dan teks yang dijana, masing-masing diwakili oleh dan
. Tujuan tugasan ini adalah untuk mencari imej calon terbaik x_s yang sepadan dengan semantik teks y. Untuk melakukan ini, kajian perlu membandingkan jarak antara teks yang dijana dan teks input, dan kemudian pilih imej dengan jarak teks berpasangan terkecil, iaitu
kajian tersebut percaya bahawa imej x_s boleh menggambarkan dengan terbaik penerangan teks y kerana ia boleh menyampaikan kandungan kepada penerima dengan kehilangan maklumat yang minimum. Selain itu, kajian ini menganggap imej sepadan dengan teks y sebagai pembentangan rujukan y, dan mengukur imej terbaik sebagai kedekatannya dengan imej rujukan.
Hasil eksperimen
Carta kiri dalam Rajah 3 menunjukkan korelasi antara kualiti pembinaan semula imej dan kualiti teks penerangan pada dua set data. Untuk setiap imej yang diberikan, lebih baik kualiti imej yang dibina semula (ditunjukkan dalam paksi-x), lebih baik kualiti perihalan teks (ditunjukkan dalam paksi-y).
Graf kanan Rajah 3 mendedahkan hubungan antara kualiti teks yang dipulihkan dan kualiti imej yang dijana: untuk setiap teks yang diberikan, penerangan teks yang dibina semula (ditunjukkan pada x lebih baik paksi-y), lebih baik kualiti imej (ditunjukkan pada paksi-y).
Rajah 4 (a) dan (b) menunjukkan perbezaan antara kualiti pembinaan semula imej dan purata kualiti teks berdasarkan pada hubungan imej sumber antara. Rajah 4(c) dan (d) menunjukkan perkaitan antara jarak teks dan kualiti imej yang dibina semula.
Jadual 1 menunjukkan bahawa kaedah persampelan kajian mengatasi persampelan kernel dalam setiap metrik, model Keuntungan relatif boleh setinggi sebanyak 7.7%.
Rajah 5 menunjukkan contoh kualitatif bagi dua tugas pembinaan semula.
Atas ialah kandungan terperinci Bolehkah DALL-E dan Flamingo memahami satu sama lain? Tiga rangkaian saraf SOTA pra-latihan menyatukan imej dan teks. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas



Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
