


Pengenalan terbaru kepada 'Multimodal LLM'! Data dan prosiding dibungkus dan dibawa pergi terus
Pautan penjejakan kemajuan (Awesome-MLLM, kemas kini masa nyata): https://github.com/BradyFU/Awesome-Multimodal-Large-Language- Model
Dalam beberapa tahun kebelakangan ini, penyelidikan mengenai Model Bahasa Besar (LLM) telah mencapai kemajuan yang ketara (seperti GPT- 3 , LLaMa, ChatGPT, GPT-4), model ini telah menunjukkan prestasi cemerlang pada pelbagai tugas pemprosesan bahasa semula jadi (NLP).
Dengan pra-latihan mengenai data besar-besaran, LLM telah memperoleh pengetahuan yang kaya dan keupayaan penaakulan yang kuat. Hanya masukkan beberapa arahan pengguna dan model ini boleh menghuraikan arahan, membuat inferens dan memberikan jawapan yang memenuhi jangkaan pengguna.
Sesetengah keupayaan tipikal LLM termasuk:
- · Laksanakan tugas baharu yang tidak dilihat semasa latihan;
- · Lengkapkan tugasan baharu dengan beberapa contoh; · Laksanakan tugasan penaakulan yang kompleks melalui rantaian penaakulan;
- Terdapat banyak idea dan teknologi utama di sebalik keupayaan ini, termasuk Penalaan Arahan, Pembelajaran Dalam Konteks ) dan Rantaian Pemikiran, dsb. . Model bahasa berskala besar berbilang modal
- Walaupun model bahasa berskala besar telah mencapai kemajuan yang besar dalam bidang NLP, model dan teknologi sepadan yang lebih sedikit dalam bidang multi-modal Exploration, dan model bahasa visual tradisional masih mempunyai batasan seperti generalisasi yang tidak mencukupi dan kekurangan keupayaan penaakulan. Untuk tujuan ini, ramai sarjana baru-baru ini menumpukan perhatian mereka kepada arah yang baru muncul: Multimodal Large Language Models (MLLM).
Idea utamanya ialah menggunakan LLM sebagai "otak" untuk menyepadukan, menaakul, menganalisis dan membuat keputusan mengenai memasukkan maklumat pelbagai mod untuk menyelesaikan tugasan yang disampaikan oleh manusia.
Dari perspektif membangunkan kecerdasan buatan am, berbanding dengan LLM, MLLM telah mengambil satu lagi langkah ke hadapan dan mempunyai kelebihan berikut:
· Lebih sesuai dengan tabiat manusia memahami dunia. Manusia mempunyai pelbagai deria dan menerima maklumat daripada pelbagai modaliti, yang selalunya saling melengkapi dan bersinergi. Oleh itu, menggunakan maklumat berbilang modal secara amnya boleh lebih memahami dan menyelesaikan tugasan yang kompleks;
Dengan menyokong input berbilang modal, pengguna boleh menyampaikan maklumat dengan cara yang lebih fleksibel;LLM biasanya hanya boleh menyelesaikan tugasan berkaitan NLP, manakala MLLM boleh menyelesaikan lebih banyak tugas dengan mengakses pelbagai mod.
Dari perspektif reka bentuk sistem, MLLM boleh dibahagikan kepada dua kategori:
· LLM berfungsi sebagai penaakulan dan menyokong Input pelbagai mod sistem penaakulan kognitif;
· LLM sebagai sistem kerjasama pelbagai alat perancang/penjadual/pembuat keputusan.
Yang pertama secara amnya menukar maklumat berbilang modal ke dalam bentuk yang LLM boleh terus terima dan proses melalui antara muka penukaran berbilang modal yang boleh dilatih . , membolehkan LLM melaksanakan kognisi dan penaakulan berdasarkan maklumat pelbagai mod dan arahan pengguna ini.
Yang terakhir biasanya menggunakan LLM sebagai perancang/penjadual/pembuat keputusan[1] untuk menguraikan tugasan kompleks yang dihantar oleh pengguna kepada sub-tugas yang lebih mudah, menghantarnya ke model/alat yang sesuai, dan akhirnya menyepadukan hasil dan output .
Kami menggunakan perspektif lain, memfokuskan pada teknologi utama dan kaedah pelaksanaan di sebalik MLLM, menjalankan penyelidikan dan ringkasan tentang kerja berkaitan, dan membahagikan MLLM kepada kategori berikut:
· Penalaan Arahan Multimodal
· Pembelajaran Dalam Konteks Pelbagaimod
·Rangkaian Pemikiran Pelbagai Modal
· LLM -Penaakulan Visual Berbantu
Di bawah ini kami akan memberikan pengenalan ringkas kepada jenis kerja ini.
Penalaan Arahan Pelbagai Modal
Kaedah asas penalaan halus arahan berbilang mod ialah menggunakan templat bersatu untuk menyatukan semua jenis data dan Bentuk arahan menerangkan keperluan tugasan , membentuk data arahan berbilang modal, dan kemudian menggunakan data ini untuk memperhalusi MLLM.
Disebabkan ketekalan borang arahan semasa latihan dan ujian, LLM boleh bergantung pada pemahaman semantik dan keupayaan penaakulannya untuk membuat generalisasi dengan lebih fleksibel kepada tugasan lain dan mendapatkan sampel sifar yang berkuasa kebolehan.
Bentuk asas data arahan multimodal boleh diringkaskan sebagai (arahan, input multimodal, jawapan) triplet.
Cara intuitif untuk mendapatkan data jenis ini adalah dengan mengubah set data penanda aras Kami mengambil Kapsyen Imej sebagai contoh, seperti yang ditunjukkan dalam Rajah 1 di bawah:
Rajah 1. Contoh data arahan pelbagai mod
Data Kapsyen Asal Sampel termasuk gambar dan penerangan teks (Ground Truth) Data berpasangan data-GT ini secara semula jadi membentuk bahagian input dan jawapan berbilang mod bagi data arahan. Bahagian perintah
ialah perihalan tugas yang sepadan, yang biasanya ditulis secara manual atau dijana dengan memanggil GPT.
Apabila memperhalusi arahan berbilang modal, MLLM menukar input berbilang modal dan menghantarnya ke LLM, yang meramalkan jawapan berdasarkan maklumat berbilang mod dan teks arahan.
Pembelajaran Dalam Konteks Pelbagai Modal
Idea teras pembelajaran konteks pelbagai mod ialah belajar daripada analogi. Sebagai contoh, bentuk yang biasa kita temui semasa belajar adalah seperti berikut:
Dengan mengkaji contoh, apabila kita menghadapi masalah baru, kita boleh menggunakan kategori Belajar idea asas dan kaedah masalah perkadaran untuk menyelesaikan masalah baharu.
Selain itu, contoh soalan juga boleh menyeragamkan format jawapan kami, yang lebih kondusif untuk mendapatkan jawapan yang betul yang memenuhi keperluan yang diharapkan.
Seperti yang ditunjukkan dalam Rajah 2 di bawah, biarkan model meramalkan hasil pengiraan 3x7 melalui contoh.
Rajah 2. Contoh data konteks pelbagai mod, menggunakan contoh untuk membenarkan model meramalkan hasil pengiraan 3x7
Rantai Pemikiran Berbilang Modal
Rantai pemikiran ialah satu siri langkah penaakulan pertengahan [2]. Idea asas rantaian pemikiran pelbagai mod adalah untuk menjadikan model belajar mengeluarkan langkah perantaraan langkah demi langkah, dan akhirnya membuat kesimpulan jawapan akhir, seperti yang ditunjukkan dalam Rajah 3 di bawah:
Rajah 3. Contoh data rantaian pemikiran pelbagai mod
Berbanding dengan jawapan yang mengeluarkan secara langsung, rantai pemikiran:
· Lebih sesuai dengan tabiat penaakulan manusia: berdasarkan langkah dan keputusan penaakulan sebelumnya, secara beransur-ansur membawa kepada jawapan muktamad;
· Sesuai untuk tugasan penaakulan yang kompleks, menyelesaikan masalah kompleks langkah demi langkah, meningkatkan Ketepatan jawapan.
Penaakulan Visual Berbantukan LLM
Gunakan LLM sebagai mekanisme membuat keputusan dan penaakulan, panggil pelbagai model dan alatan pelbagai mod dan integrasikan output, dapatkan keputusan akhir jawab. Mengikut cara untuk menyelesaikan tugas, ia secara amnya boleh dibahagikan kepada model roda tunggal dan model berbilang roda.
Idea asas model pusingan tunggal ialah LLM bertindak sebagai perancang, penjadual dan pembuat keputusan untuk menyelaraskan pelbagai model/alat untuk menyelesaikan tugasan fungsi berikut[1]:
· Perancang: Uraikan tugasan kompleks kepada subtugasan yang boleh diselesaikan;
· Penjadual:menghantar subtugas kepada model/alat yang sesuai; > Uruskan susunan pelaksanaan subtugas dan integrasikan hasil subtugas untuk mendapatkan jawapan akhir.
Model berbilang pusingan adalah berdasarkan idea lelaran dan terus mengumpul kognisi visual sehingga ia cukup yakin untuk mendapatkan jawapan akhir. Dalam proses ini, LLM perlu mengintegrasikan langkah-langkah sebelumnya (soalan yang dibangkitkan dan maklumat kognitif visual yang diperoleh) untuk menentukan sama ada jawapan akhir boleh dikeluarkan [3].Untuk kertas berkaitan, sila lihat: https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models
Atas ialah kandungan terperinci Pengenalan terbaru kepada 'Multimodal LLM'! Data dan prosiding dibungkus dan dibawa pergi terus. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Alat AI Hot

Undresser.AI Undress
Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover
Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool
Gambar buka pakaian secara percuma

Clothoff.io
Penyingkiran pakaian AI

AI Hentai Generator
Menjana ai hentai secara percuma.

Artikel Panas

Alat panas

Notepad++7.3.1
Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina
Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1
Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6
Alat pembangunan web visual

SublimeText3 versi Mac
Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Topik panas

Bayangkan model kecerdasan buatan yang bukan sahaja mempunyai keupayaan untuk mengatasi pengkomputeran tradisional, tetapi juga mencapai prestasi yang lebih cekap pada kos yang lebih rendah. Ini bukan fiksyen sains, DeepSeek-V2[1], model MoE sumber terbuka paling berkuasa di dunia ada di sini. DeepSeek-V2 ialah gabungan model bahasa pakar (MoE) yang berkuasa dengan ciri-ciri latihan ekonomi dan inferens yang cekap. Ia terdiri daripada 236B parameter, 21B daripadanya digunakan untuk mengaktifkan setiap penanda. Berbanding dengan DeepSeek67B, DeepSeek-V2 mempunyai prestasi yang lebih kukuh, sambil menjimatkan 42.5% kos latihan, mengurangkan cache KV sebanyak 93.3% dan meningkatkan daya pemprosesan penjanaan maksimum kepada 5.76 kali. DeepSeek ialah sebuah syarikat yang meneroka kecerdasan buatan am

Awal bulan ini, penyelidik dari MIT dan institusi lain mencadangkan alternatif yang sangat menjanjikan kepada MLP - KAN. KAN mengatasi MLP dari segi ketepatan dan kebolehtafsiran. Dan ia boleh mengatasi prestasi MLP berjalan dengan bilangan parameter yang lebih besar dengan bilangan parameter yang sangat kecil. Sebagai contoh, penulis menyatakan bahawa mereka menggunakan KAN untuk menghasilkan semula keputusan DeepMind dengan rangkaian yang lebih kecil dan tahap automasi yang lebih tinggi. Khususnya, MLP DeepMind mempunyai kira-kira 300,000 parameter, manakala KAN hanya mempunyai kira-kira 200 parameter. KAN mempunyai asas matematik yang kukuh seperti MLP berdasarkan teorem penghampiran universal, manakala KAN berdasarkan teorem perwakilan Kolmogorov-Arnold. Seperti yang ditunjukkan dalam rajah di bawah, KAN telah

Boston Dynamics Atlas secara rasmi memasuki era robot elektrik! Semalam, Atlas hidraulik hanya "menangis" menarik diri daripada peringkat sejarah Hari ini, Boston Dynamics mengumumkan bahawa Atlas elektrik sedang berfungsi. Nampaknya dalam bidang robot humanoid komersial, Boston Dynamics berazam untuk bersaing dengan Tesla. Selepas video baharu itu dikeluarkan, ia telah pun ditonton oleh lebih sejuta orang dalam masa sepuluh jam sahaja. Orang lama pergi dan peranan baru muncul. Ini adalah keperluan sejarah. Tidak dinafikan bahawa tahun ini adalah tahun letupan robot humanoid. Netizen mengulas: Kemajuan robot telah menjadikan majlis pembukaan tahun ini kelihatan seperti manusia, dan tahap kebebasan adalah jauh lebih besar daripada manusia Tetapi adakah ini benar-benar bukan filem seram? Pada permulaan video, Atlas berbaring dengan tenang di atas tanah, seolah-olah terlentang. Apa yang berikut adalah rahang-jatuh

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

AI memang mengubah matematik. Baru-baru ini, Tao Zhexuan, yang telah mengambil perhatian terhadap isu ini, telah memajukan keluaran terbaru "Buletin Persatuan Matematik Amerika" (Buletin Persatuan Matematik Amerika). Memfokuskan pada topik "Adakah mesin akan mengubah matematik?", ramai ahli matematik menyatakan pendapat mereka Seluruh proses itu penuh dengan percikan api, tegar dan menarik. Penulis mempunyai barisan yang kuat, termasuk pemenang Fields Medal Akshay Venkatesh, ahli matematik China Zheng Lejun, saintis komputer NYU Ernest Davis dan ramai lagi sarjana terkenal dalam industri. Dunia AI telah berubah secara mendadak Anda tahu, banyak artikel ini telah dihantar setahun yang lalu.

Pengesanan objek ialah masalah yang agak matang dalam sistem pemanduan autonomi, antaranya pengesanan pejalan kaki adalah salah satu algoritma terawal untuk digunakan. Penyelidikan yang sangat komprehensif telah dijalankan dalam kebanyakan kertas kerja. Walau bagaimanapun, persepsi jarak menggunakan kamera fisheye untuk pandangan sekeliling agak kurang dikaji. Disebabkan herotan jejari yang besar, perwakilan kotak sempadan standard sukar dilaksanakan dalam kamera fisheye. Untuk mengurangkan perihalan di atas, kami meneroka kotak sempadan lanjutan, elips dan reka bentuk poligon am ke dalam perwakilan kutub/sudut dan mentakrifkan metrik mIOU pembahagian contoh untuk menganalisis perwakilan ini. Model fisheyeDetNet yang dicadangkan dengan bentuk poligon mengatasi model lain dan pada masa yang sama mencapai 49.5% mAP pada set data kamera fisheye Valeo untuk pemanduan autonomi

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Kertas kerja ini meneroka masalah mengesan objek dengan tepat dari sudut pandangan yang berbeza (seperti perspektif dan pandangan mata burung) dalam pemanduan autonomi, terutamanya cara mengubah ciri dari perspektif (PV) kepada ruang pandangan mata burung (BEV) dengan berkesan dilaksanakan melalui modul Transformasi Visual (VT). Kaedah sedia ada secara amnya dibahagikan kepada dua strategi: penukaran 2D kepada 3D dan 3D kepada 2D. Kaedah 2D-ke-3D meningkatkan ciri 2D yang padat dengan meramalkan kebarangkalian kedalaman, tetapi ketidakpastian yang wujud dalam ramalan kedalaman, terutamanya di kawasan yang jauh, mungkin menimbulkan ketidaktepatan. Manakala kaedah 3D ke 2D biasanya menggunakan pertanyaan 3D untuk mencuba ciri 2D dan mempelajari berat perhatian bagi kesesuaian antara ciri 3D dan 2D melalui Transformer, yang meningkatkan masa pengiraan dan penggunaan.
