Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen-AI-php.cn

Jadual Kandungan

Isu teras dalam bahagian ini ialah cara untuk melatih tulang belakang pemahaman Imej yang kuat.

Bahagian ini membincangkan model besar berbilang modal secara menyeluruh.

Agen multimodal yang dipanggil adalah kaedah yang menghubungkan pakar multimodal yang berbeza dengan LLM untuk menyelesaikan masalah pemahaman multimodal yang kompleks.

Terdapat 7 pengarang dalam laporan ini

Rumah

Peranti teknologi

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen

王林

Sep 25, 2023 pm 04:49 PM

data Penyelidikan

Model besar berbilang modalulasan paling lengkap ada di sini!

ditulis oleh 7 penyelidik Cina daripada Microsoft, ialah sejumlah 119 muka surat——

#🎜🎜 🎜🎜#

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen Ia bermula daripada

yang kini disempurnakan

dan masih berada di barisan hadapan dua jenis penyelidikan model besar berbilang mod , dan meringkaskan secara komprehensif Lima topik penyelidikan khusus:

Pemahaman Visual

Visual Generation
#🎜🎜 Model Visi Bersatu 🎜#LLM Model besar berbilang modal yang diberkati
agen berbilang modal
#🎜# dan fokus kepada satu fenomena :

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen Model asas pelbagai modal telah beralih daripada khusus kepada

universal

Ps.Inilah sebabnya penulis melukis secara langsung imej Doraemon di awal kertas.

Siapa yang sesuai membaca ulasan ini

(laporan) ?

Dalam perkataan asal Microsoft:

Selagi anda berminat untuk mempelajari pengetahuan asas dan kemajuan terkini model asas pelbagai mod, sama ada anda seorang penyelidik profesional atau pelajar sekolah , kandungan ini sangat sesuai untuk anda

Jom tengok~

Satu artikel untuk mengetahui situasi semasa model besar pelbagai mod#🎜🎜 #

Lima topik khusus ini Dua yang pertama adalah bidang matang, manakala tiga yang terakhir adalah bidang termaju

1 Pemahaman visual

Isu teras dalam bahagian ini ialah cara untuk melatih tulang belakang pemahaman Imej yang kuat.

Seperti yang ditunjukkan dalam rajah di bawah, mengikut isyarat penyeliaan berbeza yang digunakan untuk melatih model, kita boleh membahagikan kaedah kepada tiga kategori:

Penyeliaan label, penyeliaan bahasa

( dengan CLIP sebagai Mewakili)

dan pengawasan diri imej sahaja.

Yang terakhir menunjukkan bahawa isyarat penyeliaan dilombong daripada imej itu sendiri termasuk pembelajaran kontras, pembelajaran bukan kontras dan pemodelan imej bertopeng.

Selain kaedah ini, artikel ini membincangkan lebih lanjut kaedah pra-latihan untuk kategori seperti gabungan pelbagai mod, pemahaman imej peringkat wilayah dan piksel#🎜 🎜## 🎜🎜#

juga menyenaraikan karya perwakilan setiap kaedah di atas.

2 Penjanaan visual Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen

Topik ini adalah teras AIGC, tetapi juga termasuk video dan mata 3D Cloud Atlas dan banyak lagi.

Dan penggunaannya tidak terhad kepada seni, reka bentuk dan bidang lain - ia juga sangat membantu dalam mensintesis data latihan, secara langsung membantu kami mencapai gelung tertutup pemahaman dan penjanaan kandungan pelbagai mod.

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen Dalam bahagian ini, penulis memfokuskan kepada kepentingan dan kaedah menghasilkan kesan yang benar-benar konsisten dengan niat manusia

(penekanan kepada penjanaan imej)

.

Secara khusus, ia bermula daripada empat aspek: penjanaan ruang yang boleh dikawal, penyuntingan semula berasaskan teks, lebih baik mengikuti gesaan teks dan penyesuaian konsep penjanaan

(penyesuaian konsep)

Di akhir bahagian ini, penulis juga berkongsi pandangan mereka tentang trend penyelidikan semasa dan hala tuju penyelidikan akan datang

#🎜🎜 #Dalam Untuk mengikuti niat manusia dengan lebih baik dan menjadikan empat arah di atas lebih fleksibel dan boleh diganti, kita perlu membangunkan model penjanaan teks umumKarya wakil masing-masing dari empat arah disenaraikan seperti berikut: #🎜🎜 #

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen

3. Model visi bersatu

Bahagian ini meneroka cabaran membina model visi bersatu: #🎜🎜 ##🎜 Kandungan yang perlu ditulis semula ialah: pertama, jenis input berbeza; format;

Data juga menghadapi cabaran, selain pemodelan

Sebagai contoh, kos pelbagai jenis anotasi label sangat berbeza-beza, dan kos pengumpulan jauh lebih tinggi daripada data teks Ini menyebabkan skala data visual biasanya jauh lebih kecil daripada korpora teks.

Namun, walaupun menghadapi banyak cabaran, penulis menegaskan:

Bidang CV semakin berminat untuk membangunkan sistem penglihatan umum dan bersatu, dan tiga trend telah muncul: # 🎜🎜#

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen

Pertama, dari set tertutup

(set tertutup) hingga set buka # (set terbuka) 🎜🎜#, yang boleh memadankan teks dan visual dengan lebih baik. Sebab paling penting untuk peralihan daripada tugas khusus kepada keupayaan umum ialah kos membangunkan model baharu untuk setiap tugasan baharu adalah terlalu tinggi

Yang ketiga adalah daripada statik model kepada model pantas Model, LLM boleh mengambil bahasa yang berbeza dan isyarat kontekstual sebagai input dan menghasilkan output yang dikehendaki oleh pengguna tanpa penalaan halus. Model visi umum yang ingin kita bina harus mempunyai keupayaan pembelajaran kontekstual yang sama.

4. Model besar berbilang modal yang disokong oleh LLM

Pertama, kami menjalankan kajian mendalam tentang latar belakang dan contoh yang mewakili, membincangkan kemajuan penyelidikan pelbagai mod OpenAI, dan mengenal pasti jurang penyelidikan sedia ada dalam bidang ini.

Seterusnya, penulis meneliti secara terperinci kepentingan penalaan halus arahan dalam model bahasa besar.

Kemudian, penulis membincangkan penalaan halus arahan dalam model besar berbilang modal, termasuk prinsip, kepentingan dan aplikasi.

Akhirnya, kami juga akan membincangkan beberapa topik lanjutan dalam bidang model multimodal untuk pemahaman yang lebih mendalam, termasuk:

Lebih banyak model di luar penglihatan dan mod bahasa, konteks multi-modal pembelajaran, latihan parameter yang cekap dan Penanda Aras.

5. Agen multimodal

Agen multimodal yang dipanggil adalah kaedah yang menghubungkan pakar multimodal yang berbeza dengan LLM untuk menyelesaikan masalah pemahaman multimodal yang kompleks.

Dalam bahagian ini, penulis terutamanya membawa anda menyemak transformasi model ini dan merumuskan perbezaan asas antara kaedah ini dan kaedah tradisional.

Mengambil MM-REACT sebagai contoh, kami akan memperincikan cara pendekatan ini berfungsi

Kami meringkaskan lagi pendekatan komprehensif tentang cara membina ejen multimodal, dan apakah keupayaan yang muncul dalam pemahaman multimodal. Pada masa yang sama, kami juga merangkumi cara meluaskan keupayaan ini dengan mudah, termasuk LLM terkini dan paling berkuasa dan berpotensi berjuta-juta alat

Sudah tentu, terdapat juga beberapa topik lanjutan yang dibincangkan pada penghujungnya, termasuk bagaimana untuk Meningkatkan/menilai ejen pelbagai modal, pelbagai aplikasi yang dibina daripadanya, dsb.

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen Pengenalan Pengarang

Terdapat 7 pengarang dalam laporan ini

#🎜🎜🎜##🎜🎜🎜##🎜🎜 🎜🎜#Pemula dan keseluruhan orang yang bertanggungjawab ialah Chunyuan Li.

Beliau ialah penyelidik utama di Microsoft Redmond dan memegang Ph.D dari Universiti Duke, termasuk latihan pra-latihan berskala besar dalam CV dan NLP . Beliau bertanggungjawab untuk pengenalan pembukaan, rumusan penutup, dan penulisan bab "Model Besar Berbilang Modal Dilatih Menggunakan LLM". Kandungan yang ditulis semula: Dia bertanggungjawab untuk menulis pengenalan dan kesimpulan artikel, serta bab tentang "Model besar berbilang mod yang dilatih menggunakan LLM"

#🎜 🎜#

Terdapat 4 pengarang teras:

Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen

Zhe Gan#🎜🎜🎜#🎜🎜 sedang bekerja dalam Apple AI/ML, bertanggungjawab untuk penglihatan berskala besar dan penyelidikan model asas berbilang modal. Sebelum ini, beliau adalah penyelidik utama Microsoft Azure AI. Beliau lulus dari Universiti Peking dengan ijazah sarjana muda dan Ph.D dari Universiti Duke.

Zhengyuan Yang

Beliau ialah penyelidik kanan di Microsoft, lulus dari Universiti Rochester dan menerima penghormatan seperti ACM SIGMM Kedoktoran Cemerlang Anugerah. Beliau belajar di Universiti Sains dan Teknologi China untuk ijazah sarjana mudanya. PhD dari Institut Teknologi Georgia.

Linjie Li

(Perempuan)

# &🎜Microsoft Cloud Penyelidik dalam Kumpulan Visi, lulus dari Universiti Purdue dengan ijazah sarjana.

Mereka masing-masing bertanggungjawab untuk menulis baki empat bab tema.

Alamat ringkasan: https://arxiv.org/abs/2309.10020

Atas ialah kandungan terperinci Semakan paling komprehensif tentang model besar multimodal ada di sini! 7 penyelidik Microsoft bekerjasama bersungguh-sungguh, 5 tema utama, 119 halaman dokumen. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Assassin's Creed Shadows: Penyelesaian Riddle Seashell

4 minggu yang lalu By DDD

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Di mana untuk mencari kad kunci kawalan kren di atomfall

4 minggu yang lalu By DDD

<🎜>: Rails Dead - Cara Melengkapkan Setiap Cabaran

1 bulan yang lalu By DDD

Panduan Atomfall: Lokasi Item, Panduan Pencarian, dan Petua

1 bulan yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7695

Tutorial Java

1640

Tutorial CakePHP

1393

Tutorial Laravel

1287

Tutorial PHP

1229

Tunjukkan Lagi

Related knowledge

Gunakan ddrescue untuk memulihkan data pada Linux Mar 20, 2024 pm 01:37 PM

DDREASE ialah alat untuk memulihkan data daripada fail atau peranti sekat seperti cakera keras, SSD, cakera RAM, CD, DVD dan peranti storan USB. Ia menyalin data dari satu peranti blok ke peranti lain, meninggalkan blok data yang rosak dan hanya memindahkan blok data yang baik. ddreasue ialah alat pemulihan yang berkuasa yang automatik sepenuhnya kerana ia tidak memerlukan sebarang gangguan semasa operasi pemulihan. Selain itu, terima kasih kepada fail peta ddasue, ia boleh dihentikan dan disambung semula pada bila-bila masa. Ciri-ciri utama lain DDREASE adalah seperti berikut: Ia tidak menimpa data yang dipulihkan tetapi mengisi jurang sekiranya pemulihan berulang. Walau bagaimanapun, ia boleh dipotong jika alat itu diarahkan untuk melakukannya secara eksplisit. Pulihkan data daripada berbilang fail atau blok kepada satu

Sumber terbuka! Di luar ZoeDepth! DepthFM: Anggaran kedalaman monokular yang cepat dan tepat! Apr 03, 2024 pm 12:04 PM

0. Apakah fungsi artikel ini? Kami mencadangkan DepthFM: model anggaran kedalaman monokular generatif yang serba boleh dan pantas. Sebagai tambahan kepada tugas anggaran kedalaman tradisional, DepthFM juga menunjukkan keupayaan terkini dalam tugas hiliran seperti mengecat kedalaman. DepthFM cekap dan boleh mensintesis peta kedalaman dalam beberapa langkah inferens. Mari kita baca karya ini bersama-sama ~ 1. Tajuk maklumat kertas: DepthFM: FastMonocularDepthEstimationwithFlowMatching Pengarang: MingGui, JohannesS.Fischer, UlrichPrestel, PingchuanMa, Dmytr

Cara menggunakan fungsi penapis Excel dengan berbilang syarat Feb 26, 2024 am 10:19 AM

Jika anda perlu tahu cara menggunakan penapisan dengan berbilang kriteria dalam Excel, tutorial berikut akan membimbing anda melalui langkah-langkah untuk memastikan anda boleh menapis dan mengisih data anda dengan berkesan. Fungsi penapisan Excel sangat berkuasa dan boleh membantu anda mengekstrak maklumat yang anda perlukan daripada sejumlah besar data. Fungsi ini boleh menapis data mengikut syarat yang anda tetapkan dan memaparkan hanya bahagian yang memenuhi syarat, menjadikan pengurusan data lebih cekap. Dengan menggunakan fungsi penapis, anda boleh mencari data sasaran dengan cepat, menjimatkan masa dalam mencari dan menyusun data. Fungsi ini bukan sahaja boleh digunakan pada senarai data ringkas, tetapi juga boleh ditapis berdasarkan berbilang syarat untuk membantu anda mencari maklumat yang anda perlukan dengan lebih tepat. Secara keseluruhan, fungsi penapisan Excel adalah sangat berguna

Google gembira: prestasi JAX mengatasi Pytorch dan TensorFlow! Ia mungkin menjadi pilihan terpantas untuk latihan inferens GPU Apr 01, 2024 pm 07:46 PM

Prestasi JAX, yang dipromosikan oleh Google, telah mengatasi Pytorch dan TensorFlow dalam ujian penanda aras baru-baru ini, menduduki tempat pertama dalam 7 penunjuk. Dan ujian tidak dilakukan pada TPU dengan prestasi JAX terbaik. Walaupun dalam kalangan pembangun, Pytorch masih lebih popular daripada Tensorflow. Tetapi pada masa hadapan, mungkin lebih banyak model besar akan dilatih dan dijalankan berdasarkan platform JAX. Model Baru-baru ini, pasukan Keras menanda aras tiga hujung belakang (TensorFlow, JAX, PyTorch) dengan pelaksanaan PyTorch asli dan Keras2 dengan TensorFlow. Pertama, mereka memilih satu set arus perdana

Kelajuan Internet Data Selular Perlahan pada iPhone: Pembetulan May 03, 2024 pm 09:01 PM

Menghadapi ketinggalan, sambungan data mudah alih perlahan pada iPhone? Biasanya, kekuatan internet selular pada telefon anda bergantung pada beberapa faktor seperti rantau, jenis rangkaian selular, jenis perayauan, dsb. Terdapat beberapa perkara yang boleh anda lakukan untuk mendapatkan sambungan Internet selular yang lebih pantas dan boleh dipercayai. Betulkan 1 – Paksa Mulakan Semula iPhone Kadangkala, paksa memulakan semula peranti anda hanya menetapkan semula banyak perkara, termasuk sambungan selular. Langkah 1 – Hanya tekan kekunci naikkan kelantangan sekali dan lepaskan. Seterusnya, tekan kekunci Turun Kelantangan dan lepaskannya semula. Langkah 2 - Bahagian seterusnya proses adalah untuk menahan butang di sebelah kanan. Biarkan iPhone selesai dimulakan semula. Dayakan data selular dan semak kelajuan rangkaian. Semak semula Betulkan 2 – Tukar mod data Walaupun 5G menawarkan kelajuan rangkaian yang lebih baik, ia berfungsi lebih baik apabila isyarat lemah

Daya hidup kecerdasan super membangkitkan! Tetapi dengan kedatangan AI yang mengemas kini sendiri, ibu tidak perlu lagi bimbang tentang kesesakan data Apr 29, 2024 pm 06:55 PM

Saya menangis hingga mati. Dunia sedang membina model besar. Data di Internet tidak mencukupi. Model latihan kelihatan seperti "The Hunger Games", dan penyelidik AI di seluruh dunia bimbang tentang cara memberi makan data ini kepada pemakan yang rakus. Masalah ini amat ketara dalam tugas berbilang modal. Pada masa mereka mengalami kerugian, pasukan pemula dari Jabatan Universiti Renmin China menggunakan model baharu mereka sendiri untuk menjadi yang pertama di China untuk menjadikan "suapan data yang dijana model itu sendiri" menjadi kenyataan. Selain itu, ia merupakan pendekatan serampang dua mata dari segi pemahaman dan sisi penjanaan Kedua-dua pihak boleh menjana data baharu berbilang modal yang berkualiti tinggi dan memberikan maklum balas data kepada model itu sendiri. Apakah model? Awaker 1.0, model berbilang modal besar yang baru sahaja muncul di Forum Zhongguancun. Siapa pasukan itu? Enjin Sophon. Diasaskan oleh Gao Yizhao, pelajar kedoktoran di Sekolah Kecerdasan Buatan Hillhouse Universiti Renmin.

Robot Tesla bekerja di kilang, Musk: Tahap kebebasan tangan akan mencapai 22 tahun ini! May 06, 2024 pm 04:13 PM

Video terbaru robot Tesla Optimus dikeluarkan, dan ia sudah boleh berfungsi di kilang. Pada kelajuan biasa, ia mengisih bateri (bateri 4680 Tesla) seperti ini: Pegawai itu juga mengeluarkan rupanya pada kelajuan 20x - pada "stesen kerja" kecil, memilih dan memilih dan memilih: Kali ini ia dikeluarkan Salah satu sorotan video itu ialah Optimus menyelesaikan kerja ini di kilang, sepenuhnya secara autonomi, tanpa campur tangan manusia sepanjang proses. Dan dari perspektif Optimus, ia juga boleh mengambil dan meletakkan bateri yang bengkok, memfokuskan pada pembetulan ralat automatik: Berkenaan tangan Optimus, saintis NVIDIA Jim Fan memberikan penilaian yang tinggi: Tangan Optimus adalah robot lima jari di dunia paling cerdik. Tangannya bukan sahaja boleh disentuh

Robot pertama yang menyelesaikan tugas manusia secara autonomi muncul, dengan lima jari fleksibel dan kelajuan manusia luar biasa, dan model besar menyokong latihan angkasa maya Mar 11, 2024 pm 12:10 PM

Minggu ini, FigureAI, sebuah syarikat robotik yang dilaburkan oleh OpenAI, Microsoft, Bezos, dan Nvidia, mengumumkan bahawa ia telah menerima hampir $700 juta dalam pembiayaan dan merancang untuk membangunkan robot humanoid yang boleh berjalan secara bebas dalam tahun hadapan. Dan Optimus Prime Tesla telah berulang kali menerima berita baik. Tiada siapa yang meragui bahawa tahun ini akan menjadi tahun apabila robot humanoid meletup. SanctuaryAI, sebuah syarikat robotik yang berpangkalan di Kanada, baru-baru ini mengeluarkan robot humanoid baharu, Phoenix. Pegawai mendakwa bahawa ia boleh menyelesaikan banyak tugas secara autonomi pada kelajuan yang sama seperti manusia. Pheonix, robot pertama di dunia yang boleh menyelesaikan tugas secara autonomi pada kelajuan manusia, boleh mencengkam, menggerakkan dan meletakkan setiap objek secara elegan di sisi kiri dan kanannya dengan perlahan. Ia boleh mengenal pasti objek secara autonomi

See all articles