Jadual Kandungan
1. Pengenalan
2.3 Convolutional Neural Network (CNN)
3.1 Percantuman data multi-modal kepercayaan mendalam berasaskan rangkaian
3.3.1 Contoh 6
Baru-baru ini, beberapa model pembelajaran ciri pelbagai mod berasaskan DBN baharu telah dicadangkan. Contohnya, Amer, Shields, Siddiquie, dan Tamrakar (2018) mencadangkan pendekatan hibrid untuk pengesanan acara berjujukan, di mana RBM bersyarat digunakan untuk mengekstrak ciri modal dan rentas mod dengan maklumat label diskriminatif tambahan. Al-Waisy, Qahwaji, Ipson, dan Al-Fahdawi (2018) memperkenalkan pendekatan multimodal untuk pengenalan wajah. Dalam pendekatan ini, model berasaskan DBN digunakan untuk memodelkan pengedaran multimodal ciri buatan tangan tempatan yang ditangkap oleh transformasi Curvelet, yang boleh menggabungkan kelebihan ciri tempatan dan ciri mendalam (Al-Waisy et al., 2018).
Model multimodal berasaskan DBN ini menggunakan rangkaian graf probabilistik untuk menukar perwakilan khusus modaliti kepada ciri semantik dalam ruang kongsi. Kemudian, pengagihan bersama ke atas modaliti dimodelkan berdasarkan ciri-ciri ruang kongsi. Model multimodal berasaskan DBN ini lebih fleksibel dan teguh dalam strategi pembelajaran tanpa penyeliaan, separa penyeliaan dan penyeliaan. Ia sesuai untuk menangkap ciri bermaklumat data input. Walau bagaimanapun, mereka mengabaikan topologi spatial dan temporal data multimodal.
3.3 Gabungan data berbilang modal berdasarkan rangkaian neural konvolusi
3.4.3 Ringkasan
3.4 Gabungan data berbilang modal berdasarkan rangkaian saraf berulang
Untuk menjana kapsyen imej, Mao et al. Rangkaian saraf berulang berbilang mod ini boleh merapatkan korelasi kebarangkalian antara imej dan ayat. Ia menangani had karya terdahulu yang tidak boleh menjana kapsyen imej baharu kerana ia mendapatkan kapsyen yang sepadan dalam pangkalan data ayat berdasarkan pemetaan teks imej yang dipelajari. Tidak seperti kerja sebelumnya, model saraf berulang multimodal (MRNN) mempelajari pengedaran bersama ke atas ruang semantik yang diberikan perkataan dan imej. Apabila imej dipersembahkan, ia menjana ayat verbatim berdasarkan taburan bersama yang ditangkap. Secara khusus, rangkaian saraf berulang multimodal terdiri daripada subnet bahasa, subnet visual dan subnet multimodal, seperti yang ditunjukkan dalam Rajah 7. Subrangkaian bahasa terdiri daripada bahagian pembenaman perkataan dua lapisan yang menangkap perwakilan khusus tugasan yang cekap dan bahagian saraf berulang satu lapisan yang memodelkan pergantungan temporal ayat. Subnet penglihatan pada asasnya ialah rangkaian saraf konvolusi yang mendalam, seperti Alexnet, Resnet, atau Inception, yang mengekod imej berdimensi tinggi kepada perwakilan padat. Akhir sekali, subrangkaian multimodal ialah rangkaian tersembunyi yang memodelkan pengedaran semantik bersama bahasa yang dipelajari dan perwakilan visual. . merapatkan model antara data visual dan tekstual Hubungan antara keadaan, model penjajaran pelbagai modal dicadangkan (Karpathy & Li, 2017). Untuk mencapai matlamat ini, satu skim dwi telah dicadangkan. Pertama, model pembenaman semantik visual direka untuk menjana set data latihan berbilang modal. RNN multimodal kemudiannya dilatih pada set data ini untuk menjana perihalan imej yang kaya.
Dalam model pembenaman semantik visual, rangkaian neural convolutional serantau digunakan untuk mendapatkan perwakilan imej yang kaya yang mengandungi maklumat yang mencukupi untuk kandungan yang sepadan dengan ayat. RNN dwiarah kemudiannya digunakan untuk mengekod setiap ayat ke dalam vektor padat dengan dimensi yang sama seperti perwakilan imej. Tambahan pula, fungsi pemarkahan multimodal dipersembahkan untuk mengukur persamaan semantik antara imej dan ayat. Akhir sekali, kaedah medan rawak Markov digunakan untuk menjana set data multimodal.
4 Ringkasan dan Tinjauan
Rumah Peranti teknologi AI Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

Apr 08, 2024 am 09:10 AM
AI pembelajaran yang mendalam lsp subnet

1. Pengenalan

Pengalaman kita di dunia adalah multimodal - kita melihat objek, mendengar bunyi, merasakan tekstur, bau dan rasa. Modaliti merujuk kepada cara keadaan tertentu berlaku atau dialami, dan apabila soalan penyelidikan mengandungi pelbagai modaliti, ia dicirikan sebagai multimodal. Untuk AI membuat kemajuan dalam memahami dunia di sekeliling kita, ia perlu dapat mentafsir isyarat multimodal ini secara serentak.

Sebagai contoh, imej sering dikaitkan dengan tag dan penjelasan teks, dan teks mengandungi imej untuk menyatakan idea utama artikel dengan lebih jelas. Modaliti yang berbeza mempunyai sifat statistik yang sangat berbeza. Data ini dipanggil data besar multimodal dan mengandungi maklumat multimodal dan cross-modal yang kaya, yang menimbulkan cabaran besar kepada kaedah gabungan data tradisional.

Dalam semakan ini, kami akan memperkenalkan beberapa model pembelajaran mendalam yang inovatif untuk menggabungkan data besar pelbagai mod ini. Memandangkan data besar multimodal semakin diterokai, masih terdapat beberapa cabaran yang perlu ditangani. Oleh itu, artikel ini menyediakan ulasan tentang pembelajaran mendalam untuk gabungan data multimodal, yang bertujuan untuk menyediakan pembaca (tanpa mengira komuniti asal mereka) dengan prinsip asas kaedah gabungan pembelajaran mendalam multimodal dan memberi inspirasi kepada jenis data multimodal baharu untuk teknologi Fusion pembelajaran mendalam.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

Menggabungkan modaliti atau jenis maklumat yang berbeza untuk meningkatkan prestasi melalui pembelajaran mendalam pelbagai mod secara intuitif merupakan tugas yang menarik, tetapi dalam amalan, cara menggabungkan tahap hingar yang berbeza Konflik antara modaliti adalah satu cabaran. Tambahan pula, model tersebut mempunyai kesan kuantitatif yang berbeza pada keputusan ramalan. Pendekatan yang paling biasa dalam amalan adalah untuk menggabungkan benam peringkat tinggi bagi input yang berbeza dan kemudian menggunakan softmax.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

Masalah dengan pendekatan ini ialah ia akan memberikan kepentingan yang sama kepada semua sub-rangkaian/corak, yang sangat tidak mungkin dalam situasi dunia sebenar. Gabungan wajaran sub-rangkaian perlu digunakan di sini supaya setiap modaliti input boleh mempunyai sumbangan pembelajaran (Theta) kepada ramalan output.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

2. Seni bina pembelajaran mendalam perwakilan

Dalam bahagian ini, kami akan memperkenalkan seni bina pembelajaran mendalam yang mewakili model pembelajaran mendalam gabungan data pelbagai mod. Secara khusus, takrifan seni bina dalam, pengiraan suapan hadapan dan pengiraan perambatan belakang, serta variasi tipikal diberikan. Model perwakilan diringkaskan.

Jadual 1: Ringkasan model pembelajaran mendalam yang mewakili.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

2.1 Deep Belief Network (DBN)

Restricted Boltzmann Machine (RBM) ialah blok asas rangkaian kepercayaan mendalam (Zhang, Ding, Zhang, & Xue, 2018; Bengio, 2009). RBM ialah varian khas mesin Boltzmann (lihat Rajah 1), yang terdiri daripada lapisan kelihatan dan lapisan tersembunyi terdapat sambungan penuh antara lapisan kelihatan dan lapisan tersembunyi, tetapi tiada sambungan antara unit dalam yang sama; lapisan. RBM juga merupakan model generatif yang menggunakan fungsi tenaga untuk menangkap taburan kebarangkalian antara unit kelihatan dan tersembunyi. Dengan menggunakan derivatif fungsi tenaga, taburan kebarangkalian unit antara unit yang kelihatan dan tersembunyi boleh dikira. RBM boleh menangkap taburan kebarangkalian antara elemen individu dan unit tersembunyi. Tiada sambungan antara unit dalam RBM, kecuali tiada sambungan antara unit dalam lapisan yang sama, dan semua unit disambungkan melalui sambungan penuh. RBM juga menggunakan fungsi tenaga untuk mengira taburan kebarangkalian antara unit kelihatan dan tersembunyi. Menggunakan fungsi kebarangkalian RBM, taburan kebarangkalian antara unit boleh ditangkap.

Baru-baru ini, beberapa RBM canggih telah dicadangkan untuk meningkatkan prestasi. Sebagai contoh, untuk mengelakkan lampiran rangkaian, Chen, Zhang, Yeung, dan Chen (2017) mereka bentuk mesin Boltzmann yang jarang yang mempelajari struktur rangkaian berdasarkan pokok pendam hierarki. Ning, Pittman, dan Shen (2018) memperkenalkan algoritma divergensi kontrastif pantas ke dalam RBM, di mana penapisan berasaskan sempadan dan produk delta digunakan untuk mengurangkan pengiraan produk titik berlebihan dalam pengiraan. Untuk melindungi struktur dalaman data multidimensi, Ju et al (2019) mencadangkan tensor RBM untuk mempelajari taburan peringkat tinggi yang tersembunyi dalam data multidimensi, di mana penguraian tensor digunakan untuk mengelakkan kutukan dimensi.

DBM ialah seni bina dalam yang tipikal, yang disusun oleh berbilang RBM (Hinton & Salakhutdinov, 2006). Ia adalah model generatif berdasarkan strategi latihan pra-latihan dan penalaan halus yang boleh memanfaatkan tenaga untuk menangkap pengedaran sambungan antara objek yang boleh dilihat dan label yang sepadan. Dalam pra-latihan, setiap lapisan tersembunyi dimodelkan secara rakus sebagai RBM yang dilatih dalam dasar tanpa pengawasan. Selepas itu, setiap lapisan tersembunyi dilatih lagi melalui maklumat diskriminasi label latihan dalam strategi yang diselia. DBN telah digunakan untuk menyelesaikan masalah dalam banyak bidang, seperti pengurangan dimensi data, pembelajaran perwakilan dan pencincangan semantik. DBM wakil ditunjukkan dalam Rajah 1. Rajah 1 18; , Lu, Tan, dan Zhou, 2016). Ia boleh menangkap ciri ringkas input dengan mengubah input asal menjadi perwakilan perantaraan dengan cara yang tidak diawasi. SAE telah digunakan secara meluas dalam banyak bidang, termasuk pengurangan dimensi (Wang, Yao, & Zhao, 2016), pengecaman imej (Jia, Shao, Li, Zhao, & Fu, 2018) dan pengelasan teks (Chen & Zaki, 2017). Rajah 2 menunjukkan wakil SAE.​

Rajah 2:

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

2.3 Convolutional Neural Network (CNN)

DBN dan SAE ialah rangkaian neural yang disambungkan sepenuhnya. Dalam kedua-dua rangkaian, setiap neuron dalam lapisan tersembunyi disambungkan kepada setiap neuron dalam lapisan sebelumnya, dan topologi ini mencipta sejumlah besar sambungan. Untuk melatih berat sambungan ini, rangkaian saraf yang disambungkan sepenuhnya memerlukan sejumlah besar objek latihan untuk mengelakkan pemasangan berlebihan dan kekurangan, yang memerlukan pengiraan intensif. Di samping itu, topologi bersambung sepenuhnya tidak mengambil kira maklumat kedudukan ciri-ciri yang terkandung di antara neuron. Oleh itu, rangkaian saraf dalam yang disambungkan sepenuhnya (DBN, SAE dan variannya) tidak dapat mengendalikan data berdimensi tinggi, terutamanya imej besar dan data audio yang besar.

Rangkaian saraf konvolusi ialah rangkaian dalam khas yang mengambil kira topologi setempat data (Li, Xia, Du, Lin, & Samat, 2017; Sze, Chen, Yang, & Emer, 2017). Rangkaian saraf konvolusi termasuk rangkaian bersambung sepenuhnya dan rangkaian terhad yang mengandungi lapisan konvolusi dan lapisan gabungan. Rangkaian terkekang menggunakan operasi lilitan dan pengumpulan untuk mencapai medan penerimaan tempatan dan pengurangan parameter. Seperti DBN dan SAE, rangkaian saraf konvolusi dilatih melalui algoritma penurunan kecerunan stokastik. Ia telah membuat kemajuan besar dalam pengecaman imej perubatan (Maggiori, Tarabalka, Charpiat, & Alliez, 2017) dan analisis semantik (Hu, Lu, Li, & Chen, 2014). Wakil CNN ditunjukkan dalam Rajah 3. Rajah 3 dan Hinton, 2011). Tidak seperti seni bina ke hadapan dalam (iaitu, DBN, SAE, dan CNN), ia bukan sahaja memetakan corak input kepada hasil output, tetapi juga memindahkan keadaan tersembunyi kepada output dengan memanfaatkan sambungan antara unit tersembunyi (Graves & Schmidhuber, 2008). Dengan menggunakan sambungan tersembunyi ini, RNN memodelkan kebergantungan temporal, dengan itu berkongsi parameter antara objek dalam dimensi temporal. Ia telah diaplikasikan dalam pelbagai bidang seperti analisis pertuturan (Mulder, Bethard, & Moens, 2015), kapsyen imej (Xu et al., 2015), dan terjemahan bahasa (Graves & Jaitly, 2014), mencapai prestasi cemerlang. Sama seperti seni bina ke hadapan dalam, pengiraannya juga termasuk peringkat hantaran ke hadapan dan perambatan belakang. Dalam pengiraan hantaran hadapan, RNN memperoleh input dan keadaan tersembunyi secara serentak. Dalam pengiraan perambatan belakang, ia menggunakan algoritma perambatan belakang temporal untuk merambat belakang kehilangan langkah masa. Rajah 4 menunjukkan wakil RNN. . model pembelajaran mendalam gabungan data berbilang modal. Mereka dibahagikan kepada empat kategori berdasarkan seni bina pembelajaran mendalam yang digunakan. Jadual 2 meringkaskan model pembelajaran mendalam multimodal perwakilan.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal! Jadual 2:

Ringkasan model pembelajaran mendalam pelbagai mod yang mewakili.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

3.1 Percantuman data multi-modal kepercayaan mendalam berasaskan rangkaian

3.1.1 Contoh 1

Srivastava dan Salakhutdinov (2012) mencadangkan model pembelajaran model mendalam Boltz fusion berasaskan pelbagai model generasi mempelajari perwakilan multimodal dengan menyesuaikan pengedaran bersama data multimodal merentas pelbagai modaliti (seperti imej, teks dan audio).

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

Setiap modul DBN berbilang modal yang dicadangkan dimulakan dalam cara lapisan demi lapisan tanpa pengawasan, dan kaedah penghampiran berasaskan MCMC digunakan untuk latihan model.

Untuk menilai perwakilan multi-modal yang dipelajari, sejumlah besar tugas dilakukan, seperti menjana tugasan modal yang hilang, membuat kesimpulan tugas perwakilan bersama dan tugas diskriminasi. Eksperimen mengesahkan sama ada perwakilan multimodal yang dipelajari memenuhi sifat yang diperlukan. . dalam data berbilang modal. Khususnya, untuk menangani batasan yang disebabkan oleh kaedah pembelajaran ciri cetek, DBN digunakan untuk mempelajari perwakilan mendalam bagi setiap modaliti dengan memindahkan perwakilan khusus domain kepada perwakilan abstrak hierarki. Kemudian, RBM satu lapisan dibina pada vektor bercantum, yang merupakan gabungan linear bagi perwakilan abstrak hierarki daripada setiap modaliti. Ia digunakan untuk mempelajari perwakilan multimodal dengan membina taburan bersama ciri multimodal yang berbeza. Akhir sekali, model yang dicadangkan dinilai secara meluas pada set data ADNI berdasarkan tiga diagnosis biasa, mencapai ketepatan diagnostik terkini. . Ketahui perwakilan berbilang modal daripada jenis campuran, skor penampilan dan modaliti cacat. Dalam model dalam pelbagai sumber pose manusia, tiga modaliti yang digunakan secara meluas diekstrak daripada model struktur imej yang menggabungkan pelbagai bahagian badan berdasarkan teori medan rawak bersyarat. Untuk mendapatkan data multimodal, model struktur grafik dilatih melalui mesin vektor sokongan linear. Setiap satu daripada tiga ciri kemudian dimasukkan ke dalam model Boltzmann terhad dua lapisan untuk menangkap perwakilan abstrak ruang pose tertib tinggi daripada perwakilan khusus ciri. Melalui pemulaan tanpa pengawasan, setiap model Boltzmann terhad khusus modaliti menangkap gambaran intrinsik ruang global. Kemudian, RBM digunakan untuk mempelajari lebih lanjut perwakilan pose manusia berdasarkan vektor gabungan jenis pengadunan peringkat tinggi, skor penampilan dan perwakilan ubah bentuk. Untuk melatih model pembelajaran mendalam berbilang sumber yang dicadangkan, fungsi objektif khusus tugas yang mengambil kira kedudukan badan dan pengesanan manusia direka bentuk. Model yang dicadangkan disahkan pada LSP, PARSE dan UIUC dan menghasilkan peningkatan sehingga 8.6%.​

Baru-baru ini, beberapa model pembelajaran ciri pelbagai mod berasaskan DBN baharu telah dicadangkan. Contohnya, Amer, Shields, Siddiquie, dan Tamrakar (2018) mencadangkan pendekatan hibrid untuk pengesanan acara berjujukan, di mana RBM bersyarat digunakan untuk mengekstrak ciri modal dan rentas mod dengan maklumat label diskriminatif tambahan. Al-Waisy, Qahwaji, Ipson, dan Al-Fahdawi (2018) memperkenalkan pendekatan multimodal untuk pengenalan wajah. Dalam pendekatan ini, model berasaskan DBN digunakan untuk memodelkan pengedaran multimodal ciri buatan tangan tempatan yang ditangkap oleh transformasi Curvelet, yang boleh menggabungkan kelebihan ciri tempatan dan ciri mendalam (Al-Waisy et al., 2018).

3.1.4 Ringkasan

Model multimodal berasaskan DBN ini menggunakan rangkaian graf probabilistik untuk menukar perwakilan khusus modaliti kepada ciri semantik dalam ruang kongsi. Kemudian, pengagihan bersama ke atas modaliti dimodelkan berdasarkan ciri-ciri ruang kongsi. Model multimodal berasaskan DBN ini lebih fleksibel dan teguh dalam strategi pembelajaran tanpa penyeliaan, separa penyeliaan dan penyeliaan. Ia sesuai untuk menangkap ciri bermaklumat data input. Walau bagaimanapun, mereka mengabaikan topologi spatial dan temporal data multimodal.

. model untuk gabungan data berbilang modal. Model pembelajaran mendalam ini bertujuan untuk menyelesaikan dua masalah gabungan data: pembelajaran perwakilan mod silang dan perkongsian mod. Yang pertama bertujuan untuk memanfaatkan pengetahuan daripada modaliti lain untuk menangkap perwakilan modal tunggal yang lebih baik, manakala yang kedua mempelajari korelasi yang kompleks antara modaliti di peringkat pertengahan. Untuk mencapai matlamat ini, tiga senario pembelajaran—pembelajaran multimodal, cross-modal dan shared-modal—direka bentuk, seperti yang ditunjukkan dalam Jadual 3 dan Rajah 6.

Rajah 6:

Seni bina untuk pembelajaran mod berbilang modal, silang modal dan perkongsian.

Jadual 3: Tetapan untuk pembelajaran pelbagai mod.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!Dalam senario pembelajaran pelbagai mod, spektrogram audio dan bingkai video disambungkan ke dalam vektor secara linear. Vektor bercantum dimasukkan ke dalam Mesin Boltzmann Terhad Jarang (SRBM) untuk mempelajari korelasi antara audio dan video. Model ini hanya boleh mempelajari perwakilan gabungan bayangan bagi pelbagai modaliti kerana korelasi itu tersirat dalam perwakilan dimensi tinggi tahap asal dan SRBM satu lapisan tidak boleh memodelkannya. Diilhamkan oleh ini, vektor gabungan perwakilan peringkat pertengahan dimasukkan ke dalam SRBM untuk memodelkan korelasi pelbagai modaliti, dengan itu menunjukkan prestasi yang lebih baik.

Dalam senario pembelajaran merentas mod, pengekod auto berbilang mod bertindan dalam dicadangkan untuk mempelajari secara eksplisit perkaitan antara modaliti. Secara khusus, kedua-dua audio dan video dibentangkan sebagai input dalam pembelajaran ciri, dan hanya satu daripadanya menjadi input kepada model dalam latihan dan ujian yang diselia. Model ini dimulakan dalam cara pembelajaran pelbagai mod dan boleh mensimulasikan hubungan silang mod dengan baik.

Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!

Dalam perwakilan modal bersama, didorong oleh penolakan pengekod auto, pengekod auto bertindan dalam khusus modaliti diperkenalkan untuk meneroka perwakilan bersama antara modaliti, terutamanya dalam Apabila modal tiada. Set data latihan, yang diperbesarkan dengan menggantikan salah satu modaliti dengan sifar, dimasukkan ke dalam model yang dipelajari ciri.​

Akhir sekali, percubaan terperinci dijalankan pada set data CUAVE dan AVLetters untuk menilai prestasi pembelajaran mendalam berbilang mod dalam pembelajaran ciri khusus tugas. . menangkap hubungan gabungan antara imej dan pose. Khususnya, pengekod auto dalam pelbagai mod yang dicadangkan dilatih melalui strategi tiga peringkat untuk membina pemetaan tak linear antara imej 2D dan pose 3D. Dalam peringkat gabungan ciri, perwakilan peringkat rendah hipergraf berbilang paparan dieksploitasi untuk membina perwakilan 2D dalaman daripada siri ciri imej (seperti histogram kecerunan berorientasikan dan konteks bentuk) berdasarkan pembelajaran manifold. Pada peringkat kedua, pengekod auto satu lapisan dilatih untuk mempelajari perwakilan abstrak yang digunakan untuk memulihkan pose 3D dengan membina semula ciri antara imej 2D. Sementara itu, pengekod automatik satu lapisan dilatih dengan cara yang sama untuk mempelajari perwakilan abstrak pose 3D. Selepas memperoleh perwakilan abstrak setiap modaliti tunggal, rangkaian saraf digunakan untuk mempelajari korelasi multimodal antara imej 2D dan pose 3D dengan meminimumkan jarak Euclidean kuasa dua antara dua perwakilan bersama modal. Pembelajaran pengekod auto dalam pelbagai mod yang dicadangkan terdiri daripada peringkat permulaan dan penalaan halus. Dalam pemulaan, parameter setiap sub-bahagian autoenkoder dalam berbilang mod disalin daripada pengekod auto dan rangkaian saraf yang sepadan. Kemudian, parameter keseluruhan model diperhalusi lagi melalui algoritma penurunan kecerunan stokastik untuk membina pose tiga dimensi daripada imej dua dimensi yang sepadan. . Oleh kerana ia berdasarkan SAE, yang merupakan model yang disambungkan sepenuhnya, banyak parameter perlu dilatih. Tambahan pula, mereka mengabaikan topologi spatial dan temporal dalam data multimodal.

3.3 Gabungan data berbilang modal berdasarkan rangkaian neural konvolusi

3.3.1 Contoh 6

Untuk mensimulasikan taburan pemetaan semantik antara imej dan ayat, Ma, Lu, Shang, dan Li) (2015 dan Li) dicadangkan Rangkaian neural convolutional multi-modal. Untuk menangkap perkaitan semantik sepenuhnya, strategi gabungan tiga peringkat—peringkat perkataan, peringkat peringkat dan peringkat ayat—direka bentuk dalam seni bina hujung ke hujung. Seni bina terdiri daripada subnet pengimejan, subnet yang sepadan dan subnet multimodal. Subnet imej ialah rangkaian neural konvolusi dalam yang mewakili seperti Alexnet dan Inception, yang cekap mengekod input imej ke dalam perwakilan ringkas. Subrangkaian yang sepadan memodelkan perwakilan bersama yang mengaitkan kandungan imej dengan serpihan perkataan ayat dalam ruang semantik. . rangkaian. Rangkaian terdiri daripada submodel bahasa dan submodel visual. Submodel bahasa adalah berdasarkan model langkau-gram, yang boleh memindahkan maklumat teks ke dalam perwakilan padat ruang semantik. Submodel penglihatan ialah rangkaian saraf konvolusional yang mewakili seperti Alexnet, yang telah dilatih terlebih dahulu pada set data ImageNet 1000 kelas untuk menangkap ciri visual. Untuk memodelkan hubungan semantik antara imej dan teks, bahasa dan submodel visual digabungkan melalui lapisan unjuran linear. Setiap submodel dimulakan dengan parameter untuk setiap modaliti. Selepas itu, untuk melatih model multi-modal visual-semantik ini, fungsi kehilangan baharu dicadangkan yang boleh memberikan skor persamaan yang tinggi untuk pasangan imej dan label yang betul dengan menggabungkan persamaan produk titik dan kehilangan kedudukan engsel. Model ini menghasilkan prestasi terkini pada dataset ImageNet, mengelakkan hasil yang tidak munasabah secara semantik.

3.3.3 Ringkasan ​

Model multimodal berdasarkan CNN boleh mempelajari ciri multimodal tempatan antara modaliti melalui medan tempatan dan operasi pengumpulan. Mereka secara eksplisit memodelkan topologi spatial data multimodal. Dan mereka bukan model yang disambungkan sepenuhnya dengan bilangan parameter yang jauh berkurangan.

3.4 Gabungan data berbilang modal berdasarkan rangkaian saraf berulang

3.4.1 Contoh 8

Untuk menjana kapsyen imej, Mao et al. Rangkaian saraf berulang berbilang mod ini boleh merapatkan korelasi kebarangkalian antara imej dan ayat. Ia menangani had karya terdahulu yang tidak boleh menjana kapsyen imej baharu kerana ia mendapatkan kapsyen yang sepadan dalam pangkalan data ayat berdasarkan pemetaan teks imej yang dipelajari. Tidak seperti kerja sebelumnya, model saraf berulang multimodal (MRNN) mempelajari pengedaran bersama ke atas ruang semantik yang diberikan perkataan dan imej. Apabila imej dipersembahkan, ia menjana ayat verbatim berdasarkan taburan bersama yang ditangkap. Secara khusus, rangkaian saraf berulang multimodal terdiri daripada subnet bahasa, subnet visual dan subnet multimodal, seperti yang ditunjukkan dalam Rajah 7. Subrangkaian bahasa terdiri daripada bahagian pembenaman perkataan dua lapisan yang menangkap perwakilan khusus tugasan yang cekap dan bahagian saraf berulang satu lapisan yang memodelkan pergantungan temporal ayat. Subnet penglihatan pada asasnya ialah rangkaian saraf konvolusi yang mendalam, seperti Alexnet, Resnet, atau Inception, yang mengekod imej berdimensi tinggi kepada perwakilan padat. Akhir sekali, subrangkaian multimodal ialah rangkaian tersembunyi yang memodelkan pengedaran semantik bersama bahasa yang dipelajari dan perwakilan visual. . merapatkan model antara data visual dan tekstual Hubungan antara keadaan, model penjajaran pelbagai modal dicadangkan (Karpathy & Li, 2017). Untuk mencapai matlamat ini, satu skim dwi telah dicadangkan. Pertama, model pembenaman semantik visual direka untuk menjana set data latihan berbilang modal. RNN multimodal kemudiannya dilatih pada set data ini untuk menjana perihalan imej yang kaya.

Dalam model pembenaman semantik visual, rangkaian neural convolutional serantau digunakan untuk mendapatkan perwakilan imej yang kaya yang mengandungi maklumat yang mencukupi untuk kandungan yang sepadan dengan ayat. RNN dwiarah kemudiannya digunakan untuk mengekod setiap ayat ke dalam vektor padat dengan dimensi yang sama seperti perwakilan imej. Tambahan pula, fungsi pemarkahan multimodal dipersembahkan untuk mengukur persamaan semantik antara imej dan ayat. Akhir sekali, kaedah medan rawak Markov digunakan untuk menjana set data multimodal.

Dalam RNN berbilang modal, model lanjutan yang lebih berkesan berdasarkan kandungan teks dan input imej dicadangkan. Model multimodal terdiri daripada rangkaian saraf konvolusi yang mengekod input imej dan RNN yang mengekod ciri dan ayat imej. Model ini juga dilatih melalui algoritma penurunan kecerunan stokastik. Kedua-dua model multimodal dinilai secara meluas pada set data Flickr dan Mscoco dan mencapai prestasi terkini.

3.4.3 Ringkasan

Model berbilang modal berdasarkan RNN boleh menganalisis pergantungan masa yang tersembunyi dalam data berbilang modal dengan bantuan pemindahan keadaan eksplisit dalam pengiraan unit tersembunyi. Mereka menggunakan algoritma perambatan belakang temporal untuk melatih parameter. Memandangkan pengiraan dilakukan dalam pemindahan keadaan tersembunyi, sukar untuk disejajarkan pada peranti berprestasi tinggi.

4 Ringkasan dan Tinjauan

Kami meringkaskan model kepada empat kumpulan model pembelajaran mendalam data berbilang modal berdasarkan DBN, SAE, CNN dan RNN. Beberapa kemajuan telah dicapai dengan model perintis ini. Walau bagaimanapun, model ini masih dalam peringkat awal, jadi cabaran masih ada.​

Pertama sekali, terdapat sejumlah besar pemberat bebas dalam model pembelajaran mendalam gabungan data berbilang mod, terutamanya parameter berlebihan yang mempunyai sedikit kesan pada tugas sasaran. Untuk melatih parameter ini yang menangkap struktur ciri data, sejumlah besar data dimasukkan ke dalam model pembelajaran mendalam gabungan data berbilang modal berdasarkan algoritma perambatan belakang, yang intensif secara pengiraan dan memakan masa. Oleh itu, cara mereka bentuk kaedah pemampatan pembelajaran mendalam pelbagai mod baharu berdasarkan strategi pemampatan sedia ada juga merupakan hala tuju penyelidikan yang berpotensi.

Kedua, data multimodal bukan sahaja mengandungi maklumat rentas modal, tetapi juga mengandungi maklumat rentas modal yang kaya. Oleh itu, gabungan pembelajaran mendalam dan strategi gabungan semantik mungkin merupakan satu cara untuk menangani cabaran yang ditimbulkan dengan meneroka data multimodal.​

Ketiga, data berbilang modal dikumpulkan daripada persekitaran dinamik, menunjukkan bahawa data itu tidak pasti. Oleh itu, dengan pertumbuhan pesat data multimodal dinamik, masalah reka bentuk model pembelajaran mendalam multimodal dalam talian dan tambahan untuk gabungan data mesti diselesaikan.

Atas ialah kandungan terperinci Terlalu lengkap! Kajian semula pembelajaran mendalam multimodal!. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini
Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Alat panas

Notepad++7.3.1

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Bytedance Cutting melancarkan keahlian super SVIP: 499 yuan untuk langganan tahunan berterusan, menyediakan pelbagai fungsi AI Bytedance Cutting melancarkan keahlian super SVIP: 499 yuan untuk langganan tahunan berterusan, menyediakan pelbagai fungsi AI Jun 28, 2024 am 03:51 AM

Laman web ini melaporkan pada 27 Jun bahawa Jianying ialah perisian penyuntingan video yang dibangunkan oleh FaceMeng Technology, anak syarikat ByteDance Ia bergantung pada platform Douyin dan pada asasnya menghasilkan kandungan video pendek untuk pengguna platform tersebut Windows , MacOS dan sistem pengendalian lain. Jianying secara rasmi mengumumkan peningkatan sistem keahliannya dan melancarkan SVIP baharu, yang merangkumi pelbagai teknologi hitam AI, seperti terjemahan pintar, penonjolan pintar, pembungkusan pintar, sintesis manusia digital, dsb. Dari segi harga, yuran bulanan untuk keratan SVIP ialah 79 yuan, yuran tahunan ialah 599 yuan (nota di laman web ini: bersamaan dengan 49.9 yuan sebulan), langganan bulanan berterusan ialah 59 yuan sebulan, dan langganan tahunan berterusan ialah 499 yuan setahun (bersamaan dengan 41.6 yuan sebulan) . Di samping itu, pegawai yang dipotong juga menyatakan bahawa untuk meningkatkan pengalaman pengguna, mereka yang telah melanggan VIP asal

Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Untuk menyediakan tanda aras dan sistem penilaian menjawab soalan saintifik dan kompleks baharu untuk model besar, UNSW, Argonne, University of Chicago dan institusi lain bersama-sama melancarkan rangka kerja SciQAG Jul 25, 2024 am 06:42 AM

Editor |ScienceAI Question Answering (QA) set data memainkan peranan penting dalam mempromosikan penyelidikan pemprosesan bahasa semula jadi (NLP). Set data QA berkualiti tinggi bukan sahaja boleh digunakan untuk memperhalusi model, tetapi juga menilai dengan berkesan keupayaan model bahasa besar (LLM), terutamanya keupayaan untuk memahami dan menaakul tentang pengetahuan saintifik. Walaupun pada masa ini terdapat banyak set data QA saintifik yang meliputi bidang perubatan, kimia, biologi dan bidang lain, set data ini masih mempunyai beberapa kekurangan. Pertama, borang data adalah agak mudah, kebanyakannya adalah soalan aneka pilihan. Ia mudah dinilai, tetapi mengehadkan julat pemilihan jawapan model dan tidak dapat menguji sepenuhnya keupayaan model untuk menjawab soalan saintifik. Sebaliknya, Soal Jawab terbuka

AlphaFold 3 dilancarkan, meramalkan secara menyeluruh interaksi dan struktur protein dan semua molekul hidupan, dengan ketepatan yang jauh lebih tinggi berbanding sebelum ini AlphaFold 3 dilancarkan, meramalkan secara menyeluruh interaksi dan struktur protein dan semua molekul hidupan, dengan ketepatan yang jauh lebih tinggi berbanding sebelum ini Jul 16, 2024 am 12:08 AM

Editor |. Kulit Lobak Sejak pengeluaran AlphaFold2 yang berkuasa pada tahun 2021, saintis telah menggunakan model ramalan struktur protein untuk memetakan pelbagai struktur protein dalam sel, menemui ubat dan melukis "peta kosmik" setiap interaksi protein yang diketahui. Baru-baru ini, Google DeepMind mengeluarkan model AlphaFold3, yang boleh melakukan ramalan struktur bersama untuk kompleks termasuk protein, asid nukleik, molekul kecil, ion dan sisa yang diubah suai. Ketepatan AlphaFold3 telah dipertingkatkan dengan ketara berbanding dengan banyak alat khusus pada masa lalu (interaksi protein-ligan, interaksi asid protein-nukleik, ramalan antibodi-antigen). Ini menunjukkan bahawa dalam satu rangka kerja pembelajaran mendalam yang bersatu, adalah mungkin untuk dicapai

Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Prestasi SOTA, kaedah AI ramalan pertalian protein-ligan pelbagai mod Xiamen, menggabungkan maklumat permukaan molekul buat kali pertama Jul 17, 2024 pm 06:37 PM

Editor |. KX Dalam bidang penyelidikan dan pembangunan ubat, meramalkan pertalian pengikatan protein dan ligan dengan tepat dan berkesan adalah penting untuk pemeriksaan dan pengoptimuman ubat. Walau bagaimanapun, kajian semasa tidak mengambil kira peranan penting maklumat permukaan molekul dalam interaksi protein-ligan. Berdasarkan ini, penyelidik dari Universiti Xiamen mencadangkan rangka kerja pengekstrakan ciri berbilang mod (MFE) novel, yang buat pertama kalinya menggabungkan maklumat mengenai permukaan protein, struktur dan jujukan 3D, dan menggunakan mekanisme perhatian silang untuk membandingkan ciri modaliti yang berbeza penjajaran. Keputusan eksperimen menunjukkan bahawa kaedah ini mencapai prestasi terkini dalam meramalkan pertalian mengikat protein-ligan. Tambahan pula, kajian ablasi menunjukkan keberkesanan dan keperluan maklumat permukaan protein dan penjajaran ciri multimodal dalam rangka kerja ini. Penyelidikan berkaitan bermula dengan "S

SK Hynix akan memaparkan produk berkaitan AI baharu pada 6 Ogos: HBM3E 12 lapisan, NAND 321 tinggi, dsb. SK Hynix akan memaparkan produk berkaitan AI baharu pada 6 Ogos: HBM3E 12 lapisan, NAND 321 tinggi, dsb. Aug 01, 2024 pm 09:40 PM

Menurut berita dari laman web ini pada 1 Ogos, SK Hynix mengeluarkan catatan blog hari ini (1 Ogos), mengumumkan bahawa ia akan menghadiri Global Semiconductor Memory Summit FMS2024 yang akan diadakan di Santa Clara, California, Amerika Syarikat dari 6 hingga 8 Ogos, mempamerkan banyak produk penjanaan teknologi baru. Pengenalan kepada Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage), dahulunya Sidang Kemuncak Memori Flash (FlashMemorySummit) terutamanya untuk pembekal NAND, dalam konteks peningkatan perhatian kepada teknologi kecerdasan buatan, tahun ini dinamakan semula sebagai Sidang Kemuncak Memori dan Penyimpanan Masa Depan (FutureMemoryandStorage) kepada jemput vendor DRAM dan storan serta ramai lagi pemain. Produk baharu SK hynix dilancarkan tahun lepas

Meletakkan pasaran seperti AI, GlobalFoundries memperoleh teknologi gallium nitrida Tagore Technology dan pasukan berkaitan Meletakkan pasaran seperti AI, GlobalFoundries memperoleh teknologi gallium nitrida Tagore Technology dan pasukan berkaitan Jul 15, 2024 pm 12:21 PM

Menurut berita dari laman web ini pada 5 Julai, GlobalFoundries mengeluarkan kenyataan akhbar pada 1 Julai tahun ini, mengumumkan pemerolehan teknologi power gallium nitride (GaN) Tagore Technology dan portfolio harta intelek, dengan harapan dapat mengembangkan bahagian pasarannya dalam kereta dan Internet of Things dan kawasan aplikasi pusat data kecerdasan buatan untuk meneroka kecekapan yang lebih tinggi dan prestasi yang lebih baik. Memandangkan teknologi seperti AI generatif terus berkembang dalam dunia digital, galium nitrida (GaN) telah menjadi penyelesaian utama untuk pengurusan kuasa yang mampan dan cekap, terutamanya dalam pusat data. Laman web ini memetik pengumuman rasmi bahawa semasa pengambilalihan ini, pasukan kejuruteraan Tagore Technology akan menyertai GLOBALFOUNDRIES untuk membangunkan lagi teknologi gallium nitride. G

Institut Penyelidikan Robot Humanoid Universiti Sains dan Teknologi China telah diumumkan dan mengumumkan penubuhan Perikatan Robot Humanoid Delta Sungai Yangtze Institut Penyelidikan Robot Humanoid Universiti Sains dan Teknologi China telah diumumkan dan mengumumkan penubuhan Perikatan Robot Humanoid Delta Sungai Yangtze Jun 19, 2024 pm 12:59 PM

Laman web ini melaporkan pada 18 Jun bahawa pagi ini, Universiti Sains dan Teknologi Kecerdasan Buatan China dan Forum Frontier Robot Humanoid telah diadakan di taman teknologi tinggi sekolah itu. Sekolah Kecerdasan Buatan dan Sains Data dan Institut Penyelidikan Robot Humanoid Universiti Sains dan Teknologi China telah diumumkan satu demi satu, ahli akademik Akademi Sains China, telah dilantik sebagai pengarah Sains dan Jawatankuasa Teknologi Institut Penyelidikan Robot Humanoid, dan mengumumkan penubuhan Perikatan Robot Humanoid Delta Sungai Yangtze. Institut Penyelidikan Robot Humanoid USTC komited untuk memanfaatkan kelebihan pelbagai disiplin USTC dan berusaha untuk mencapai kejayaan teknologi dalam arah penderiaan bahan, penggerak struktur, kawalan gerakan dan kecerdasan yang terkandung untuk menggalakkan pembangunan USTC dalam bidang pintar. robot. Institut akan secara aktif mempromosikan aplikasi robot humanoid dalam perkhidmatan, perubatan, pendidikan dan bidang lain berdasarkan inovasi teknologi, dan akan bekerjasama dengan

Iyo One: Bahagian fon kepala, sebahagian komputer audio Iyo One: Bahagian fon kepala, sebahagian komputer audio Aug 08, 2024 am 01:03 AM

Pada bila-bila masa, tumpuan adalah satu kebaikan. Pengarang |. Editor Tang Yitao |. AIPin yang paling popular telah menemui ulasan negatif yang belum pernah terjadi sebelumnya. Marques Brownlee (MKBHD) menyifatkannya sebagai produk terburuk yang pernah dia semak; Editor The Verge, David Pierce berkata dia tidak akan mengesyorkan sesiapa pun membeli peranti ini. Pesaingnya, RabbitR1, tidak jauh lebih baik. Keraguan terbesar tentang peranti AI ini ialah ia jelas hanya sebuah aplikasi, tetapi Arnab telah membina perkakasan bernilai $200. Ramai orang melihat inovasi perkakasan AI sebagai peluang untuk menumbangkan era telefon pintar dan menumpukan diri mereka kepadanya.

See all articles