Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent-AI-php.cn

Rumah

Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

王林

Aug 22, 2024 pm 10:38 PM

industri Tencent Yuanbao

Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

GPT に代表される大規模言語モデルは、デジタル認知空間における一般的な人工知能の夜明けを告げます。これらのモデルは、自然言語を処理および生成することによって強力な理解および推論能力を実証し、複数の分野での幅広い応用の見通しを示しています。コンテンツ生成、自動化された顧客サービス、生産性ツール、AI 検索、あるいは教育や医療などの分野においても、大規模な言語モデルは常にテクノロジーの進歩とアプリケーションの普及を促進しています。

しかし、一般的な人工知能による物理世界の探索を促進するには、最初のステップは視覚的な理解の問題、つまり大きなモデルのマルチモーダルな理解を解決することです。マルチモーダル理解により、AI は人間と同じように複数の感覚を通じて情報を取得して処理することで、世界をより完全に理解し、対話できるようになります。この分野のブレークスルーにより、人工知能はロボット工学や自動運転などにおいてさらなる進歩を遂げ、デジタル世界から物理世界への飛躍を真に実現することができるでしょう。

GPT-4Vは昨年6月にリリースされましたが、大規模な言語モデルと比較して、マルチモーダル理解モデルの開発は、特に中国語分野で遅れているようです。さらに、技術的なルートと比較的確実な大規模言語モデルの選択とは異なり、マルチモーダルモデルのアーキテクチャとトレーニング方法の選択については、業界はまだ完全に合意に達していません。

Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

^{ドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドル大規模モデルの最先端の理解。このモデルは、アーキテクチャ、トレーニング方法、データ処理の点で革新的かつ徹底的に最適化されており、パフォーマンスが大幅に向上し、あらゆるアスペクト比と最大 7K 解像度の画像の理解をサポートします。主にオープンソースのベンチマークで調整されたほとんどのマルチモーダルモデルとは異なり、Tencent のハイブリッドマルチモーダルモデルは、モデルの汎用性、実用性、信頼性により重点を置いており、豊富なマルチモーダルシーン理解機能を備えています。最近リリースされた中国のマルチモーダル大型モデル SuperCLUE-V ベンチマーク評価 (2024 年 8 月) では、Tencent Hunyuan が複数の主流クローズドソースモデルを上回り、国内で 1 位にランクされました。}

手法の紹介: MoE アーキテクチャ

Tencent の大規模混合言語モデルは、中国で初めて混合エキスパートモデル (MoE) アーキテクチャを採用しており、モデルの全体的なパフォーマンスは、MoE アーキテクチャよりも 50% 優れています。 GPT-4o と連携し、数学、推論、その他の能力だけでなく、「現在」の質問に答えるパフォーマンスも大幅に向上しました。今年の初めには、Tencent Hunyuan がこのモデルを Tencent Yuanbao に適用しました。

Tencent Hunyuan は、多数の一般的なタスクを解決できる MoE アーキテクチャは、マルチモーダルな理解シナリオにとっても最適な選択であると信じています。 MoE は、より多くのモダリティやタスクとの互換性が向上し、さまざまなモダリティやタスクが競合するのではなく相互に強化されるようになります。

Tencent Hunyuan の大規模言語モデルの機能に依存して、Tencent Hunyuan は MoE アーキテクチャに基づいた大規模なマルチモーダル理解モデルを立ち上げ、アーキテクチャ、トレーニング方法、データの面で革新と徹底的な最適化を行いました。処理が強化され、パフォーマンスが大幅に向上しました。これは、中国の教育省アーキテクチャに基づいた初のマルチモーダル大型モデルでもあります。

模 Tencent rajah skema seni bina model multi-modal elemen campuran

Mudah dan berskala besar

Di samping menggunakan seni bina berbilang MOE, reka bentuk elemen - Tencent mengikut mudah dan munasabah , Prinsip kebolehskalaan:

Menyokong resolusi arbitrari asli: Berbanding dengan kaedah resolusi tetap arus perdana atau kaedah subgraf, model berbilang modal hibrid Tencent boleh memproses imej asli bagi mana-mana resolusi yang pertama model berbilang modal untuk menyokong pemahaman imej dengan resolusi melebihi 7K dan sebarang nisbah aspek (cth. 16:1, lihat contoh di bawah).

Menggunakan penyesuai MLP ringkas: Berbanding dengan penyesuai Q-bekas arus perdana sebelumnya, penyesuai MLP kurang kehilangan semasa penghantaran maklumat.

Reka bentuk ringkas ini memudahkan untuk mengembangkan dan menskalakan model dan data.

SuperClue-V menduduki tempat pertama dalam senarai domestik

Pada Ogos 2024, SuperCLUE mengeluarkan senarai penilaian pemahaman pelbagai mod buat kali pertama - SuperClue-V.

Tanda aras SuperCLUE-V merangkumi dua arah umum: keupayaan asas dan keupayaan aplikasi Ia menilai model besar berbilang modal dalam bentuk soalan terbuka, termasuk 8 dimensi peringkat pertama dan 30 dimensi peringkat kedua.

Dalam penilaian ini, sistem pemahaman multi-modal Hunyuan hunyuan-vision mencapai markah 71.95, kedua selepas GPT-4o. Dari segi aplikasi berbilang modal, hunyuan-vision mendahului Claude3.5-Sonnet dan Gemini-1.5-Pro. Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Perlu diingat bahawa penilaian pelbagai mod dalam industri sebelum ini kebanyakannya tertumpu pada penguasaan bahasa Inggeris, dan kebanyakan soalan penilaian adalah soalan aneka pilihan atau benar-salah. Penilaian SuperCLUE-V lebih memfokuskan kepada penilaian kecekapan bahasa Cina dan memfokuskan kepada masalah sebenar pengguna. Di samping itu, kerana ini adalah keluaran pertama, overfitting masih belum berlaku.

Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Tencent Hunyuan Graphics and Text Large Model menunjukkan prestasi yang baik dalam pelbagai dimensi seperti adegan umum, pengecaman dan pemahaman OCR imej, dan pemahaman dan penaakulan unsur Cina, dan juga mencerminkan potensi model dalam aplikasi masa hadapan . Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent Ditujukan untuk senario aplikasi umum

Model pemahaman multi-modal elemen campuran dioptimumkan untuk senario umum dan aplikasi besar-besaran, dan mempunyai berpuluh-puluh soalan asas dan jawapan yang terkumpul pemahaman imej, penciptaan kandungan, Ia boleh digunakan dalam banyak senario seperti analisis penaakulan, soal jawab pengetahuan, analisis dokumen OCR, dan menjawab subjek. Berikut adalah beberapa contoh aplikasi biasa.

Di sini ada contoh yang lebih tipikal: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Convert imej ke dalam jadual teks:

plain sekeping kod: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Analyze rang undang -undang: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

description Kandungan gambar: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Buat masalah matematik: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Analisis berdasarkan kandungan gambar: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Bantu anda menulis salinan: Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent

Pada masa ini, model besar pemahaman pelbagai mod Hunyuan Tencent telah dilancarkan dalam produk pembantu AI Tencent Yuanbao, dan terbuka kepada perusahaan dan pembangun individu melalui Tencent Cloud.

Alamat Tencent Yuanbao: https://yuanbao.tencent.com/chat

Atas ialah kandungan terperinci Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!

Kenyataan Laman Web ini

Kandungan artikel ini disumbangkan secara sukarela oleh netizen, dan hak cipta adalah milik pengarang asal. Laman web ini tidak memikul tanggungjawab undang-undang yang sepadan. Jika anda menemui sebarang kandungan yang disyaki plagiarisme atau pelanggaran, sila hubungi admin@php.cn

Alat AI Hot

Undresser.AI Undress

Apl berkuasa AI untuk mencipta foto bogel yang realistik

AI Clothes Remover

Alat AI dalam talian untuk mengeluarkan pakaian daripada foto.

Undress AI Tool

Gambar buka pakaian secara percuma

Clothoff.io

Penyingkiran pakaian AI

Video Face Swap

Tukar muka dalam mana-mana video dengan mudah menggunakan alat tukar muka AI percuma kami!

Tunjukkan Lagi

Artikel Panas

Apa yang Baru di Windows 11 KB5054979 & Cara Memperbaiki Masalah Kemas Kini

3 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055523 gagal dipasang di Windows 11?

2 minggu yang lalu By DDD

Inzoi: Cara Memohon ke Sekolah dan Universiti

4 minggu yang lalu By DDD

Bagaimana untuk memperbaiki KB5055518 gagal dipasang di Windows 10?

2 minggu yang lalu By DDD

Di mana untuk mencari kunci pejabat tapak di atomfall

4 minggu yang lalu By DDD

Tunjukkan Lagi

Alat panas

Notepad++7.3.1

Editor kod yang mudah digunakan dan percuma

SublimeText3 versi Cina

Versi Cina, sangat mudah digunakan

Hantar Studio 13.0.1

Persekitaran pembangunan bersepadu PHP yang berkuasa

Dreamweaver CS6

Alat pembangunan web visual

SublimeText3 versi Mac

Perisian penyuntingan kod peringkat Tuhan (SublimeText3)

Tunjukkan Lagi

Topik panas

Di manakah pintu masuk log masuk untuk e-mel gmail?

7864

Tutorial Java

1649

Tutorial CakePHP

1404

Tutorial Laravel

1300

Tutorial PHP

1242

Tunjukkan Lagi

Related knowledge

Robot DeepMind bermain pingpong, dan pukulan depan dan pukulan kilasnya tergelincir ke udara, mengalahkan manusia pemula sepenuhnya Aug 09, 2024 pm 04:01 PM

Tetapi mungkin dia tidak dapat mengalahkan lelaki tua di taman itu? Sukan Olimpik Paris sedang rancak berlangsung, dan pingpong telah menarik perhatian ramai. Pada masa yang sama, robot juga telah membuat penemuan baru dalam bermain pingpong. Sebentar tadi, DeepMind mencadangkan ejen robot pembelajaran pertama yang boleh mencapai tahap pemain amatur manusia dalam pingpong yang kompetitif. Alamat kertas: https://arxiv.org/pdf/2408.03906 Sejauh manakah robot DeepMind bermain pingpong? Mungkin setanding dengan pemain amatur manusia: kedua-dua pukulan depan dan pukulan kilas: pihak lawan menggunakan pelbagai gaya permainan, dan robot juga boleh bertahan: servis menerima dengan putaran yang berbeza: Walau bagaimanapun, keamatan permainan nampaknya tidak begitu sengit seperti lelaki tua di taman itu. Untuk robot, pingpong

Cakar mekanikal pertama! Yuanluobao muncul di Persidangan Robot Dunia 2024 dan mengeluarkan robot catur pertama yang boleh memasuki rumah Aug 21, 2024 pm 07:33 PM

Pada 21 Ogos, Persidangan Robot Dunia 2024 telah diadakan dengan megah di Beijing. Jenama robot rumah SenseTime "Yuanluobot SenseRobot" telah memperkenalkan seluruh keluarga produknya, dan baru-baru ini mengeluarkan robot permainan catur AI Yuanluobot - Edisi Profesional Catur (selepas ini dirujuk sebagai "Yuanluobot SenseRobot"), menjadi robot catur A pertama di dunia untuk rumah. Sebagai produk robot permainan catur ketiga Yuanluobo, robot Guoxiang baharu telah melalui sejumlah besar peningkatan teknikal khas dan inovasi dalam AI dan jentera kejuruteraan Buat pertama kalinya, ia telah menyedari keupayaan untuk mengambil buah catur tiga dimensi melalui cakar mekanikal pada robot rumah, dan melaksanakan Fungsi mesin manusia seperti bermain catur, semua orang bermain catur, semakan notasi, dsb.

Claude pun dah jadi malas! Netizen: Belajar untuk memberi percutian kepada diri sendiri Sep 02, 2024 pm 01:56 PM

Permulaan sekolah akan bermula, dan bukan hanya pelajar yang akan memulakan semester baharu yang harus menjaga diri mereka sendiri, tetapi juga model AI yang besar. Beberapa ketika dahulu, Reddit dipenuhi oleh netizen yang mengadu Claude semakin malas. "Tahapnya telah banyak menurun, ia sering berhenti seketika, malah output menjadi sangat singkat. Pada minggu pertama keluaran, ia boleh menterjemah dokumen penuh 4 halaman sekaligus, tetapi kini ia tidak dapat mengeluarkan separuh halaman pun. !" https:// www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ dalam siaran bertajuk "Totally disappointed with Claude", penuh dengan

Pada Persidangan Robot Sedunia, robot domestik yang membawa 'harapan penjagaan warga tua masa depan' ini telah dikepung Aug 22, 2024 pm 10:35 PM

Pada Persidangan Robot Dunia yang diadakan di Beijing, paparan robot humanoid telah menjadi tumpuan mutlak di gerai Stardust Intelligent, pembantu robot AI S1 mempersembahkan tiga persembahan utama dulcimer, seni mempertahankan diri dan kaligrafi dalam. satu kawasan pameran, berkebolehan kedua-dua sastera dan seni mempertahankan diri, menarik sejumlah besar khalayak profesional dan media. Permainan elegan pada rentetan elastik membolehkan S1 menunjukkan operasi halus dan kawalan mutlak dengan kelajuan, kekuatan dan ketepatan. CCTV News menjalankan laporan khas mengenai pembelajaran tiruan dan kawalan pintar di sebalik "Kaligrafi Pengasas Syarikat Lai Jie menjelaskan bahawa di sebalik pergerakan sutera, bahagian perkakasan mengejar kawalan daya terbaik dan penunjuk badan yang paling menyerupai manusia (kelajuan, beban). dll.), tetapi di sisi AI, data pergerakan sebenar orang dikumpulkan, membolehkan robot menjadi lebih kuat apabila ia menghadapi situasi yang kuat dan belajar untuk berkembang dengan cepat. Dan tangkas

Anugerah ACL 2024 Diumumkan: Salah satu Kertas Terbaik mengenai Pentafsiran Oracle oleh HuaTech, Anugerah Ujian Masa GloVe Aug 15, 2024 pm 04:37 PM

Pada persidangan ACL ini, para penyumbang telah mendapat banyak keuntungan. ACL2024 selama enam hari diadakan di Bangkok, Thailand. ACL ialah persidangan antarabangsa teratas dalam bidang linguistik pengiraan dan pemprosesan bahasa semula jadi Ia dianjurkan oleh Persatuan Antarabangsa untuk Linguistik Pengiraan dan diadakan setiap tahun. ACL sentiasa menduduki tempat pertama dalam pengaruh akademik dalam bidang NLP, dan ia juga merupakan persidangan yang disyorkan CCF-A. Persidangan ACL tahun ini adalah yang ke-62 dan telah menerima lebih daripada 400 karya termaju dalam bidang NLP. Petang semalam, persidangan itu mengumumkan kertas kerja terbaik dan anugerah lain. Kali ini, terdapat 7 Anugerah Kertas Terbaik (dua tidak diterbitkan), 1 Anugerah Kertas Tema Terbaik, dan 35 Anugerah Kertas Cemerlang. Persidangan itu turut menganugerahkan 3 Anugerah Kertas Sumber (ResourceAward) dan Anugerah Impak Sosial (

Hongmeng Smart Travel S9 dan persidangan pelancaran produk baharu senario penuh, beberapa produk baharu blockbuster dikeluarkan bersama-sama Aug 08, 2024 am 07:02 AM

Petang ini, Hongmeng Zhixing secara rasmi mengalu-alukan jenama baharu dan kereta baharu. Pada 6 Ogos, Huawei mengadakan persidangan pelancaran produk baharu Hongmeng Smart Xingxing S9 dan senario penuh Huawei, membawakan sedan perdana pintar panoramik Xiangjie S9, M7Pro dan Huawei novaFlip baharu, MatePad Pro 12.2 inci, MatePad Air baharu, Huawei Bisheng With banyak produk pintar semua senario baharu termasuk pencetak laser siri X1, FreeBuds6i, WATCHFIT3 dan skrin pintar S5Pro, daripada perjalanan pintar, pejabat pintar kepada pakaian pintar, Huawei terus membina ekosistem pintar senario penuh untuk membawa pengguna pengalaman pintar Internet Segala-galanya. Hongmeng Zhixing: Pemerkasaan mendalam untuk menggalakkan peningkatan industri kereta pintar Huawei berganding bahu dengan rakan industri automotif China untuk menyediakan

Pasukan Li Feifei mencadangkan ReKep untuk memberi robot kecerdasan spatial dan mengintegrasikan GPT-4o Sep 03, 2024 pm 05:18 PM

Penyepaduan mendalam penglihatan dan pembelajaran robot. Apabila dua tangan robot bekerja bersama-sama dengan lancar untuk melipat pakaian, menuang teh dan mengemas kasut, ditambah pula dengan 1X robot humanoid NEO yang telah menjadi tajuk berita baru-baru ini, anda mungkin mempunyai perasaan: kita seolah-olah memasuki zaman robot. Malah, pergerakan sutera ini adalah hasil teknologi robotik canggih + reka bentuk bingkai yang indah + model besar berbilang modal. Kami tahu bahawa robot yang berguna sering memerlukan interaksi yang kompleks dan indah dengan alam sekitar, dan persekitaran boleh diwakili sebagai kekangan dalam domain spatial dan temporal. Sebagai contoh, jika anda ingin robot menuang teh, robot terlebih dahulu perlu menggenggam pemegang teko dan memastikannya tegak tanpa menumpahkan teh, kemudian gerakkannya dengan lancar sehingga mulut periuk sejajar dengan mulut cawan. , dan kemudian condongkan teko pada sudut tertentu. ini

Persidangan Kecerdasan Buatan Teragih DAI 2024 Call for Papers: Hari Agen, Richard Sutton, bapa pembelajaran pengukuhan, akan hadir! Yan Shuicheng, Sergey Levine dan saintis DeepMind akan memberikan ucaptama Aug 22, 2024 pm 08:02 PM

Pengenalan Persidangan Dengan perkembangan pesat sains dan teknologi, kecerdasan buatan telah menjadi kuasa penting dalam menggalakkan kemajuan sosial. Dalam era ini, kami bertuah untuk menyaksikan dan mengambil bahagian dalam inovasi dan aplikasi Kecerdasan Buatan Teragih (DAI). Kecerdasan buatan yang diedarkan adalah cabang penting dalam bidang kecerdasan buatan, yang telah menarik lebih banyak perhatian dalam beberapa tahun kebelakangan ini. Agen berdasarkan model bahasa besar (LLM) tiba-tiba muncul Dengan menggabungkan pemahaman bahasa yang kuat dan keupayaan penjanaan model besar, mereka telah menunjukkan potensi besar dalam interaksi bahasa semula jadi, penaakulan pengetahuan, perancangan tugas, dsb. AIAgent mengambil alih model bahasa besar dan telah menjadi topik hangat dalam kalangan AI semasa. Au

See all articles