AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
GPT に代表される大規模言語モデルは、デジタル認知空間における一般的な人工知能の夜明けを告げます。これらのモデルは、自然言語を処理および生成することによって強力な理解および推論能力を実証し、複数の分野での幅広い応用の見通しを示しています。コンテンツ生成、自動化された顧客サービス、生産性ツール、AI 検索、あるいは教育や医療などの分野においても、大規模な言語モデルは常にテクノロジーの進歩とアプリケーションの普及を促進しています。 しかし、一般的な人工知能による物理世界の探索を促進するには、最初のステップは視覚的な理解の問題、つまり大きなモデルのマルチモーダルな理解を解決することです。マルチモーダル理解により、AI は人間と同じように複数の感覚を通じて情報を取得して処理することで、世界をより完全に理解し、対話できるようになります。この分野のブレークスルーにより、人工知能はロボット工学や自動運転などにおいてさらなる進歩を遂げ、デジタル世界から物理世界への飛躍を真に実現することができるでしょう。 GPT-4Vは昨年6月にリリースされましたが、大規模な言語モデルと比較して、マルチモーダル理解モデルの開発は、特に中国語分野で遅れているようです。さらに、技術的なルートと比較的確実な大規模言語モデルの選択とは異なり、マルチモーダル モデルのアーキテクチャとトレーニング方法の選択については、業界はまだ完全に合意に達していません。
ドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドルドル大規模モデルの最先端の理解。このモデルは、アーキテクチャ、トレーニング方法、データ処理の点で革新的かつ徹底的に最適化されており、パフォーマンスが大幅に向上し、あらゆるアスペクト比と最大 7K 解像度の画像の理解をサポートします。主にオープンソースのベンチマークで調整されたほとんどのマルチモーダル モデルとは異なり、Tencent のハイブリッド マルチモーダル モデルは、モデルの汎用性、実用性、信頼性により重点を置いており、豊富なマルチモーダル シーン理解機能を備えています。最近リリースされた中国のマルチモーダル大型モデル SuperCLUE-V ベンチマーク評価 (2024 年 8 月) では、Tencent Hunyuan が複数の主流クローズドソース モデルを上回り、国内で 1 位にランクされました。
Tencent の大規模混合言語モデルは、中国で初めて混合エキスパート モデル (MoE) アーキテクチャを採用しており、モデルの全体的なパフォーマンスは、MoE アーキテクチャよりも 50% 優れています。 GPT-4o と連携し、数学、推論、その他の能力だけでなく、「現在」の質問に答えるパフォーマンスも大幅に向上しました。今年の初めには、Tencent Hunyuan がこのモデルを Tencent Yuanbao に適用しました。 Tencent Hunyuan は、多数の一般的なタスクを解決できる MoE アーキテクチャは、マルチモーダルな理解シナリオにとっても最適な選択であると信じています。 MoE は、より多くのモダリティやタスクとの互換性が向上し、さまざまなモダリティやタスクが競合するのではなく相互に強化されるようになります。
Tencent Hunyuan の大規模言語モデルの機能に依存して、Tencent Hunyuan は MoE アーキテクチャに基づいた大規模なマルチモーダル理解モデルを立ち上げ、アーキテクチャ、トレーニング方法、データの面で革新と徹底的な最適化を行いました。処理が強化され、パフォーマンスが大幅に向上しました。これは、中国の教育省アーキテクチャに基づいた初のマルチモーダル大型モデルでもあります。
模 Tencent rajah skema seni bina model multi-modal elemen campuran Di samping menggunakan seni bina berbilang MOE, reka bentuk elemen - Tencent mengikut mudah dan munasabah , Prinsip kebolehskalaan:
Menyokong resolusi arbitrari asli: Berbanding dengan kaedah resolusi tetap arus perdana atau kaedah subgraf, model berbilang modal hibrid Tencent boleh memproses imej asli bagi mana-mana resolusi yang pertama model berbilang modal untuk menyokong pemahaman imej dengan resolusi melebihi 7K dan sebarang nisbah aspek (cth. 16:1, lihat contoh di bawah).
-
Menggunakan penyesuai MLP ringkas: Berbanding dengan penyesuai Q-bekas arus perdana sebelumnya, penyesuai MLP kurang kehilangan semasa penghantaran maklumat.
Reka bentuk ringkas ini memudahkan untuk mengembangkan dan menskalakan model dan data.
SuperClue-V menduduki tempat pertama dalam senarai domestikPada Ogos 2024, SuperCLUE mengeluarkan senarai penilaian pemahaman pelbagai mod buat kali pertama - SuperClue-V.
Tanda aras SuperCLUE-V merangkumi dua arah umum: keupayaan asas dan keupayaan aplikasi Ia menilai model besar berbilang modal dalam bentuk soalan terbuka, termasuk 8 dimensi peringkat pertama dan 30 dimensi peringkat kedua.
Dalam penilaian ini, sistem pemahaman multi-modal Hunyuan hunyuan-vision mencapai markah 71.95, kedua selepas GPT-4o. Dari segi aplikasi berbilang modal, hunyuan-vision mendahului Claude3.5-Sonnet dan Gemini-1.5-Pro.
Perlu diingat bahawa penilaian pelbagai mod dalam industri sebelum ini kebanyakannya tertumpu pada penguasaan bahasa Inggeris, dan kebanyakan soalan penilaian adalah soalan aneka pilihan atau benar-salah. Penilaian SuperCLUE-V lebih memfokuskan kepada penilaian kecekapan bahasa Cina dan memfokuskan kepada masalah sebenar pengguna. Di samping itu, kerana ini adalah keluaran pertama, overfitting masih belum berlaku.
Tencent Hunyuan Graphics and Text Large Model menunjukkan prestasi yang baik dalam pelbagai dimensi seperti adegan umum, pengecaman dan pemahaman OCR imej, dan pemahaman dan penaakulan unsur Cina, dan juga mencerminkan potensi model dalam aplikasi masa hadapan .
Ditujukan untuk senario aplikasi umum
Model pemahaman multi-modal elemen campuran dioptimumkan untuk senario umum dan aplikasi besar-besaran, dan mempunyai berpuluh-puluh soalan asas dan jawapan yang terkumpul pemahaman imej, penciptaan kandungan, Ia boleh digunakan dalam banyak senario seperti analisis penaakulan, soal jawab pengetahuan, analisis dokumen OCR, dan menjawab subjek. Berikut adalah beberapa contoh aplikasi biasa.
Di sini ada contoh yang lebih tipikal:
Convert imej ke dalam jadual teks:
plain sekeping kod:
Analyze rang undang -undang:
description Kandungan gambar:
Buat masalah matematik:
Analisis berdasarkan kandungan gambar:
Bantu anda menulis salinan:
Pada masa ini, model besar pemahaman pelbagai mod Hunyuan Tencent telah dilancarkan dalam produk pembantu AI Tencent Yuanbao, dan terbuka kepada perusahaan dan pembangun individu melalui Tencent Cloud.
Alamat Tencent Yuanbao: https://yuanbao.tencent.com/chat
Atas ialah kandungan terperinci Model besar multi-modal MoE yang dibangunkan sendiri pertama di China mendedahkan pemahaman multi-modal elemen campuran Tencent. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!