


Nvidia はプルーニングと蒸留に取り組んでいます。Llama 3.1 8B パラメーターを半分にカットして、同じサイズでより良いパフォーマンスを実現します。
小型モデルの台頭。
先月、Meta は Llama 3.1 シリーズのモデルをリリースしました。これには、Meta のこれまでで最大のモデルである 405B と 2 つの小型モデルが含まれます。パラメータの量はそれぞれ 700 億と 80 億です。
Llama 3.1 は、オープンソースの新時代の到来を告げるものと考えられています。ただし、新世代モデルはパフォーマンスが強力ですが、導入時には依然として大量のコンピューティング リソースが必要です。
したがって、業界では別の傾向が現れています。それは、多くの言語タスクで十分なパフォーマンスを発揮し、導入が非常に安価な小規模言語モデル (SLM) を開発することです。
最近、NVIDIA の研究により、構造化された重み枝刈りと知識の蒸留を組み合わせることで、最初は大きなモデルから徐々に小さな言語モデルを取得できることが示されました。 #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#、Meta のチーフ AI サイエンティストである Jann LECun 氏もこの研究を賞賛しました。

Llama-3.1-Minitron 4B は、Minitron 4B、Phi-2 2.7B、Gemma2 2.6B、Qwen2-1.5B など、同様のサイズの最先端のオープンソース モデルよりも優れたパフォーマンスを発揮します。
この研究の関連論文は先月早くも発表されました。

紙のリンク: https://www.arxiv.org/pdf/2407.14679
#🎜 🎜#
- 剪定と蒸留 # 🎜 🎜#
- 枝刈りを行うと、モデルがより小さくスリムになります。これは、レイヤーを削除する (深さ枝刈り) か、ニューロンとアテンション ヘッドを削除してチャネルを埋め込む (幅枝刈り) ことで実現できます。通常、プルーニングには、精度を回復するためのある程度の再トレーニングが伴います。 モデルの蒸留は、大規模で複雑なモデル (教師モデルと呼ばれることが多い) から、より小さく単純な学生モデルに知識を伝達するための手法です。目標は、元のより大きなモデルの予測能力の多くを維持しながら、より高速に実行し、リソースの消費を少なくする、より効率的なモデルを作成することです。
NVIDIA では、枝刈りと古典的な知識の抽出を組み合わせた方法を使用して大規模なモデルを構築しています。次の図は、単一モデルの枝刈りおよび抽出のプロセス (上) とモデルの枝刈りおよび抽出のチェーンを示しています (下)。 )。具体的なプロセスは次のとおりです:
1. NVIDIA は 15B モデルから開始し、各コンポーネント (レイヤー、ニューロン、ヘッド、エンベディング チャネル) の重要性を評価し、モデルをソートおよびプルーニングして作成します。目標サイズに達しました: 8B モデル。 2 次に、元のモデルを教師、枝刈りしたモデルを生徒として、モデル蒸留を使用して軽い再トレーニングを実行しました。 3. トレーニング後、小さいモデル (8B) を開始点として取り、それを枝刈りしてより小さい 4B モデルに蒸留します。 #🎜🎜## ## 注意すべき点は、モデルを枝刈りする前に、モデルのどの部分が重要であるかを理解する必要があるということです。 NVIDIA は、1024 サンプルの小さなキャリブレーション データセットを使用して、関連するすべての次元 (深度、ニューロン、ヘッド、埋め込みチャネル) の情報を同時に計算する、アクティベーション ベースの純粋な重要性評価戦略を提案しています。必要なのは順方向伝播のみです。このアプローチは、勾配情報に依存しバックプロパゲーションを必要とする戦略よりもシンプルでコスト効率が高くなります。 枝刈り中、特定の軸または軸の組み合わせについて枝刈りと重要度推定を繰り返し交互に行うことができます。実証研究では、単一の重要度推定値を使用するだけで十分であり、反復推定では追加の利点がもたらされないことが示されています。古典知識の蒸留を用いた再トレーニング
Rajah 2 di bawah menunjukkan proses penyulingan, di mana model pelajar lapisan N (model cantas) disuling daripada model guru lapisan M (model asal tidak dipangkas). Model pelajar dipelajari dengan meminimumkan gabungan kehilangan output pembenaman, kehilangan logit, dan kerugian khusus pengekod Transformer yang dipetakan ke blok pelajar S dan blok guru T. Rajah 2: Kehilangan latihan penyulingan.

Amalan terbaik untuk pemangkasan dan penyulinganNVIDIA pemangkasan dan model penyulingan berdasarkan pengetahuan penyelidikan ablasi yang meluas, saya meringkaskan hasil pembelajaran saya ke dalam amalan terbaik pemampatan berstruktur berikut.
Pertama ialah melaraskan saiz.Untuk melatih satu set LLM, yang terbesar dilatih terlebih dahulu, dan kemudian dipangkas dan disuling secara berulang untuk mendapatkan LLM yang lebih kecil. Jika strategi latihan pelbagai peringkat digunakan untuk melatih model terbesar, sebaiknya memangkas dan melatih semula model yang diperoleh pada peringkat terakhir latihan.
- Pangkas model sumber yang tersedia paling hampir dengan saiz sasaran.
- Yang kedua ialah pemangkasan.
- Utamakan pemangkasan lebar berbanding pemangkasan kedalaman, yang berfungsi dengan baik untuk model di bawah saiz parameter 15B.
- Yang ketiga ialah melatih semula.
- Hanya gunakan kehilangan penyulingan untuk latihan semula dan bukannya latihan biasa.
- Gunakan penyulingan logit sahaja apabila kedalaman tidak berkurangan dengan ketara.
- Llama-3.1-Minitron: Melaksanakan amalan terbaik
#🎜🎜 ciri berkuasa #Meta Llama yang dilancarkan baru-baru ini 3.1 keluarga model sumber terbuka adalah setanding dengan model sumber tertutup dalam banyak penanda aras. Parameter Llama 3.1 berjulat daripada 405B besar hingga 70B dan 8B.
Dengan pengalaman penyulingan Nemotron, NVIDIA berhasrat untuk menyaring model Llama 3.1 8B menjadi model 4B yang lebih kecil dan lebih cekap, mengambil langkah berikut:
#🎜🎜 ##🎜 🎜# penalaan halus guru
Pemangkasan mendalam sahaja
#🎜🎜🎜##🎜🎜 🎜🎜#Tanda Aras Ketepatan
Tanda Aras Prestasi#🎜##🎜🎜🎜🎜🎜 🎜 ## 🎜🎜#penalaan halus guru
- Untuk membetulkan bias pengedaran set data asal yang menjadi asas latihan model, NVIDIA mula-mula melatih model 8B yang tidak dipangkas pada mereka set data (token 94B) Ditala halus. Eksperimen menunjukkan bahawa jika bias pengedaran tidak diperbetulkan, model guru menyediakan panduan suboptimum untuk set data semasa penyulingan. Pemangkasan mendalam sahaja
- Untuk mengurangkan daripada 8B kepada 4B, NVIDIA memangkas 16 lapisan (50%). Mula-mula mereka menilai kepentingan setiap lapisan atau kumpulan sub-lapisan berturut-turut dengan mengalih keluarnya daripada model dan memerhatikan peningkatan kehilangan LM atau penurunan ketepatan dalam tugas hiliran.
- Rajah 5 di bawah menunjukkan nilai kehilangan LM pada set pengesahan selepas mengeluarkan 1, 2, 8 atau 16 lapisan. Sebagai contoh, plot merah untuk lapisan 16 menunjukkan kehilangan LM yang berlaku jika 16 lapisan pertama dialih keluar. Lapisan 17 menunjukkan kehilangan LM juga berlaku jika lapisan pertama dikekalkan dan lapisan 2 hingga 17 dipadamkan. Nvidia memerhati: Lapisan permulaan dan penamat adalah yang paling penting.
5: Kepentingan pemangkasan kedalaman sahaja lapisan tengah.
Walau bagaimanapun, NVIDIA memerhatikan bahawa kerugian LM ini tidak semestinya berkaitan secara langsung dengan prestasi hiliran. Rajah 6 di bawah menunjukkan ketepatan Winogrande bagi setiap model yang dipangkas, yang menunjukkan bahawa adalah yang terbaik untuk memadamkan lapisan ke-16 hingga ke-31, di mana lapisan ke-31 ialah lapisan kedua terakhir, 5 daripada model pangkas -shot ketepatan adalah jauh lebih tinggi daripada ketepatan rawak (0.5). Nvidia mengambil cerapan ini dan mengalih keluar lapisan 16 hingga 31.
Pemangkasan lebar sahaja
NVIDIA membenamkan prun di sepanjang paksi lebar antara media (tersembunyi) dan MLP untuk memampatkan Llama 3.1 8B. Khususnya, mereka menggunakan strategi berasaskan pengaktifan yang diterangkan sebelum ini untuk mengira skor kepentingan bagi setiap kepala perhatian, saluran pembenaman dan dimensi tersembunyi MLP.
Selepas anggaran kepentingan, NVIDIA memilih

Pangkas saiz tersembunyi dari 4096 hingga 3072.
Latih semula perhatian kepada bilangan kepala dan bilangan lapisan.
Perlu dinyatakan bahawa selepas pemangkasan sampel tunggal, kehilangan LM pemangkasan lebar adalah lebih tinggi daripada pemangkasan kedalaman. Walau bagaimanapun, selepas tempoh latihan semula yang singkat, arah aliran berubah.
Tanda Aras Ketepatan
NVIDIA menggunakan parameter berikut untuk menyuling model
#🎜##🎜🎜🎜🎜##🎜🎜 #Kadar pembelajaran puncak = 1e-4- Kadar pembelajaran minimum = 1e-5
#🎜🎜 linear Warmup
Cosine Decay Plan
-
Saiz kelompok global = ###saiz kelompok = 1152🎜🎜 🎜🎜#
Jadual 1 di bawah menunjukkan varian model Llama-3.1-Minitron 4B (pantasan lebar dan pemangkasan kedalaman) berbanding model asal Llama 3.1 8B dan model bersaiz serupa lain pada penanda aras merentas berbilang domain Perbandingan prestasi dalam ujian. Secara keseluruhan, NVIDIA sekali lagi mengesahkan keberkesanan strategi pemangkasan yang luas berbanding pemangkasan mendalam yang mengikut amalan terbaik.
untuk Bandingkan.

Mereka menggunakan data latihan Nemotron-4 340B dan menilai pada IFEval, MT-Bench, ChatRAG-Bench dan Berkeley Function Calling Leaderboard (BFCL) untuk menguji arahan mengikut, main peranan, RAG dan fungsi panggilan fungsi. Akhirnya, telah disahkan bahawa model Llama-3.1-Minitron 4B boleh menjadi model arahan yang boleh dipercayai, mengatasi prestasi SLM asas yang lain. #🎜🎜 ##### 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜 ## 🎜🎜#Jadual 2: Jajarkan ketepatan model penjajaran dengan model penjajaran skala yang serupa.
Tanda Aras Prestasi
NVIDIA memanfaatkan NVIDIA TensorRT-LLM, alat pengoptimuman LLM, alat sumber terbuka ) model Llama 3.1 8B dan Llama-3.1-Minitron 4B yang dioptimumkan.
Varian Llama-3.1-Minitron-4B-Depth-Base adalah yang terpantas, dengan daya pemprosesan purata kira-kira 2.7 kali ganda berbanding Llama 3.1 8B, manakala Llama-3.1-Minitron-4B-Width -Varian asas adalah yang terpantas Purata daya pemprosesan varian adalah kira-kira 1.8 kali ganda berbanding Llama 3.1 8B. Penggunaan dalam FP8 juga meningkatkan prestasi ketiga-tiga model sebanyak lebih kurang 1.3x berbanding BF16.
# 🎜🎜# e Figur 1 : BS =32, Llama-3.1-Minitron 4B model BS=64 1x H100 80GB GPU.
Kesimpulan


https://arxiv.org/abs/2407.14679# 🎜🎜#
https://github.com/NVlabs/Minitron
https://huggingface.co/nvidia/Llama- 3.1-Minitron-4B-Width-Base
https://huggingface.co/nvidia/Llama-3.1-Minitron-4B-Depth-Base#🎜🎜
Pautan rujukan:
- https://developer.nvidia.nvidia. /cara-memangkas-dan-menyuling-llama-3-1-8b-kepada-an-nvidia-llama-3-1-minitron-4b-model/
以上がNvidia はプルーニングと蒸留に取り組んでいます。Llama 3.1 8B パラメーターを半分にカットして、同じサイズでより良いパフォーマンスを実現します。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

オープンな LLM コミュニティは百花繚乱の時代です Llama-3-70B-Instruct、QWen2-72B-Instruct、Nemotron-4-340B-Instruct、Mixtral-8x22BInstruct-v0.1 などがご覧いただけます。優秀なパフォーマーモデル。しかし、GPT-4-Turboに代表される独自の大型モデルと比較すると、オープンモデルには依然として多くの分野で大きなギャップがあります。一般的なモデルに加えて、プログラミングと数学用の DeepSeek-Coder-V2 や視覚言語タスク用の InternVL など、主要な領域に特化したいくつかのオープン モデルが開発されています。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com。はじめに 近年、さまざまな分野でマルチモーダル大規模言語モデル (MLLM) の適用が目覚ましい成功を収めています。ただし、多くの下流タスクの基本モデルとして、現在の MLLM はよく知られた Transformer ネットワークで構成されています。

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。
