Huawei GTS LocMoE+: 高いスケーラビリティとアフィニティ MoE アーキテクチャ、アクティブルーティングを実現する低オーバーヘッド-AI-php.cn

ホームページ

テクノロジー周辺機器

Huawei GTS LocMoE+: 高いスケーラビリティとアフィニティ MoE アーキテクチャ、アクティブルーティングを実現する低オーバーヘッド

PHPz

Jul 19, 2024 pm 05:31 PM

ファーウェイプロジェクト LocMoE

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

この論文の共著者は、GTS AI Computing Lab の Li Jing 博士、Sun Zhijie 博士、Lin Dachao 博士です。主な研究および実装分野には、LLM トレーニングと促進、AI トレーニング保証、グラフコンピューティングが含まれます。

MoE は、トレーニングと昇進プロセスにおける低コストと高効率により、過去 2 年間、大規模言語モデルの分野で頭角を現してきました。 MoE の魂として、専門家が学習の可能性を最大限に高める方法について、関連する研究と議論が無限に行われています。以前、Huawei GTS AI Computing Labの研究チームは、新しいルーティングネットワーク構造、通信オーバーヘッドの削減を支援するローカルロスなどを含むLocMoEを提案し、広く注目を集めました。

LocMoE の上記の設計は、次のようなトレーニングにおける一部の MoE の古典的な構造のボトルネックを効果的に軽減します。専門家のルーティングアルゴリズムではトークンを効果的に区別できない可能性があり、通信同期効率は内部の送信帯域幅の違いによって制限されます。ノード間など。さらに、LocMoE は、識別トークンを正常に処理できる専門家の能力の下限を証明し、解決します。この下限は、トークンが専門家に受動的に配布されるシナリオにおいて、トークンバッチ内に存在する識別トークンの確率分布に基づいて導出されます。そして、専門家にも最適なトークンを選択する能力があれば、識別トークンが処理される確率は大幅に高まり、専門家の能力の下限はさらに圧縮されることになる。

上記のアイデアに基づいて、チームはさらに、低オーバーヘッドのアクティブルーティングに基づく MoE アーキテクチャを提案し、LocMoE+ と名付けました。 LocMoE+ は、LocMoE の高識別エキスパートとローカル通信の利点を継承し、ルーティング戦略をさらに変革し、トークンとエキスパート間の親和性インデックスを定義し、このインデックスから開始してトークン配布をより効率的に完了することで、トレーニング効率を向上させます。

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

論文リンク: https://arxiv.org/pdf/2406.00023

論文の紹介

この論文の核となるアイデアは組み合わせる専門家による従来のパッシブルーティングアクティブルーティングは、特定の容量の下で識別トークンを処理する確率を向上させるため、サンプルノイズが減少し、トレーニング効率が向上します。この論文は、トークンとそれに割り当てられたエキスパートとの関係から始まり、計算オーバーヘッドの低いスキームでエキスパートとトークンの間の親和性を定量化して定義します。したがって、この論文では、グローバル適応ルーティング戦略を実装し、親和性スコアに基づいてエキスパート次元でトークンを再配置および選択します。同時に、トークン特徴量の分布が安定するにつれてエキスパート能力の下限が徐々に減少することが証明されており、トレーニングのオーバーヘッドを削減できます。

この論文は、学習ルーティング戦略においてトークンがより小さな角度のエキスパートにルーティングされる傾向があるという発見に基づいて、2 つのルーティングメカニズムを組み合わせた最初の論文であり、影響を与える既存のアクティブルーティングソリューションの過剰なオーバーヘッドの障害を打ち破ります。トレーニングの効率も向上し、パッシブルーティングの性質との一貫性が保たれます。

この一連の作業の高い効率性を証明するために、著者が LocMoE とはまったく異なるハードウェア環境 (サーバーモデル、NPU カードモデル、クラスターネットワーキングスキーム)、トレーニングフレームワーク、およびバックボーンモデルを選択したことは言及する価値があります。そして持ち運びのしやすさ。

適応型双方向ルートディスパッチメカニズム

背景の紹介

従来の MoE には 2 つのルートディスパッチメカニズムがあります:

(1)ルーター、トークン全体を直接入れます特徴が割り当てられます。

(2) ソフトルーターは、トークン特徴の重み付けされた組み合わせを割り当てます。

この記事では、計算コストが低い (1) について引き続き検討します。ハードルーターのシナリオでは、1) 各トークンが上位 K のエキスパートを選択できるトークン選択ルーター (TCR)、2) 各エキスパートが適切な上位 -C を選択できるエキスパート選択ルーター (ECR) に分けることができます。トークン。容量の制限により、各エキスパートが受け取るトークンの数には上限 C があるため、シナリオ 1) では、各エキスパートが受け取るトークンは切り捨てられます:

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

以前の研究では、MoE トレーニングは 2 つの段階に分かれていると指摘しました。フェーズ 1。ルーティングトレーニングでは、ルーティングがトークンを合理的に割り当てることができるようにします。つまり、異なる分野のトークンや大きな違いがあるトークンを区別して、異なる専門家に割り当てることができます。フェーズ 2。トークンルーティングにより、各エキスパートの役割は、同じ分野または同様の特性を持つトークンを受け取ることです。各エキスパートは、特定のトレーニングを受けた後、関連する分野および特性の知識を取得できます。要約すると、MoE トレーニングの各ステップの「成功」の鍵は、トークン配布の正確さと合理性にあります。

この記事の貢献

(1) ソフトマックス活性化関数演繹を通じて、エキスパートとトークン間のコサイン類似度はより正確にアフィニティを測定できます:

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

(2) の観点から理論モデリングでは、TCR と ECR の単一トレーニングの成功率が 2 つの一般的なシナリオで分析されます。

理論に基づいて、著者は次のことを指摘しました。ルーティングトークンの機能が不十分です。TCR はトレーニングされるたびに、ECR よりもトレーニングが成功する確率が高く、適切なトークンが確実に選択されるようにするために、より多くの専門家の能力が必要です。

モデルトレーニングの後半段階では、ルーターがトークンを正しく割り当てる一定の能力を備えている場合、ECR がトレーニングされるたびに、TCR よりもトレーニングが成功する確率が高くなります。この時点では、より小さい容量しかありません。適切なトークンを選択するために必要です。

この理論も非常に直感的です。ルーターにディスパッチ能力がない場合、つまり、エキスパートがディスパッチ能力を持っている場合には、トークンにランダムにエキスパートを選択させる方がよいでしょう。適切なトークンの場合は、 ECR を使用する方が適切です。したがって、著者は TCR から ECR への移行を推奨し、同時に、エキスパートキャパシティの需要推定に基づいて、トレーニングの後期段階ではより小さなエキスパートキャパシティを使用するグローバルレベルの適応型ルーティングスイッチング戦略を提案します。

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

実験結果

この論文の実験は、Huawei 独自の Cache Coherence Protocol High-Performance Computing System (HCCS) のおかげで、Ascend 910B3 NPU の自己構築クラスター上で実施されました。デバイス間のデータ通信はマルチカードシナリオで実現され、Ascend プロセッサー専用に設計された Huawei Collective Communication Library (HCCL) により、HCCS などの高速リンクでの高性能分散トレーニングが可能になります。実験では、Ascend NPU と互換性のある PyTorch for Ascend フレームワークと、加速ライブラリ AscendSpeed および Ascend デバイス用に特別にカスタマイズされたトレーニングフレームワーク ModelLink を使用し、LLM 並列戦略と通信マスキングの最適化に焦点を当てています。

トレーニング効率

実験結果は、モデルトレーニングの収束や有効性に影響を与えることなく、各エキスパートが処理する必要があるトークンの数をベースラインと比較して 60% 以上削減できることを示しています。通信の最適化と組み合わせることで、クラスタサイズが 32 カード、64 カード、256 カードの場合、トレーニング効率が平均 5.4% ～ 46.6% 向上します。

ビデオメモリの使用量

华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

LocMoE+ では、特にクラスターサイズが小さく、コンピューティングが集中しているシナリオでは、ビデオメモリの使用量がある程度増加します。 Ascend Insight ツールを使用してメモリ監視サンプルを分析すると、LocMoE+ メモリ使用量はベースラインと比較して 4.57% から 16.27% 低下し、LocMoE と比較して 2.86% から 10.5% 低下したことがわかります。クラスターのサイズが大きくなるにつれて、メモリ使用量の差は縮小します。

有効性評価

オープンソースの評価セット C-Eval と TeleQnA、および独自に構築された ICT ドメイン評価セット GDAD を使用して、一般知識とドメイン知識における LocMoE+ の機能を評価しました。このうち、GDAD は、ドメインタスク、ドメインコンピテンシー認定試験、一般能力の 3 つの主要な評価システムにおけるモデルのパフォーマンスを検査するために、18,060 サンプルを含む合計 47 の下位項目をカバーしています。

十分な SFT の後、LocMoE+ は、ドメインタスク機能の 16 のサブ能力において、ベースラインと比較して平均約 20.1% 向上し、LocMoE と比較して約 3.5% 向上しました。ドメインコンピテンシー認定試験はそれぞれ 16% と 4.8% 増加しました。一般機能の 18 のサブ機能のうち、LocMoE+ はそれぞれ約 13.9% と 4.8% 向上しました。全体として、LocMoE+ は、GDAD、C-Eval、TeleQnA でそれぞれ 9.7% ～ 14.1% のパフォーマンス向上を示しています。华为GTS LocMoE+：高可扩展性亲和度 MoE 架构，低开销实现主动路由

以上がHuawei GTS LocMoE+: 高いスケーラビリティとアフィニティ MoE アーキテクチャ、アクティブルーティングを実現する低オーバーヘッドの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Java チュートリアル

1667

CakePHP チュートリアル

1426

Laravel チュートリアル

1328

PHP チュートリアル

1273

C# チュートリアル

1255

Related knowledge

余成東氏はファーウェイの三つ折り画面携帯電話が9月に発表されることを明らかに：価格は安くないと予想 Aug 20, 2024 am 06:36 AM

8月19日、Hongmengは上海でXiangjie S9オーナーの第1期納車式を開催し、ファーウェイ幹部のYu Chengdong氏が自ら出席し、車両をオーナーに引き渡した。現場では、すでにWenjie M5、M7、M9を所有している自動車所有者がYu Chengdong氏にファーウェイの3つ折り画面携帯電話をいつ買えるのか尋ねると、来月発売されると答えた。フェニフェニエ以前、ファーウェイの三つ折りスクリーン携帯電話と思われる実物の写真がインターネット上に流出し、広く懸念を引き起こした。写真では、Yu Chengdong氏が手にした新しい携帯電話は、画面サイズが従来の折りたたみ式携帯電話よりもはるかに大きく、タブレットではありませんが、タブレットよりも優れています。左側上部には中央に穴あきカメラがはめ込まれており、携帯電話の側面にはスタイラスが装備されていると思われる二重のデザインがぼんやりと見えます。これらの手がかりはすべてこれを示しています

Huawei Mate 60シリーズ、新しいAI排除+イメージアップグレード、秋のプロモーションを楽しむのに最適な時期 Aug 29, 2024 pm 03:33 PM

昨年Huawei Mate60シリーズが発売されて以来、個人的にはMate60Proをメインで使っています。ほぼ1年の間に、Huawei Mate60Proは複数のOTAアップグレードを受け、全体的なエクスペリエンスが大幅に向上し、人々に常に新しい感覚を与えました。たとえば、最近、Huawei Mate60 シリーズは再びイメージング機能の大幅なアップグレードを受けました。 1 つ目は、新しい AI 除去機能で、通行人やゴミをインテリジェントに除去し、空白領域を自動的に埋めることができます。2 つ目は、メインカメラの色の精度と望遠の鮮明さが大幅に向上しました。新学期シーズンであることを考慮して、Huawei Mate60シリーズは秋のプロモーションも開始しました。携帯電話の購入時に最大800元の割引が受けられ、開始価格は4,999元という低価格です。よく使われる、価値の高い新製品が多い

Nvidia はプルーニングと蒸留を試しています。Llama 3.1 8B のパラメータを半分にして、同じサイズでより良いパフォーマンスを実現しています。 Aug 16, 2024 pm 04:42 PM

小型モデルの台頭。先月、Meta は Llama3.1 シリーズのモデルをリリースしました。これには、Meta のこれまでで最大のモデルである 405B モデルと、それぞれ 700 億と 80 億のパラメータを持つ 2 つの小型モデルが含まれています。 Llama3.1 は、オープンソースの新時代の到来を告げるものと考えられています。ただし、新世代モデルはパフォーマンスが強力ですが、導入時には依然として大量のコンピューティングリソースが必要です。したがって、多くの言語タスクで十分なパフォーマンスを発揮し、導入コストも非常に安価な小規模言語モデル (SLM) を開発するという別の傾向が業界に現れています。最近、NVIDIA の研究では、構造化された重み枝刈りと知識の蒸留を組み合わせることで、最初は大きなモデルから徐々に小さな言語モデルを取得できることが示されました。チューリング賞受賞、メタチーフA

ファーウェイは、心拍数に基づいてユーザーの感情状態を評価できるスマートウェアラブル分野でXuanjiセンシングシステムを発売する Aug 29, 2024 pm 03:30 PM

最近、ファーウェイは、Xuanjiセンシングシステムを搭載した新しいスマートウェアラブル製品を9月に発売すると発表しました。これはファーウェイの最新スマートウォッチとなる予定です。この新製品は、高度な感情的健康モニタリング機能を統合し、正確性、包括性、スピード、柔軟性、オープン性、拡張性という 6 つの特徴を備えた包括的な健康評価をユーザーに提供します。このシステムはスーパーセンシングモジュールを使用し、マルチチャンネル光路アーキテクチャ技術を最適化することで、心拍数、血中酸素、呼吸数などの基本的な指標の監視精度を大幅に向上させます。さらに、Xuanji センシングシステムは、心拍数データに基づく感情状態の研究も拡張しており、生理学的指標に限定されず、ユーザーの感情状態やストレスレベルを評価することもでき、60 以上のスポーツのモニタリングをサポートしています。健康指標、心臓血管、呼吸器、神経、内分泌、

Apple と Huawei は両方ともボタンのない携帯電話を作りたがっていましたが、Xiaomi が最初にそれを作りましたか? Aug 29, 2024 pm 03:33 PM

Smartprix の報道によると、Xiaomi はコードネーム「Suzaku」というボタンのない携帯電話を開発中です。このニュースによると、コードネームZhuqueというこの携帯電話は、統合コンセプトで設計され、画面下カメラを使用し、Qualcomm Snapdragon 8gen4プロセッサを搭載する予定で、計画が変更されなければ、2025年に登場する可能性が高いとのことです。。このニュースを見たとき、2019 年に戻ったような気がしました。当時、Xiaomi は Mi MIX Alpha コンセプトフォンをリリースしました。サラウンドスクリーンのボタンのないデザインは非常に素晴らしかったです。ボタンのない携帯電話の魅力を初めて知りました。「魔法のガラス」が欲しいなら、まずボタンを殺さなければならない、ジョブズはかつて「スティーブ・ジョブズの伝記」の中で、携帯電話が「魔法のガラス」のようなものになりたいと述べた。

数十年ぶりに進歩が見られ、見習いのタオ・ゼシュアンさんとチャオ・ユーフェイさんが組み合わせ数学の問題を突破した Aug 15, 2024 pm 05:04 PM

最近、何十年も解決されなかった数学的パズルに初めて進歩が見られました。この進歩を推進しているのは、UCLA の大学院生である James Leng、MIT の数学の大学院生である Ashwin Sah、およびコロンビア大学の助教授である Mehtaab Sawhney です。その中で、ジェームズ・レンは有名な数学者のテレンス・タオに師事し、アシュウィン・サーは離散数学の達人である趙玉飛に師事しました。論文アドレス: https://arxiv.org/pdf/2402.17995 この研究で達成された画期的な成果を理解するには、等差数列から始める必要があります。等差数列の最初の n 項の合計は等差数列と呼ばれ、等差級数とも呼ばれます。 1936年、数学者パウル・エルデ

Mamba の作者による新作: Llama3 をハイブリッド線形 RNN に蒸留する Sep 02, 2024 pm 01:41 PM

深層学習の分野における Transformer の大成功の鍵は、アテンションメカニズムです。アテンションメカニズムにより、Transformer ベースのモデルは入力シーケンスに関連する部分に焦点を当てることができ、コンテキストの理解が向上します。ただし、アテンションメカニズムの欠点は、計算オーバーヘッドが高く、入力サイズに応じて二次関数的に増加するため、Transformer が非常に長いテキストを処理することが困難になることです。少し前に、Mamba の登場によりこの状況は打破され、コンテキストの長さが増加するにつれて線形拡張を実現できるようになりました。 Mamba のリリースにより、これらの状態空間モデル (SSM) は、秩序を維持しながら中小規模のスケールで Transformer に匹敵するか、さらにはそれを超えることができます。

Mate 60の価格は800元値下げされ、Pura 70の価格は1,000元値下げされます。HuaweiがMate 70をリリースするまで待ってください! Aug 16, 2024 pm 03:45 PM

8月16日のニュースによると、現行のファーウェイ製携帯電話はすでに新モデルの投入に向けて懸命に取り組んでおり、Mate60シリーズやPura70シリーズが次々と値下げされていくのは誰もが見たことがあるだろう。ファーウェイが8月15日にMate60シリーズの値下げを正式に発表したことにより、ファーウェイの主力2シリーズの最新モデルの価格調整が完了した。今年7月、ファーウェイはファーウェイPura70シリーズを最大1,000元値下げして販売すると正式に発表した。その中で、Huawei Pura70は直接割引で、開始価格は4999元です。Huawei Pura70 Beidou Satellite News Editionは直接割引で、開始価格は5099元です。 800元、開始価格は5699元。

See all articles

Huawei GTS LocMoE+: 高いスケーラビリティとアフィニティ MoE アーキテクチャ、アクティブ ルーティングを実現する低オーバーヘッド

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

Video Face Swap

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック

Huawei GTS LocMoE+: 高いスケーラビリティとアフィニティ MoE アーキテクチャ、アクティブルーティングを実現する低オーバーヘッド