650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました-AI-php.cn

方法の紹介

ホームページ

テクノロジー周辺機器

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

王林

Jun 20, 2023 pm 03:57 PM

モデル科学技術

大規模モデルの方向では、テクノロジー大手が大規模なモデルをトレーニングしており、学術界はモデルを最適化する方法を考えています。最近、コンピューティング能力を最適化する方法が新たなレベルに上昇しました。

大規模言語モデル (LLM) は、自然言語処理 (NLP) の分野に革命をもたらし、創発やひらめきなどの並外れた能力を実証しました。ただし、特定の一般的な機能を備えたモデルを構築したい場合は、数十億のパラメーターが必要となり、NLP 研究の敷居が大幅に高くなります。 LLM モデルのチューニングプロセスには通常、8×80GB GPU デバイスなどの高価な GPU リソースが必要となるため、小規模の研究所や企業がこの分野の研究に参加することが困難になります。

最近、限られたリソースで LLM を調整するためのソリューションを提供する、LoRA やプレフィックスチューニングなどのパラメーター効率的微調整技術 (PEFT) が研究されています。ただし、これらの方法は、パラメータ効率の高い微調整よりも強力な方法として認識されているフルパラメータ微調整に対する実用的な解決策を提供しません。

復旦大学の邱西鵬氏のチームが先週提出した論文「リソースが限られた大規模言語モデルのためのフルパラメータ微調整」の中で、研究者らは新しいオプティマイザー LOw-Memory Optimization (ロモ）。

LOMO を既存のメモリ節約技術と統合することにより、新しいアプローチでは標準のアプローチ (DeepSpeed ソリューション) と比較してメモリ使用量が 10.8% に削減されます。その結果、新しいアプローチにより、それぞれ 24 GB のメモリを搭載した 8 × RTX 3090 を搭載したマシン上で 65B モデルの完全なパラメーター微調整が可能になります。

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

論文リンク: https://arxiv.org/abs/2306.09782

この研究では、著者は LLM のメモリ使用量の 4 つの側面 (アクティベーション、オプティマイザーの状態、勾配テンソルとパラメーター) を分析し、次の 3 つの側面でトレーニングプロセスを最適化しました。

私たちはアルゴリズムの観点からオプティマイザーの機能を再検討し、LLM の完全なパラメーターを微調整するには SGD が優れた代替手段であることがわかりました。これにより、SGD は中間状態を保存しないため、作成者はオプティマイザ状態の一部全体を削除できます。
新しく提案されたオプティマイザ LOMO は、勾配テンソルのメモリ使用量を O(1) に削減します。これは、最大の勾配テンソルのメモリ使用量と同等です。
LOMO を使用した混合精度トレーニングを安定させるために、著者らは勾配正規化、損失スケーリングを統合し、トレーニング中に特定の計算を完全精度に変換します。

#新しいテクノロジにより、メモリ使用量はパラメータ使用量にアクティブ化テンソルと最大勾配テンソルを加えたものと等しくなります。フルパラメータ微調整のメモリ使用量は極限まで高められており、これは推論の使用量に相当します。これは、順方向、逆方向プロセスのメモリフットプリントが、順方向プロセスのみのメモリフットプリント以上である必要があるためです。 LOMO を使用してメモリを節約する場合、パラメータ更新プロセスは依然として SGD と同等であるため、新しい方法では微調整プロセスが影響を受けないことが保証されることは注目に値します。

この研究では、LOMO のメモリとスループットのパフォーマンスを評価し、LOMO を使用すると、研究者が 8 つの RTX 3090 GPU で 65B のパラメーターモデルをトレーニングできることが示されました。さらに、ダウンストリームタスクでの LOMO のパフォーマンスを検証するために、LOMO を適用して SuperGLUE データセットコレクション上の LLM のすべてのパラメーターを調整しました。この結果は、数十億のパラメータを使用して LLM を最適化する LOMO の有効性を示しています。

方法の紹介

この記事では、方法セクションで LOMO (LOW-MEMORY OPTIMIZATION) について詳しく紹介します。一般に、勾配テンソルはパラメータテンソルの勾配を表し、そのサイズはパラメータと同じであるため、メモリオーバーヘッドが大きくなります。 PyTorch などの既存の深層学習フレームワークは、すべてのパラメーターの勾配テンソルを保存します。現在、勾配テンソルを保存する理由は 2 つあります。それは、オプティマイザーの状態を計算することと、勾配を正規化することです。

この研究ではオプティマイザーとして SGD を採用しているため、勾配に依存するオプティマイザーの状態はなく、勾配正規化の代替手段がいくつかあります。

彼らは、アルゴリズム 1 に示すように、勾配計算とパラメーター更新を 1 ステップで融合する LOMO を提案し、勾配テンソルの保存を回避しました。

次の図は、バックプロパゲーション段階とパラメーター更新段階における SGD と LOMO の比較を示しています。 Pi はモデルパラメーター、Gi は Pi に対応する勾配です。 LOMO は、勾配計算とパラメーター更新を 1 つのステップに統合して、勾配テンソルを最小限に抑えます。

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

#LOMO 対応アルゴリズム擬似コード:

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

具体的には、この研究ではバニラ勾配降下法を

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

として表します。これは 2 段階のプロセスであり、最初に計算します。グラデーションを設定してからパラメータを更新します。融合バージョンは

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

この研究の重要なアイデアは、勾配の計算時にパラメーターを即座に更新することです。これにより、勾配テンソルは次のようになります。メモリには保存されません。このステップは、バックプロパゲーションにフック関数を注入することで実現できます。 PyTorch はフック関数を挿入するための関連 API を提供しますが、現在の API では正確な即時更新を実現することは不可能です。代わりに、この研究では最大 1 つのパラメーターの勾配をメモリに保存し、バックプロパゲーションを使用して各パラメーターを 1 つずつ更新します。この方法により、勾配のメモリ使用量が、すべてのパラメータの勾配を保存する場合から 1 つのパラメータのみの勾配にまで削減されます。

LOMO のメモリ使用量のほとんどは、パラメータ効率の高い微調整手法のメモリ使用量と一致しており、LOMO とこれらの手法を組み合わせても、メモリ使用量はわずかに増加するだけであることがわかります。勾配メモリ使用量。これにより、より多くのパラメータを PEFT メソッド用に調整できるようになります。

実験結果

実験部分では、研究者らは、メモリ使用量、スループット、ダウンストリームのパフォーマンスという 3 つの側面から提案手法を評価しました。詳しい説明は省略しますが、すべての実験は LLaMA モデル 7B ～ 65B を使用して実行されました。

メモリ使用量

研究者らは、まずモデルのステータスとアクティブ化されたメモリの使用量を分析しました。表 1 に示すように、AdamW オプティマイザーと比較して、LOMO オプティマイザーを使用すると、メモリ使用量が 102.20GB から 14.58GB に大幅に削減されます。LLaMA-7B モデルをトレーニングする場合、SGD と比較してメモリ使用量が減少します。 51.99GB から 14.58GB に減少しました。メモリ使用量の大幅な削減は、主に勾配とオプティマイザの状態に必要なメモリが削減されたことによるものです。したがって、トレーニングプロセス中、メモリの大部分はパラメータによって占有されます。これは、推論中のメモリ使用量と同等です。

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

#図 2 に示すように、LLaMA-7B トレーニングに AdamW オプティマイザーが使用される場合、かなりの割合のメモリが( 73.7%) はオプティマイザ状態に割り当てられます。 AdamW オプティマイザーを SGD オプティマイザーに置き換えると、オプティマイザー状態によって占有されるメモリの割合が効果的に削減され、GPU メモリの使用量が軽減されます (102.20GB から 51.99GB に)。 LOMO を使用すると、パラメータの更新とその逆の処理が 1 つのステップにマージされ、オプティマイザ状態のためのメモリ要件がさらに排除されます。

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

スループット

研究者は、LOMO、AdamW、および SGD のスループットパフォーマンスを比較しました。実験は 8 つの RTX 3090 GPU を搭載したサーバーで実施されました。

7B モデルの場合、LOMO のスループットは AdamW と SGD を約 11 倍上回り、大きな利点を示しています。この大幅な改善は、単一の GPU で 7B モデルをトレーニングする LOMO の機能に起因しており、これにより GPU 間の通信オーバーヘッドが削減されます。 AdamW と比較して SGD のスループットがわずかに高いのは、SGD が運動量と分散の計算を除外しているためであると考えられます。

13B モデルに関しては、メモリ制限のため、既存の 8 つの RTX 3090 GPU で AdamW を使用してトレーニングすることはできません。この場合、LOMO にはモデルの並列処理が必要ですが、スループットの点では依然として SGD を上回っています。この利点は、LOMO のメモリ効率の高い性質と、同じ設定でモデルをトレーニングするのに必要な GPU が 2 つだけであるため、通信コストが削減され、スループットが向上するという事実によるものです。さらに、SGD では 30B モデルのトレーニング時に 8 つの RTX 3090 GPU でメモリ不足 (OOM) の問題が発生しましたが、LOMO は 4 つの GPU のみで良好にパフォーマンスを発揮しました。

最終的に、研究者は 8 つの RTX 3090 GPU を使用して 65B モデルのトレーニングに成功し、4.93 TGS のスループットを達成しました。このサーバー構成と LOMO を使用すると、1,000 個のサンプル (各サンプルには 512 個のトークンが含まれます) でのモデルのトレーニングプロセスに約 3.6 時間かかります。

ダウンストリームのパフォーマンス

大規模な言語モデルの微調整における LOMO の有効性を評価するために、研究者たちは広範囲にわたる一連の実験。彼らは LOMO を他の 2 つの方法と比較しました。1 つは微調整を必要としないゼロショットであり、もう 1 つは一般的なパラメータ効率の高い微調整手法である LoRA です。

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

表 3 の結果は次のことを示しています:

LOMO のパフォーマンスは Zero よりも大幅に優れています-shot ;
ほとんどの実験では、LOMO は通常 LoRA よりも優れたパフォーマンスを発揮します。
LOMO は 650 億のパラメーターモデルまで効果的に拡張できます。

LOMO と LoRA は本質的に互いに独立しています。この声明を検証するために、研究者らはLLaMA-13Bを使用してBoolQデータセットとMultiRCデータセットで実験を実施しました。結果を図 3 に示します。

彼らは、LoRA がどれほど高い結果を達成したかに関係なく、LOMO が LoRA のパフォーマンスを向上させ続けることを発見しました。これは、LOMO と LoRA で採用されているさまざまな微調整方法が補完的であることを示しています。具体的には、LOMO は事前トレーニングされたモデルの重みを微調整することに重点を置き、LoRA は他のモジュールを調整します。したがって、LOMO は LoRA のパフォーマンスに影響を与えず、代わりに下流タスクのモデル調整を容易にします。

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

# 詳細については、元の論文を参照してください。

以上が650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げましたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明

この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

脱衣画像を無料で

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

神レベルのコード編集ソフト（SublimeText3）

ホットトピック

Gmailメールのログイン入り口はどこですか？

7455

CakePHP チュートリアル

1375

Steamのアカウント名の形式は何ですか

Win11 Activation Key Permanent

NYTの接続はヒントと回答です

Related knowledge

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニングコストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

こんにちは、電気アトラスです！ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか？」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソースプロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね！」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』（米国数学協会会報）の最新号を送ってくれた。「機械は数学を変えるのか？」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマークテストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

テスラのロボットは工場で働く、マスク氏：手の自由度は今年22に達する！ May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー（テスラの4680バッテリー）を次のように分類します：公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング：今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジムファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディングボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディングボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンスセグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラデータセットで 49.5% の mAP を達成しました。

Llama 70B を実行するシングルカードはデュアルカードより高速、Microsoft は FP6 を A100 オープンソースに強制導入 Apr 29, 2024 pm 04:55 PM

FP8 以下の浮動小数点数値化精度は、もはや H100 の「特許」ではありません。 Lao Huang は誰もが INT8/INT4 を使用できるようにしたいと考え、Microsoft DeepSpeed チームは NVIDIA からの公式サポートなしで A100 上で FP6 の実行を開始しました。テスト結果は、A100 での新しい方式 TC-FPx の FP6 量子化が INT4 に近いか、場合によってはそれよりも高速であり、後者よりも精度が高いことを示しています。これに加えて、エンドツーエンドの大規模モデルのサポートもあり、オープンソース化され、DeepSpeed などの深層学習推論フレームワークに統合されています。この結果は、大規模モデルの高速化にも即座に影響します。このフレームワークでは、シングルカードを使用して Llama を実行すると、スループットはデュアルカードのスループットの 2.65 倍になります。 1つ

See all articles

650 億のパラメータ、8 つの GPU ですべてのパラメータを微調整可能: Qiu Xipeng のチームは大規模モデルのしきい値を下げました

方法の紹介

ホットAIツール

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

人気の記事

ホットツール

メモ帳++7.3.1

SublimeText3 中国語版

ゼンドスタジオ 13.0.1

ドリームウィーバー CS6

SublimeText3 Mac版

ホットトピック