MatmulフリーとMatmul LLMS：速度とメモリの消費-AI-php.cn

大規模な言語モデル（LLMS）は、マトリックス乗算（MATMUL）に操作に大きく依存しており、大幅な計算およびピークメモリ要件につながります。ただし、最近の論文では、MatmulのないLLMSの新しいアーキタイプが登場し、リソースの使用量が減少する可能性があると同等のパフォーマンスが有望です。この記事では、MatmulのないLLMを古典的な対応物と比較します。 370m、1.3b、および2.7bパラメーターの3つの異なるモデルサイズで、それらの生成機能とリソース消費を調べます。私の分析では、モデルの速度とピークメモリの消費をカバーし、最新のNLPにおけるMatmulのないアーキテクチャの潜在的な利点を強調しています。

Matmul Free LLMSの詳細については、この記事を読むことができます：Matmul-Free LLMS：Key Concepts説明。

セットアップ

このセクションは、実験を実施するために使用したセットアップを紹介します。

モデルを比較するモデル

論文の著者は、どのモデルがマットフリーモデルを比較したかを明示的に言及していません。彼らは、「370m、1.3b、および2.7bパラメーターの3つのモデルサイズにわたって、私たちのMatmulフリーLMの2つのバリエーションを再現された高度な変圧器アーキテクチャ（トランス、Llama-2に基づいて変圧器）と比較しています。」さらに、すべてのモデルはSlimpajamaデータセットでトレーニングされました

公正な比較を確保するために、同じデータセットでトレーニングされたオープンソースモデルを使用することが理想的です。ただし、このようなモデルが利用できないため、この記事では、同様のサイズの利用可能なモデルのピークメモリ消費と速度を、論文で提示された調査結果と比較しています。

これらは、それらを比較するモデルです。

370m -gpt2-medium、facebook/opt-350m

1.3b-Microsoft/Phi-1_5、openai-community/gpt2-xl

2.7b -Facebook/opt -2.7b

MATMULフリーLLMSが3成分重みとBF16の活性化を使用していることに注意することが重要です。これは、メモリと速度の特性に大きな影響を与えます。比較セットの他のモデルは、三元重みとBF16のアクティベーションを利用していないため、これらの機能は、メモリ効率と処理速度の観点からマットフリーLLMSに独自の利点を提供します。この区別は、私たちの比較分析で重要であり、これらのイノベーションがMatmulのないモデルの全体的なパフォーマンスにどのように貢献するかを強調します。必要なライブラリのインストール

使用するプライマリライブラリは、必要なモデルのすべてがそこから利用できるため、Huggingfaceのトランスライブラリです。次のコマンドでインストールできます：

pip install transformers

ログイン後にコピー

pip install -U git+https://github.com/ridgerchu/matmulfreellm

ログイン後にコピー

次に、各実験について、リスト内のモデル名を定義します。必要な例は、370mパラメーター範囲のモデル用です。

import torch
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

ログイン後にコピー

また、各トークナイザーのPAD_TOKENを設定する必要があります。

model_names = ["gpt2-medium", "facebook/opt-350m", "ridger/MMfreeLM-370M"]

ログイン後にコピー

models = [AutoModelForCausalLM.from_pretrained(name).half().cuda() for name in model_names]
tokenizers = [AutoTokenizer.from_pretrained(name) for name in model_names]

ログイン後にコピー

生成に使用するハイパーパラメーターは、.generate（）メソッドで設定されます。 128トークンの最大長を使用して、繰り返しペナルティを設定します（これは、Matmulのないモデルが同じ応答を複数回生成するように見えるために行われます）。最終的に、関数は時間、ピークメモリ消費、および生成されたテキストを返します。

for tokenizer in tokenizers:
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

ログイン後にコピー

出力は次のようになります：

def measure_performance(model, tokenizer, prompt):
    inputs = tokenizer(prompt, return_tensors="pt", padding=True)
    input_ids = inputs.input_ids.cuda()
    attention_mask = inputs.attention_mask.cuda()
    torch.cuda.reset_peak_memory_stats()
    # Measure speed
    start_time = time.time()
    with torch.no_grad():
        outputs = model.generate(
            input_ids,
            attention_mask=attention_mask,
            max_length=128,
            pad_token_id=tokenizer.eos_token_id,
            repetition_penalty=1.1,
            no_repeat_ngram_size=2
        )
    end_time = time.time()
    # Measure memory after inference
    peak_memory = torch.cuda.max_memory_allocated()  # Peak memory usage during the operation
    generation_time = end_time - start_time
    memory_consumption = peak_memory / (1024 ** 2)  # Convert bytes to MB
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
   
    return generation_time, memory_consumption, generated_text

ログイン後にコピー

比較：Matmul-Free vs. Matmul

残念ながら、従来のモデルは、速度とピークのメモリ使用の両方で、一貫してマットフリーのカウンターパートを上回っていました。

370mの範囲では、370mのMATMULフリーモデルをGPT2-MEDIUMおよびFacebook/OPT-350Mと比較しました。

平均して、すべてのプロンプトで、Matmulのないモデルが16秒かかり、応答を生成し、2900 MBのメモリを使用しました。一方、GPT2-Mは3秒かかり、プロンプトと2810 MBのメモリを生成します（これはおそらくサイズの違いによるもので、GPT2-Mは350mパラメーターが大きいためです）。同様に、OPT350-Mは2.3秒かかり、応答と2815 MBのメモリを生成しました。

MatmulフリーとMatmul LLMS：速度とメモリの消費

この範囲では、Microsoft/Phi-1_5およびOpenai-Community/GPT2-XLに対してMatmul Freeモデルをテストしました。

GPTモデルは、平均して5.3秒かかり、応答を生成し、12435 MBのピークメモリ消費量を獲得しました。 Microsoftのモデルは、応答を生成するのに2.9秒かかり、約12033 MBのピークメモリ消費量がありました。最後に、MATMULフリーモデルは平均37秒かかり、応答を生成し、5470MBのピークメモリ消費量を獲得しました！ MatmulフリーとMatmul LLMS：速度とメモリの消費

2.7b範囲モデル MatmulフリーとMatmul LLMS：速度とメモリの消費

MatmulフリーとMatmul LLMS：速度とメモリの消費

速度の点では、マットフリーモデルは不足していました。ただし、生成するテキストの品質についてそれらを評価できます。この実験は、利用可能な最大のMatmul Freeモデルで実行されます。生成されたテキストの品質を包括的に理解するには、多様なプロンプトのセットを使用する必要があります。このgithubリポジトリのコードを参照してください（プロンプト応答の例は、コードを再度実行し、常にランダム性が関係しているため、少し異なることに注意してください）。 MatmulフリーとMatmul LLMS：速度とメモリの消費プロンプト：変化する季節についての詩を作成します

プロンプト：機械学習における監視されていない学習と監督されていない学習の違いを説明してください。

を持っていません。

応答：2007-09-15 14:36:08-＆gt;言語クラス初期化

13931638 24833432-＆gt;構成クラスが読み込まれました。次のクラスは自動的に選択されます。＆lt;/pre＆gt;

＆lt; div＆gt; ＆lt; p class = 'text-center'＆gt;

＆lt; strong＆gt; class＆lt; /strong＆gt;＆lt; br /＆gt;

＆lt; a href = "class/mage_core_model_config_abstract.html"＆gt; magescoremodelconfig＆lt;/a＆gt; ＆lt;/

プロンプト：ゼロで分割されたものは何ですか

応答：A：それは0の平方根です。

負の数の二乗は、その数がそれ自体をベース10で掛けたものと同じであるため、正の数でなければなりません。広場には2ドルの値があるため、これはそれ自体が正方形です。リスト内の他の数字でそれが何であるかを知りたい場合は、それらを掛けるだけです！

$ 2回3 = 6 $。これは、$ 0 $から$ 9 $までの価値を持つことができることを意味します。全体として、生成されたテキストはほとんどの場合一貫性がなく、これらのモデルの使用を非現実的にしています。また、さまざまなハイパーパラメーターをテストすることにしました。繰り返しペナルティなしと512の最大長です。ここでは、モデルはまだ意味のないものを生成しました。さらに、回答が512トークンに達するまで、応答の最後の行を繰り返しました。また、温度とTOP_Pハイパーパラメーターでプロンプトをテストしましたが、結果は良くありませんでした。

概要

実験は、推論速度やピークメモリ消費を含むさまざまなメトリックを使用した従来のモデルと比較して、MatmulのないLLMのパフォーマンスを評価することを目的としています。さまざまなプロンプトを使用して、さまざまなプロンプトを使用して、さまざまなシナリオでのパフォーマンスを評価するさまざまなパラメーターサイズ（370m、1.3b、および2.7b）にわたってモデルをテストしました。

推論速度：従来のモデルは、推論速度の観点から一貫してMatmulのないモデルよりも優れていました。 Matmulのないモデルは、すべてのプロンプトでより長い発電時間を示しました。
メモリ消費：1.3BパラメーターサイズのMATMULフリーモデルは、従来のモデルと比較してピークメモリ使用量が大幅に低いことを示しました！
出力の品質：モデルは多くの幻覚のように思われ、テキストはほとんどの場合は意味がありません。これはおそらく、トレーニングセットが限られており、モデルサイズが小さいためです。ただし、Matmulのないアーキテクチャの進歩により、私たちは間違いなくより有能なモデルを持っています。

著者からの洞察

GitHubの問題の1つで著者からのフィードバックを確認すると、バイナリおよび低精度操作に最適化された専門ライブラリであるBitblasを使用して、論文で報告されたパフォーマンスブーストが達成されたことが明らかになりました。ただし、Bitblasはまだ公開されているモデルに統合されておらず、そのインストールは複雑であり、パッケージの再コンパイルが必要です。

カスタムハードウェアソリューション

このペーパーでは、カスタムFPGAアクセラレータと最適化されたGPUカーネルの使用を強調して、パフォーマンスの大幅な改善を実現しています。これらのハードウェアソリューションは、トレーニングと推論効率の両方を強化するように設計されています。特に、FPGAの実装は、3成分操作を効率的に活用するように調整され、推論中のメモリの使用と遅延を大幅に削減します。これらのカスタムハードウェア構成は、速度とメモリ効率の報告された改善によって実証されているように、MatmulのないLLMの可能性を最大限に発揮するために不可欠です。

生成AIの分野が進化し続けるにつれて、MatmulのないLLMのような新しいモデルアーキテクチャのニュアンスと可能性を理解することは重要です。最新のAIの詳細については、これらの記事をご覧ください。