Matmulfrei gegen Matmul LLMs: Geschwindigkeit und Speicherkonsum-KI-php.cn

Großspracher (LLMs) stützen sich stark auf Matrix -Multiplikationen (MATMUL) für ihre Operationen, was zu erheblichen Anforderungen an den Rechen- und Spitzenspeicher führt. In einer kürzlich veröffentlichten Arbeit ist jedoch ein neuer Archetyp von matmulfreiem LLMs entstand

In diesem Artikel vergleichen ich matmulfreie LLMs mit ihren klassischen Gegenstücken. Ich werde ihre generativen Funktionen und den Ressourcenverbrauch in drei verschiedenen Modellgrößen untersuchen: 370 m, 1,3B und 2,7B -Parameter. Meine Analyse wird den Geschwindigkeits- und Spitzenspeicherverbrauch der Modelle abdecken und die potenziellen Vorteile von matmulfreien Architekturen in modernen NLP hervorheben.

Um mehr über matmulfreie LLMs zu erfahren, können Sie diesen Artikel lesen: matmulfreie LLMs: Schlüsselkonzepte erklärt.

Setup

Dieser Abschnitt wird das Setup durchlaufen, mit dem ich die Experimente durchgeführt habe.

Modelle zum Vergleichen

Die Autoren des Papiers erwähnen nicht ausdrücklich, mit welchen Modellen sie ihre matmulfreien Modelle verglichen haben. Sie geben nur an, dass sie „zwei Varianten unseres matmul-freien LM mit einer reproduzierten fortschrittlichen Transformatorarchitektur (Transformator, basierend auf LLAMA-2) über drei Modellgrößen: 370 m, 1,3B und 2,7B-Parameter vergleichen.“ Zusätzlich wurden alle Modelle auf dem Slimpajama -Datensatz trainiert.

Um einen fairen Vergleich zu gewährleisten, ist es ideal, Open-Source-Modelle zu verwenden, die auf demselben Datensatz trainiert wurden. Aufgrund der Nichtverfügbarkeit solcher Modelle vergleicht dieser Artikel jedoch den Spitzenspeicherverbrauch und die Geschwindigkeit der verfügbaren Modelle ähnlicher Größe mit den im Papier dargestellten Ergebnissen.

Dies sind die Modelle, mit denen wir sie vergleichen werden:

Es ist wichtig zu beachten, dass matmulfreie LLMs ternäre Gewichte und BF16-Aktivierungen verwenden, was sich erheblich auf ihre Speicher- und Geschwindigkeitseigenschaften auswirkt. Da keine anderen Modelle in unserem Vergleichssatz ternäre Gewichte und BF16-Aktivierungen verwenden, bieten diese Funktionen matmulfreie LLMs mit einzigartigen Vorteilen hinsichtlich der Speicherwirkungsgrad und der Verarbeitungsgeschwindigkeit. Diese Unterscheidung wird in unserer vergleichenden Analyse von entscheidender Bedeutung sein, um zu unterstreichen, wie diese Innovationen zur Gesamtleistung von matmulfreien Modellen beitragen.

Installieren der erforderlichen Bibliotheken

Um unsere Vergleiche durchzuführen, werden wir in einer Google Colab -Umgebung mit einer T4 -GPU -Laufzeit arbeiten. Dieses Setup bietet eine leistungsstarke und dennoch zugängliche Plattform für das Ausführen und Bewertung von großsprachigen Modellen.

Die primäre Bibliothek, die wir verwenden werden, ist die Transformers Library von Huggingface, da alle Modelle, die wir benötigen, dort verfügbar sind. Wir können es mit dem folgenden Befehl installieren:

pip install transformers

Nach dem Login kopieren

Wir müssen auch die matmulfreellm-Bibliothek installieren, damit unsere matmul-freien Modelle ausgeführt werden können. Die Bibliothek ist Open Source und erhältlich auf GitHub können wir sie installieren, indem wir:

pip install -U git+https://github.com/ridgerchu/matmulfreellm

Nach dem Login kopieren

Um den Spitzenspeicherverbrauch zu überwachen, werden wir Pytorch verwenden, der je nach hier beschriebener System- und Paketmanager mit einer Vielzahl verschiedener Befehle installiert werden kann. Wenn Sie in Google Colab arbeiten, sollte es vorinstalliert werden.

Ausführen von Experimenten

Hier ist, wie wir die Experimente durchführen. Zunächst müssen wir die erforderlichen Bibliotheken importieren:

import torch
import time
from transformers import AutoModelForCausalLM, AutoTokenizer

Nach dem Login kopieren

Dann definieren wir für jedes Experiment die Modellnamen in einer Liste - das Beispiel ist für die Modelle im Parameterbereich von 370 m.

model_names = ["gpt2-medium", "facebook/opt-350m", "ridger/MMfreeLM-370M"]

Nach dem Login kopieren

Dann laden wir die Modelle und Tokenizer in den Speicher. Wenn Ihr System nicht genug hat, können Sie die Experimente für jedes Modell separat ausführen. Hier stellen wir sicher, dass Sie die Halbprezisionsschwimmer mit der .half () -Methode verwenden.

models = [AutoModelForCausalLM.from_pretrained(name).half().cuda() for name in model_names]
tokenizers = [AutoTokenizer.from_pretrained(name) for name in model_names]

Nach dem Login kopieren

Wir müssen auch das PAD_Token für jeden Tokenizer festlegen:

for tokenizer in tokenizers:
    if tokenizer.pad_token is None:
        tokenizer.pad_token = tokenizer.eos_token

Nach dem Login kopieren

, um alle erforderlichen Beobachtungen zu machen, die Modelle auszuführen und die Ausgabe zu erhalten - ich werde die folgende Messung_performance () -Funktion verwenden:

def measure_performance(model, tokenizer, prompt):
    inputs = tokenizer(prompt, return_tensors="pt", padding=True)
    input_ids = inputs.input_ids.cuda()
    attention_mask = inputs.attention_mask.cuda()
    torch.cuda.reset_peak_memory_stats()
    # Measure speed
    start_time = time.time()
    with torch.no_grad():
        outputs = model.generate(
            input_ids,
            attention_mask=attention_mask,
            max_length=128,
            pad_token_id=tokenizer.eos_token_id,
            repetition_penalty=1.1,
            no_repeat_ngram_size=2
        )
    end_time = time.time()
    # Measure memory after inference
    peak_memory = torch.cuda.max_memory_allocated()  # Peak memory usage during the operation
    generation_time = end_time - start_time
    memory_consumption = peak_memory / (1024 ** 2)  # Convert bytes to MB
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
   
    return generation_time, memory_consumption, generated_text

Nach dem Login kopieren

Die Funktion bewertet die Leistung eines Sprachmodells durch Messung der Inferenzgeschwindigkeit und des Spitzenspeicherverbrauchs. Es tokenisiert zunächst die Eingabeaufforderung, um ordnungsgemäße Aufmerksamkeitsmasken und -polsterungen sicherzustellen, und überträgt die Eingänge an die GPU. Die Speicherverwendung wird durch das Zurücksetzen und dann die Peak -Speicherstatistik verfolgt - wir konvertieren sie vor der Rückkehr in MBS.

Ich denke, die Verwendung von Peak Memory ist die wichtigste Statistik, da das einen Überlauf verursacht. Die Funktion misst auch die Inferenzgeschwindigkeit, indem die Zeit vor und nach der Textgenerierung aufgezeichnet wird (dies ist die Standardmethode, um die Laufzeit in Python zu messen).

Die Hyperparameter, die wir für die Erzeugung verwenden, sind in der Methode .generate () festgelegt. Wir verwenden die maximale Länge von 128 Token und setzen die Wiederholungsstrafe (dies geschieht, weil das matmulfreie Modell mehrmals die gleiche Antwort zu generieren schien). Am Ende gibt die Funktion Zeit, Spitzenspeicherverbrauch und der generierte Text zurück.

Jetzt können wir die Eingabeaufforderung definieren und die Experimente ausführen. Ich werde auch die Daten sammeln und die Modelle auf verschiedenen Eingabeaufforderungen ausführen, um die Daten zu sammeln.

prompt = "What are the benefits of renewable energy?" #example prompt
results = {}
for name, model, tokenizer in zip(model_names, models, tokenizers):
	time_taken, memory_used, output = measure_performance(model, tokenizer,prompt)
	results[name] = {
	    "time_taken": time_taken,
	    "memory_used": memory_used,
	    "output": output
	}
	print(f"Model: {name}\nTime taken: {time_taken} seconds\nMemory used: {memory_used} MB\nOutput: {output}\n")

Nach dem Login kopieren

Die Ausgabe sieht so aus:

Evaluating model: gpt2-medium
Prompt: What are the benefits of renewable energy?
Time taken: 3.17 seconds
Peak memory used: 3521.02 MB
Output: What are the benefits of renewable energy?
The answer is that it's cheaper than fossil fuels. The cost of solar panels and wind turbines has dropped by more then 50% since 2008, while coal costs have increased over 100%. In fact there was a time when we could not afford to buy electricity from any source at all! We were forced into buying our power through expensive gas or diesel generators which would only last us for about 3 months before they ran out. Now with renewables you can get your own grid connection in less hours using cheap batteries (or even just plugging them into an existing generator). Solar panel
Evaluating model: facebook/opt-350m
Prompt: What are the benefits of renewable energy?
Time taken: 2.15 seconds
Peak memory used: 3452.84 MB
Output: What are the benefits of renewable energy?
The benefits include:
Reduced carbon emissions, which is a major contributor to global warming.
Increased energy efficiency and reduced energy consumption. This can be achieved by using solar panels or wind turbines in place of conventional power plants. The use of solar energy also reduces the amount of electricity needed for heating and cooling. Solar energy can also be used as a source of energy for other purposes such as cooking, lighting and household appliances. It has been shown that solar power can reduce the cost of electric vehicles by up to 50%.
Improved energy security. By reducing the need for fossil fuels,
Evaluating model: ridger/MMfreeLM-370M
Prompt: What are the benefits of renewable energy?
Time taken: 31.68 seconds
Peak memory used: 3788.36 MB
Output: What are the benefits of renewable energy?
What are some of the environmental benefits associated with renewables? What is the potential impact on our environment and people's health? How can we make our buildings more energy efficient? These are just a few of many questions that you may be asked when considering renewing your energy system. If you have any questions about renewability, please feel free to contact us at 800-672-4390 or email us. We look forward to hearing from you!
How much does it cost to install solar panels in my home? The average cost for installation

Nach dem Login kopieren

Vergleich: matmulfrei gegen matmul

Leider haben traditionelle Modelle ihre matmul-freien Gegenstücke sowohl bei Geschwindigkeit als auch bei Spitzenspeicher konsequent übertroffen.

370m Bereichsmodelle

Für den Bereich von 370 m haben wir das 370 m matmulfreie Modell mit GPT2-Medium und Facebook/OPT-350 m verglichen.