4m Token? Minimax-text-01 übertrifft Deepseek v3-KI-php.cn

4m Token? Minimax-text-01 übertrifft Deepseek v3

Lisa Kudrow

Freigeben： 2025-03-10 10:00:17

Original

919 Leute haben es durchsucht

chinesische KI macht erhebliche Fortschritte und forderte führende Modelle wie GPT-4, Claude und Grok mit kostengünstigen Open-Source-Alternativen wie Deepseek-V3 und Qwen 2.5. Diese Modelle zeichnen sich aufgrund ihrer Effizienz, Zugänglichkeit und starker Leistung aus. Viele arbeiten unter zulässigen kommerziellen Lizenzen und erweitern ihre Berufung auf Entwickler und Unternehmen.

Minimax-Text-01, die neueste Ergänzung dieser Gruppe, setzt einen neuen Standard mit seiner beispiellosen 4-Millionen-Token-Kontextlänge und übertrifft die typische 128K-256-K-Token-Grenze. Diese erweiterte Kontextfähigkeit in Kombination mit einer hybriden Aufmerksamkeitsarchitektur für Effizienz und einer Open-Source-Lizenz fördert Innovation ohne hohe Kosten.

Lassen Sie uns in die Funktionen von Minimax-Text-01 eintauchen:

Inhaltsverzeichnis

Hybridarchitektur
Mischungsmischung (MOE) Strategie
Trainings- und Skalierungsstrategien
Optimierung nach dem Training
Key Innovations
Kern akademische Benchmarks
- Allgemeine Aufgaben Benchmarks
- Begründung Aufgaben Benchmarks
- Mathematik- und Codierungsaufgaben Benchmarks
Erste Schritte mit Minimax-text-01
Wichtige Links
Schlussfolgerung

Hybridarchitektur

minimax-text-01 gleicht Effizienz und Leistung geschickt aus, indem sie die Aufmerksamkeit der Blitze, die Aufmerksamkeit von Softmax und die Expertenmischung (MOE) integrieren.

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

7/8 Lineare Aufmerksamkeit (Blitzaufmerksamkeit-2): Dieser lineare Aufmerksamkeitsmechanismus reduziert drastisch die Rechenkomplexität von O (n²d) auf O (d²n), ideal für die langkontexte Verarbeitung. Es verwendet die SILU -Aktivierung für die Eingangstransformation, Matrixoperationen zur Berechnung der Aufmerksamkeitsbewertung sowie RMSNorm und Sigmoid zur Normalisierung und Skalierung.
1/8 Softmax Aufmerksamkeit: Ein traditioneller Aufmerksamkeitsmechanismus, der Seil (Rotationsposition einbettet) in die halbe Aufmerksamkeitskopfdimension, die Länge extrapoliert, ohne die Leistung zu beeinträchtigen.

Mischungsmischung (MOE) Strategie

Die einzigartige Moe-Architektur von minimax-text-01 unterscheidet sie von Modellen wie Deepseek-V3:

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

Token -Drop -Strategie: verwendet einen Hilfsverlust, um die ausgewogene Token -Verteilung über Experten hinweg aufrechtzuerhalten, im Gegensatz zu Deepseeks Tropfenansatz.
Globaler Router: optimiert Token -Allokation für die Verteilung der Arbeitsbelastung zwischen Expertengruppen.
Top-K-Routing: Wählt die Top-2-Experten pro Token aus (im Vergleich zu Deepseeks Top-8 1-Shared Expert).
Expertenkonfiguration: verwendet 32 Experten (gegen Deepseeks 256 1 geteilt) mit einer versteckten Expertendimension von 9216 (gegen Deepseeks 2048). Die gesamten aktivierten Parameter pro Schicht bleiben die gleichen wie Deepseek (18.432).

Trainings- und Skalierungsstrategien

Schulungsinfrastruktur: nutzte ungefähr 2000 H100 -GPUs unter Verwendung fortgeschrittener Parallelismus -Techniken wie Experten -Tensor -Parallelität (ETP) und linearer Aufmerksamkeitssequenz Parallelism Plus (LASP). Optimiert für die 8-Bit-Quantisierung für eine effiziente Inferenz auf 8x80 GB H100-Knoten.
Trainingsdaten: trainiert auf rund 12 Billionen Token mit einem WSD-ähnlichen Lernrate-Zeitplan. Die Daten umfassten eine Mischung aus hoch- und minderwertigen Quellen mit globaler Deduplizierung und 4x-Wiederholung für hochwertige Daten.
Langkontext-Training: Ein dreiphasiertes Ansatz: Phase 1 (128K-Kontext), Phase 2 (512K-Kontext) und Phase 3 (1M-Kontext) unter Verwendung der linearen Interpolation zur Verwaltung der Verteilungsverschiebungen während der Kontextlänge.

Optimierung nach dem Training

iterative Feinabstimmung: Zyklen der beaufsichtigten Feinabstimmung (SFT) und Verstärkungslernen (RL), die Offline-DPO und Online-Grpo zur Ausrichtung verwendet.
Langkontext Feinabstimmung: Ein phasenvertretender Ansatz: Kurzkontext SFT → Langkontext SFT → Kurzkontext RL → Long-Context RL, entscheidend für die überlegene Langkontextleistung.

Key Innovations

Deepnorm: Eine Architektur nach der Norm, die die Skalierung und die Trainingsstabilität der verbleibenden Verbindung verbessert.
Stapelgröße Aufwärmen: erhöht die Stapelgröße nach und nach von 16 m auf 128 m Token für eine optimale Trainingsdynamik.
Effiziente Parallelität: nutzt die Aufmerksamkeit von Ring, um den Speicheraufwand für lange Sequenzen und die Polsteroptimierung zu minimieren, um die Verschwendung zu reduzieren.

Kern akademische Benchmarks

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

(Tabellen, die Benchmark -Ergebnisse für allgemeine Aufgaben, Argumentationsaufgaben und Mathematik- und Codierungsaufgaben enthalten, sind hier enthalten, die die Tabellen der ursprünglichen Eingabe spiegeln.)

4M Tokens? MiniMax-Text-01 Outperforms DeepSeek V3

(zusätzliche Bewertungsparameter verbleiben)

Erste Schritte mit Minimax-text-01

(Code-Beispiel für die Verwendung von Minimax-Text-01 mit umarmenden Gesichtstransformatoren bleibt gleich.)

Wichtige Links

chatbot
Online -API
Dokumentation

Schlussfolgerung

minimax-text-01 zeigt beeindruckende Fähigkeiten und erzielte eine modernste Leistung bei langen Kontext- und allgemeinen Aufgaben. Während Verbesserungsbereiche existieren, machen seine Open-Source-Natur, die Kosteneffizienz und die innovative Architektur es zu einem bedeutenden Akteur im KI-Bereich. Es ist besonders für speicherintensive und komplexe Argumentationsanwendungen geeignet, obwohl eine weitere Verfeinerung der Codierungsaufgaben von Vorteil sein kann.

Das obige ist der detaillierte Inhalt von4m Token? Minimax-text-01 übertrifft Deepseek v3. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!