Kleine Modelle werden zum Trend?
Diese Woche hat OpenAI das kleine Modell GPT-4o-mini auf den Markt gebracht und die kleine Modellstrecke wurde offiziell gestartet. Kürzlich ist Apple in diese Spur eingestiegen.
Vor kurzem hat Apple als eine der Forschungseinrichtungen des DataComp-LM (DCLM)-Projekts das Open-Source-Modell DCLM-7B auf Hugging Face veröffentlicht. Die Modellleistung hat Mistral-7B übertroffen und nähert sich anderen führenden Open-Source-Modellen, darunter Llama 3 und Gemma.
Papier-Link: https://arxiv.org/pdf/2406.11794
Projekt-Link: https://huggingface.co/apple/DCLM-7B
Papier-Autor Einer, Vaishaal Shankar vom Apple-Team für maschinelles Lernen, beschrieb das DCLM-Modell als „das beste Modell, das wirklich Open Source ist“, da DCLM nicht nur die Modellgewichte, sondern auch den Trainingscode und den Vortrainingsdatensatz als Open Source bereitstellte.
Einführung in die Forschung
Eine aktuelle Bewertungsherausforderung für große Sprachmodelle (LLMs) ist das Fehlen kontrollierter Vergleiche. LLM-Studien vergleichen oft Modelle mit unterschiedlichen Architekturen, Berechnungen oder Hyperparametern, was es schwierig macht, die Faktoren zu entwirren, die die Qualität von Sprachmodellen beeinflussen.
Auf dieser Grundlage schlug das Forschungsteam einen neuen Benchmark für den Datenvergleich von Sprachmodellen vor – DCLM. Dies ist der erste Benchmark für die Kuratierung von Sprachmodell-Trainingsdaten, der es LLM ermöglichen soll, die Modellleistung insbesondere durch die Gestaltung hochwertiger Datensätze zu verbessern im multimodalen Bereich.
Das Forschungsteam hat herausgefunden, dass modellbasierte Filterung, bei der Modelle des maschinellen Lernens (ML) automatisch hochwertige Daten aus größeren Datensätzen filtern und auswählen, der Schlüssel zum Aufbau hochwertiger Trainingssätze sein könnte.
Die Gesamtidee von DCLM ist einfach: Verwenden Sie ein standardisiertes Framework, um Experimente durchzuführen, einschließlich fester Modellarchitektur, Trainingscode, Hyperparametern und Auswertung, und finden Sie schließlich heraus, welche Datensortierungsstrategie für das Training eines Hochleistungsmodells am besten geeignet ist .
Mithilfe von DCLM erstellte das Forschungsteam einen hochwertigen Datensatz DCLM-BASELINE und nutzte diesen Datensatz, um ein 7B-Parametermodell von Grund auf zu trainieren – DCLM-7B. Detail des DCLM-7B-Modells.
DCLM-7B verwendet eine Pre-Training-Lösung, die auf dem OpenLM-Framework basiert, und die 5-Schuss-Genauigkeit erreicht 64 % beim MMLU-Benchmark, was mit Mistral-7B-v0.3 (63 %) und Llama vergleichbar ist 3 8B (66 %) Es ist vergleichbar mit Mistral-7B-v0.3 und Llama 3 8B, und die durchschnittliche Leistung bei 53 Aufgaben zum Verstehen natürlicher Sprache ist auch mit Mistral-7B-v0.3 und Llama 3 8B vergleichbar, während die Der erforderliche Berechnungsbetrag beträgt nur 1/6 von Llama 3 8B.Im Folgenden sind die Bewertungsergebnisse des DCLM-7B für verschiedene Aufgaben (Teile) aufgeführt:
Die Vergleichsergebnisse des DCLM-7B mit anderen Modellen derselben Größe sind in der folgenden Tabelle aufgeführt:
Bemerkenswert Ja, die meisten anderen Modelle haben offene Gewichte, aber geschlossene Daten. Aus diesem Grund beschreibt Vaishaal Shankar das DCLM-Modell als „wirklich Open Source“.
Referenzlink: https://venturebeat.com/ai/apple-shows-off-open-ai-prowess-new-models-outperform-mistral-and-hugging-face-offerings/
Das obige ist der detaillierte Inhalt vonDie Gewichte, Codes und Datensätze sind alle Open Source und die Leistung übertrifft das kleine Modell von Mistral-7B. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!