In diesem Forschungsarbeiten "Nicht alle LLM-Distrible sind gleichermaßen geschaffen" untersucht die Grenzen von Großsprachmodellen (LLMs) in komplexen Argumentationsaufgaben, insbesondere in solchen, die mehrstufige Problemlösungen benötigen. Während sich LLMs in herausfordernden mathematischen Problemen auszeichnen, wird ihre Leistung erheblich verschlechtert, wenn sie miteinander verbunden sind, wenn die Lösung für ein Problem das nächste informiert - ein Konzept, das als "Kompositionalbedenken" bezeichnet wird.
Die von Forschern von Mila, Google DeepMind und Microsoft Research durchgeführte Studie zeigt eine überraschende Schwäche bei kleineren, kostengünstigeren LLMs. Diese Modelle haben zwar einfachere Aufgaben, aber mit der "Zweithop-Argumentation" zu kämpfen, um gekettete Probleme zu lösen. Dies ist nicht auf Probleme wie Datenleckage zurückzuführen. Es ergibt sich vielmehr aus der Unfähigkeit, den Kontext aufrechtzuerhalten und Problemteile logisch zu verbinden. Die Unterrichtsabstimmung, eine gemeinsame Leistungstechnik, bietet inkonsistente Vorteile für kleinere Modelle, was manchmal zu Überanpassung führt.
Schlüsselergebnisse:
Das Papier verwendet einen Mathematik-Test (Compositional Grade School Math), um diese Lücke zu veranschaulichen. Der Test beinhaltet zwei verknüpfte Fragen, bei denen die Antwort auf die erste (Q1) eine Variable (x) im zweiten (Q2) wird. Die Ergebnisse zeigen, dass die meisten Modelle bei der Kompositionsaufgabe weitaus schlechter werden als durch ihre Leistung auf individuelle Fragen vorhergesagt. Größere, leistungsfähigere Modelle wie GPT-4O zeigen überlegene Argumentationsfähigkeiten, während kleinere, kostengünstige Modelle, selbst diejenigen, die auf Mathematik spezialisiert sind, einen erheblichen Leistungsrückgang zeigen.
Eine Grafik, die Open-Source- und Closed-Source-LLMs vergleicht, unterstreicht diese Argumentationslücke. Kleinere, kostengünstige Modelle weisen konsequent größere negative Argumentationslücken auf, was auf eine schlechtere Leistung bei Zusammensetzungsaufgaben im Vergleich zu größeren Modellen hinweist. Zum Beispiel zeigt GPT-4O eine minimale Lücke, während andere wie PHI 3-Mini-4K-It signifikante Mängel aufweisen.
Eine weitere Analyse zeigt, dass die Argumentationslücke nicht nur auf die Benchmark -Leckage zurückzuführen ist. Die Probleme stammen aus der Überanpassung auf Benchmarks, Ablenkung durch irrelevanten Kontext und einem Versäumnis, Informationen zwischen Unteraufnahmen effektiv zu übertragen.
Die Studie kommt zu dem Schluss, dass die Verbesserung des Zusammensetzung innovativen Schulungsansätzen erforderlich ist. Während Techniken wie Unterrichtsabstimmung und mathematische Spezialisierung einige Vorteile bieten, sind sie nicht ausreichend, um die Argumentationslücke zu schließen. Die Erforschung alternativer Methoden wie codebasiertes Denken kann erforderlich sein, um die Fähigkeit von LLMs zu verbessern, komplexe, multi-stufige Argumentationsaufgaben zu erledigen. Die Forschung betont die Notwendigkeit einer verbesserten Trainingstechniken, um kleinere, kostengünstigere LLMs zu ermöglichen, komplexe Argumentationsaufgaben zuverlässig auszuführen.
Das obige ist der detaillierte Inhalt vonKomplexe Argumentation in LLMs: Warum kämpfen kleinere Modelle?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!