Das Aufkommen von ChatGPT hat der chinesischen Community die Kluft zur internationalen Führungsebene bewusst gemacht. In letzter Zeit lief die Entwicklung chinesischer Großmodelle auf Hochtouren, es gibt jedoch nur sehr wenige chinesische Bewertungsbenchmarks.
Im Entwicklungsprozess der OpenAI GPT-Reihe/Google PaLM-Reihe/DeepMind Chinchilla-Reihe/Anthropic Claude-Reihe spielten die drei Datensätze von MMLU/MATH/BBH eine entscheidende Rolle, da sie die Fähigkeiten in jeder Dimension umfassender abdecken das Modell. Am bemerkenswertesten ist der MMLU-Datensatz, der die umfassenden Wissenskapazitäten von 57 Disziplinen berücksichtigt, von den Geisteswissenschaften über die Sozialwissenschaften bis hin zu Natur- und Ingenieurwissenschaften. Die Gopher- und Chinchilla-Modelle von DeepMind berücksichtigen nur MMLU-Ergebnisse. Daher möchten wir eine chinesische, ausreichend differenzierte, multidisziplinäre Benchmark-Liste erstellen, um Entwickler bei der Entwicklung großer chinesischer Modelle zu unterstützen.
Wir haben etwa drei Monate damit verbracht, ein Programm zu erstellen, das vier Hauptrichtungen abdeckt: Geisteswissenschaften, Sozialwissenschaften, Natur- und Ingenieurwissenschaften und andere Hauptfächer sowie 52 Fächer (Infinitesimalrechnung, Liniengenerierung ...), von der Mittelschule bis zum Universitätsabsolventen Studenten- und Berufsprüfung, insgesamt 13948 Fragen zu Chinesischkenntnissen und Argumentationstests. Wir nennen es C-Eval, um der chinesischen Gemeinschaft bei der Entwicklung großer Modelle zu helfen.
Dieser Artikel dokumentiert unseren Prozess der Erstellung von C-Eval und teilt unsere Denkweise und F&E-Prioritäten aus unserer Sicht mit Entwicklern. Unser wichtigstes Ziel ist die Unterstützung der Modellentwicklung und nicht die Erstellung von Rankings . Das blinde Streben nach einem hohen Rang auf der Liste wird viele nachteilige Folgen haben, aber wenn C-Eval wissenschaftlich zur Unterstützung der Modelliteration eingesetzt werden kann, kann C-Eval maximiert werden. Daher empfehlen wir , den C-Eval-Datensatz und die C-Eval-Liste aus der Perspektive der Modellentwicklung zu behandeln.
Passen Sie zunächst a an Modell Es ist nicht schwer, ein Konversationsroboter wie Alpaca, Vicuna und RWKV in der Open-Source-Welt zu sein. Es fühlt sich gut an, mit ihnen zu chatten, aber wenn Sie wirklich möchten, dass diese Modelle produktiv werden Einfach nur plaudern ist nicht genug. Daher besteht das erste Problem bei der Erstellung eines Bewertungsmaßstabs darin, den Grad der Differenzierung zu ermitteln und herauszufinden, welche Art von Fähigkeit der Kernindikator ist, der die Stärke eines Modells auszeichnet. Wir betrachten die beiden Kerne „Wissen“ und „Vernunft“. 1.1 - Wissen
Warum ist Wissensfähigkeit die Kernfähigkeit? Es gibt mehrere Argumente wie folgt:Wir hoffen, dass das Modell universell sein und zur Produktivität in verschiedenen Bereichen beitragen kann, was natürlich erfordert, dass das Modell die Kenntnisse in jedem Bereich kennt.
Wir hoffen auch, dass das Modell keinen Unsinn redet und nicht weiß, was es nicht weiß. Dies erfordert auch eine Erweiterung des Wissens des Modells, damit es seltener sagen kann, dass es nicht weiß.
1.2 - Argumentationsfähigkeit
Argumentationsfähigkeit ist die Fähigkeit, sich auf der Grundlage von Wissen weiter zu verbessern. Sie stellt dar, ob das Modell sehr schwierige und komplexe Dinge tun kann. Damit ein Modell stark ist, benötigt es zunächst umfassendes Wissen und kann dann auf der Grundlage dieses Wissens Schlussfolgerungen ziehen.
Das wichtige Argument für die Argumentation ist:
Hier müssen wir auch den Zusammenhang zwischen Argumentation und Wissen klären:
Mit der obigen Erklärung von Wissen und Argumentation haben wir beschlossen, von der wissensbasierten Aufgabe auszugehen und einen Datensatz zu erstellen, um die Wissensfähigkeit des Modells zu testen Äquivalent zum Benchmarking des MMLU-Datensatzes hoffen wir auch, einige argumentationsbezogene Inhalte bereitzustellen, um die Fähigkeiten höherer Ordnung des Modells weiter zu messen. Daher haben wir in C-Eval speziell die Themen extrahiert, die eine starke Argumentation erfordern ( Infinitesimalrechnung, lineare Algebra, Wahrscheinlichkeit ...) und nannten sie C-Eval. Die harte Teilmenge wird verwendet, um die Argumentationsfähigkeit des Modells zu messen, was einem Benchmarking des MATH-Datensatzes entspricht.
Bei C-Eval Hard muss das Modell zunächst über mathematische Kenntnisse verfügen, dann muss es eine schrittweise Idee zur Problemlösung haben und dann Wolfram Alpha/Mathematica/Matlab für numerische Zwecke aufrufen und Symbolik/Differenzierung und Integration während des Problemlösungsprozesses. Die Fähigkeit, den Berechnungsprozess und die Ergebnisse im Latex-Format auszudrücken, ist sehr schwierig.
C-Eval hofft, MMLU als Ganzes zu bewerten (dieser Datensatz wird für die Entwicklung von GPT-3.5, GPT-4, PaLM, PaLM-2, Gopher, Chinchilla verwendet) und hofft, den harten Teil MATH zu bewerten (Dieser Datensatz wird bei der Entwicklung von GPT-4, PaLM-2, Minerva, Galactica verwendet).
An dieser Stelle ist zu beachten, dass unser wichtigstes Ziel darin besteht, die Modellentwicklung zu unterstützen und nicht aufzulisten . Das blinde Streben nach einem hohen Rang auf der Liste hat viele nachteilige Konsequenzen, die wir gleich erläutern werden. Wenn Sie C-Eval jedoch wissenschaftlich nutzen können, um die Modelliteration zu unterstützen, werden Sie enorme Vorteile erzielen. Wir empfehlen, den C-Eval-Datensatz und die C-Eval-Liste aus der Perspektive der Modellentwicklung zu behandeln.
2.1 - Das Ziel besteht darin, die Modellentwicklung zu unterstützen
Im eigentlichen Forschungs- und Entwicklungsprozess müssen wir oft die Qualität einer bestimmten Lösung oder die Qualität eines bestimmten Modells kennen Dieses Mal benötigen wir einen Datensatz, der uns beim Testen hilft. Im Folgenden sind zwei klassische Szenen aufgeführt:
Szenario 1: Suche nach zusätzlichen Hyperparametern Optimales Schema für die Mischung von Trainingsdaten vor dem Training.Wenn Sie das Ranking auf der Liste zu Ihrem Ziel machen, wird es das sein Bei hohen Punktzahlen kann man leicht vorbeikommen, aber an Vielseitigkeit verlieren – das ist eine wichtige Lektion, die die NLP-Akademikergemeinschaft aus der Feinabstimmung von Bert vor GPT-3.5 gelernt hat.
Die Liste selbst misst nur das Potenzial des Modells, nicht die tatsächliche Benutzererfahrung – wenn das Modell den Benutzern wirklich gefällt, bedarf es noch einer Menge manueller Bewertung
Viele Testteams, selbst im selben Unternehmen, können keine relevanten Informationen über das getestete Modell kennen (Black-Box-Tests), oder das überhaupt wissen Ob das Modell eine Anweisungsoptimierung durchlaufen hat, also müssen wir sowohl In-Context-Lernen als auch Zero-Shot-Prompting unterstützen.Da es sich bei einigen Modellen um Black-Box-Tests handelt, gibt es keine Möglichkeit, Protokolle abzurufen. Es ist jedoch schwieriger zu bestimmen, ob kleine Modelle keine Logits-Antwort haben. Daher müssen wir eine Reihe kleiner Modelle ermitteln, um die Antwort zu ermitteln.
Es gibt viele Arten von Modelltestmodellen, z. B. In-Context-Lernen und Zero-Shot-Prompt; es gibt viele Eingabeaufforderungsformate, z. B. Nur-Antwort-Modelle und Gedankenketten; B. vorab trainierte Kontrollpunkte und durch Anweisungen fein abgestimmte Kontrollpunkte, daher müssen wir die jeweiligen Auswirkungen und Wechselwirkungen dieser Faktoren klären. Das Modell reagiert sehr empfindlich auf Eingabeaufforderungen, ob schnelles Engineering erforderlich ist und ob schnelles Engineering der Fairness abträglich ist.
GPT-3.5 / GPT-4 / Claude / PaLMs schnelles Engineering sollte durchgeführt werden und dann aus ihren Erfahrungen lernen.
Die oben genannten Probleme wurden durch Feedback von Entwicklern während unserer Interaktionen mit ihnen entdeckt. Diese Probleme wurden in der Dokumentation und im Github-Code der aktuellen öffentlichen Version von C-Eval gelöst.
Wir heißen alle Entwickler herzlich willkommen, Probleme und Pull-Anfragen an unseren GitHub zu senden, um uns mitzuteilen, wie wir Ihnen besser helfen können. Wir hoffen, Ihnen besser helfen zu können:)
In diesem Kapitel diskutieren wir die Methoden, mit denen wir die Qualität des Datensatzes während des Produktionsprozesses sichergestellt haben. Unsere wichtigsten Referenzen sind hier die beiden Datensätze MMLU und MATH. Da sich die vier wichtigsten großen Modellteams, OpenAI, Google, DeepMind und Anthropic, alle auf MMLU und MATH konzentrieren, hoffen wir, zu diesen beiden beitragen zu können Datensätze. Nach unserer vorläufigen Recherche und einer Reihe von Diskussionen trafen wir zwei wichtige Entscheidungen: Die eine bestand darin, den Datensatz von Grund auf neu zu erstellen, und die andere darin, sich darauf zu konzentrieren, zu verhindern, dass die Frage vom Crawler erfasst wird kriecht ins Trainingsset . 3.1 - Handgefertigt
Eine wichtige Inspiration im Entwicklungsprozess von GPT ist, dass es im Bereich der künstlichen Intelligenz genauso viel Intelligenz gibt wie künstliche Intelligenz. Das ist auch sehr gut Konkret aus der Quelle der Fragen:
Die meisten Fragen in C-Eval stammen aus Dateien im PDF- und Word-Format. Solche Fragen erfordern eine zusätzliche Verarbeitung und (manuelle) Bereinigung verwendet werden kann. Dies liegt daran, dass es im Internet zu viele verschiedene Fragen gibt, die wahrscheinlich im Vortraining des Modells verwendet wurden:
Jetzt lässt sich unser Thema sehr schön in Form von Markdown darstellen. Dieses Beispiel können Sie direkt im Erkundungsbereich unserer Website sehen
Der Student auf der linken Seite hat es getan es selbst und dann im Markdown-Latex-Format geschrieben; die rechte Seite ist der gerenderte Effekt
Natürlich kann es trotz unserer Bemühungen unweigerlich vorkommen, dass Fragen in der Fragendatenbank auf einer bestimmten Webseite durchsucht werden können, aber wir glauben, dass diese Situation selten sein sollte. Und den Ergebnissen nach zu urteilen, sind die C-Eval-Fragen immer noch ausreichend differenziert, insbesondere der schwierige Teil.
Als nächstes analysieren wir, mit welchen Methoden das Ranking des Modells verbessert werden kann. Wir listen zunächst die Abkürzungen für Sie auf, einschließlich der Verwendung von LLaMA, das nicht kommerziell erhältlich ist, und der Verwendung von durch GPT generierten Daten sowie die Nachteile dieser Methoden. Anschließend besprechen wir, was der schwierige, aber richtige Weg ist.
4.1 - Welche Abkürzungen kann ich nehmen?
Hier sind die Abkürzungen, die Sie verwenden können:
Der beste Weg ist, selbstständig zu sein und sich von Grund auf zu entwickeln. Diese Sache ist schwierig, braucht Zeit und erfordert Geduld, aber es ist der richtige Weg.
Konkret müssen Sie sich auf Beiträge der folgenden Institutionen konzentrierenOpenAI – Es besteht kein Zweifel, dass alle Artikel vollständig auswendig gelernt werden müssen
Anthropic – Was OpenAI nicht kann Sag es dir, Anthropic wird es dir sagen
# 🎜🎜#Großes Modell ist eine zeitaufwändige Sache. Es ist ein umfassender Test der industriellen Fähigkeiten der künstlichen Intelligenz: # 🎜🎜#
# 🎜🎜#Die GPT-Serie von OpenAI ging von GPT-3 auf GPT-4, von 2019 bis 2023 dauerte es insgesamt vier Jahre.
In diesem Artikel haben wir die Entwicklungsziele, den Prozess und die wichtigsten Überlegungen von C-Eval vorgestellt. Unser Ziel ist es, Entwicklern dabei zu helfen, chinesische Großmodelle besser zu entwickeln und den wissenschaftlichen Einsatz von C-Eval in Wissenschaft und Industrie zu fördern, um die Modelliteration zu unterstützen. Wir haben es nicht eilig, die Ergebnisse zu sehen, denn große Modelle selbst sind eine sehr schwierige Sache. Wir kennen die Abkürzungen, die wir nehmen können, aber wir wissen auch, dass der schwierige, aber richtige Weg tatsächlich der schnellste Weg ist. Wir hoffen, dass diese Arbeit das F&E-Ökosystem chinesischer Großmodelle fördern und es den Menschen ermöglichen kann, den Komfort dieser Technologie früher zu erleben.
Anhang 1: Im C-Eval enthaltene Fächer
# 🎜🎜#
Anhang 2: Beiträge der Projektmitglieder
Hinweis: Die entsprechende URL der im Artikel genannten Artikel finden Sie auf der Originalseite.
Das obige ist der detaillierte Inhalt von13948 Fragen zu 52 Themen wie Analysis und Linienerzeugung wurden an die Tsinghua-Universität geschickt, um einen Testsatz für das chinesische Großmodell zu erstellen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!