Da chinesische Großsprachmodelle eine starke Leistung beim Verstehen natürlicher Sprache und bei der Generierung natürlicher Sprache gezeigt haben, reichen die vorhandenen chinesischen Bewertungs-Benchmark-Datensätze für bestimmte Aufgaben der Verarbeitung natürlicher Sprache nicht mehr aus, um chinesische Großmodelle effektiv zu bewerten. Traditionelle chinesische Bewertungsbenchmarks konzentrieren sich hauptsächlich auf die Fähigkeit des Modells, einfachen gesunden Menschenverstand (z. B. die Notwendigkeit, einen Regenschirm mitzubringen, wenn man an einem regnerischen Tag ausgeht) und oberflächliche Semantik (z. B. ob es sich bei dem Bericht über ein Basketballspiel um Sport- oder Technologienachrichten handelt) zu verstehen Ignorieren der Gewinnung und Nutzung komplexen menschlichen Wissens. Derzeit mangelt es an Datensätzen für eine komplexe Wissensbewertung großer chinesischer Modelle, insbesondere wenn es um berufliches Wissen auf verschiedenen Ebenen und in verschiedenen Bereichen des Bildungssystems unseres Landes geht.
Um diese Lücke zu schließen, haben das Natural Language Processing Laboratory der Tianjin University und das Noah’s Ark Laboratory von Huawei gemeinsam den Benchmark-Datensatz M3KE (A Massive Multi-Level Multi-Subject Knowledge Evaluation Benchmark for Chinese Large Language Models) veröffentlicht. Testen Sie die Fähigkeit des chinesischen Großmodells, mehrstufiges und multidisziplinäres Wissen in Form von Nullproben und wenigen Proben zu beherrschen.
Einführung in den Datensatz
M3KE sammelte 20.477 reale standardisierte Testfragen (einschließlich 4 Kandidatenantworten) und deckte 71 Aufgaben ab, darunter Grundschule, Mittelschule, Oberschule, und Universität, Fragen zur Aufnahmeprüfung für Hochschulabsolventen, die Geisteswissenschaften, Geschichte, Politik, Recht, Bildung, Psychologie, Naturwissenschaften, Ingenieurtechnik, Kunst und andere Disziplinen umfassen; die Verteilung ist in Abb. 1 dargestellt.
Forscher erstellen M3KE-Datensätze basierend auf zwei Standards
1:
1, die zum chinesischen Bildungssystem passen und die Multi-Education-Phase abdecken. Forscher imitieren die Bildungserfahrung chinesischer Studenten , also die wichtigsten Bildungsstufen wie Grundschule, Mittelschule, Oberschule und Universität, dient dazu, die Leistung des chinesischen Großmodells auf verschiedenen Bildungsstufen zu bewerten. Da die Wissenspunkte, die auf jeder Bildungsstufe beherrscht werden müssen, unterschiedlich sind (z. B. gibt es im chinesischen Fach offensichtliche Unterschiede in den Wissens- oder Testpunkten zwischen der Grundschule und der Mittelschule), wird M3KE daher dieselben umfassen Fächer auf verschiedenen Bildungsstufen. Um die Abdeckung der Fachwissenspunkte im Datensatz zu verbessern, wählten die Forscher die einheitlichen Prüfungsfragen in Chinas Aufnahmeprüfungen, einschließlich realer Fragen von der Grundschule bis zur Mittelstufe, Aufnahmeprüfung für die Oberschule, Aufnahmeprüfung für das College und Aufnahmeprüfung für Hochschulabsolventen und chinesische Beamtenprüfung. 2 Politik, Recht, Bildung, Psychologie, Naturwissenschaften, Ingenieurtechnik, Kunst und andere Disziplinen. Um den Reichtum des Datensatzes weiter zu erweitern, fügten die Forscher Aufgaben wie traditionelle chinesische Medizin, Religion und computergestützte Prüfungen hinzu.
Datensatzstatistik
Tabelle 3 zeigt die Gesamtstatistik von M3KE. Die Anzahl der Aufgaben in den oben genannten vier Fachkategorien beträgt 12, 21, 31 bzw. 7, während die Anzahl der Fragen in den vier Fachkategorien 3.612, 6.222, 8.162 bzw. 2.126 beträgt. Die maximale Anzahl der in einer Aufgabe enthaltenen Fragen beträgt 425 und die Mindestanzahl 100. Fragen in den Sozial- und Naturwissenschaften sind im Allgemeinen länger als Fragen in den Geistes- und Geisteswissenschaften und anderen Fächern, während ihre Antwortmöglichkeiten kürzer sind.
Einführung und Beispiele von M3KE aus einer multidisziplinären PerspektiveGeistes- und Kunstwissenschaften
Geistes- und Kunstfächer umfassen Fächer aus vielen Bereichen wie Chinesisch, Kunst und Geschichte. Diese Fächer konzentrieren sich auf die Analyse und Interpretation literarischer und kultureller Artefakte. Am Beispiel von Chinesisch im Grundschulalter sollen die Testfragen den Sprachgebrauch und die literarischen Verständnisfähigkeiten von Schülern im Alter von 7 bis 13 Jahren bewerten, beispielsweise die Fähigkeit, Synonyme zu verwenden und Antonyme. Das Geschichtsfach umfasst die chinesische Geschichte und die Weltgeschichte von der Antike bis zur Neuzeit. Neben den Geisteswissenschaften umfasst M3KE auch Kunstfächer wie Tanz, Kunst, Musik, Film usw. Kunst ist ein wichtiger Teil der menschlichen Kultur, und es ist ebenso wichtig, die Leistung chinesischer Großmodelle im Kunstbereich zu bewerten. Beispiel für eine Kunstaufgabe: Welche der folgenden Aussagen zu den Höhlenmalereien von Lascaux ist falsch? A. Dieses Wandgemälde wurde in Frankreich entdeckt B Es wurden mehr als 100 Tierbilder gefunden C. Die Farbe des Wandgemäldes ist schwarz. Hauptaufgabe Weltgeschichte der Neuzeit: Von der Niederländischen Revolution bis zur Französischen Revolution dauerte es mehr als zwei Jahrhunderte, und nur ein halbes Jahrhundert danach bildete der Kapitalismus zunächst ein Weltsystem Weil ? A. Der Einfluss der Französischen Revolution war weit verbreitet B. Das Wiener System verschärfte die sozialen Konflikte in verschiedenen Ländern . Die Kolonialherrschaft verbreitete sich auf der ganzen Welt. Auf allen Kontinenten. Die Sozialwissenschaften konzentrieren sich auf die Anwendung der Geisteswissenschaften wie Recht, Politik, Pädagogik, Psychologie und andere Fächer. Politische Studiengänge durchlaufen mehrere Bildungsstufen, darunter die Mittelstufe, die weiterführende Schule, die Universität und die Postgraduiertenausbildung, während andere Fächer hauptsächlich in Kursen auf Universitätsniveau verteilt sind. Zu den Sozialwissenschaften gehören auch Wirtschafts- und Managementaufgaben. Die Prüfungsfragen für diese Aufgaben werden aus der gemeinsamen Prüfung für Wirtschaftswissenschaften und der gemeinsamen Prüfung für Management in der chinesischen Hochschulaufnahmeprüfung ausgewählt. Die Kenntnisse umfassen Mikroökonomie, Makroökonomie, Management und Logik. Beispiel für eine strafrechtliche Aufgabe: A will B töten, also mischt er Gift in Bs Essen. Nachdem B es eingenommen hatte, bereute A es, erklärte schnell die Situation und schickte B ins Krankenhaus. Bei der Inspektion stellte das Krankenhaus fest, dass das von A verabreichte „Gift“ überhaupt nicht giftig war und B gesund und munter war. Das Verhalten von A gehört dazu? A. Kein Verbrechen darstellen B. Verbrechen eingestellt Unter Bildungsforschung Was ist die grundlegendste und am häufigsten verwendete Forschungsmethode? A. Pädagogische Beobachtungsforschung C. Pädagogische Messforschung Naturwissenschaft Einschließlich Ingenieurwesen, Naturwissenschaften, Medizin und Grundlagenfächer wie Mathematik, Physik, Chemie, Biologie usw. Diese Fächer erfordern oft komplexe rechnerische, analytische und logische Denkfähigkeiten. Im Bildungssystem unseres Landes beinhaltet das gleiche Fach unterschiedliche Arten von Wissen in unterschiedlichen Phasen. In der Grundschulmathematik liegt der Schwerpunkt beispielsweise auf dem Erlernen grundlegender Rechenoperationen, während in der Oberstufenmathematik fortgeschrittenere mathematische Konzepte wie Folgen, Ableitungen, Geometrie usw. behandelt werden. Tierphysiologie-Aufgabenbeispiel: Die Verwendung von Procain zur Betäubung von Nervenfasern beeinflusst welche Eigenschaft der Erregung der Nervenfaserleitung? A. Physiologische Integrität C. Relativ ermüdungsfreie Beispiel für Betriebssystemaufgaben: Verzeichnisformularpaar Die Datei Die Abrufeffizienz hat einen großen Einfluss. Was ist das folgende fortschrittlichste Verzeichnisformular? A. Einstufiges Verzeichnis C. Dreistufiges Verzeichnis Andere Zu den Aufgaben gehören Religion, eine Prüfung für den chinesischen Staatsdienst, eine Computerprüfung usw. Diese Aufgaben erfordern Kenntnisse, die nicht auf die oben beschriebene einzelne Ebene oder Disziplin beschränkt sind. Beispielsweise umfasst die Prüfung für den chinesischen öffentlichen Dienst Kenntnisse wie Allgemeinwissen, Geisteswissenschaften und Logik, sodass Forscher diese Aufgaben als eine Bewertung umfassender Kenntnisse des chinesischen Großmodells betrachten. Beispiel für eine Prüfungsaufgabe im chinesischen öffentlichen Dienst: Mehrere frühere Studien haben gezeigt, dass der Verzehr von Schokolade das Risiko von Herzerkrankungen bei denjenigen erhöht, die sie essen. Und eine neue, zuverlässigere Studie kommt zu dem Schluss, dass der Schokoladenkonsum nicht mit der Häufigkeit von Herzerkrankungen zusammenhängt. Es wird geschätzt, dass der Schokoladenkonsum nach Veröffentlichung der Ergebnisse dieser Forschung erheblich zunehmen wird. Auf welcher der folgenden Annahmen basiert die obige Schlussfolgerung? A. Obwohl manche Menschen wissen, dass der Verzehr von Schokolade das Risiko einer Herzerkrankung erhöht, essen sie sie dennoch D Heutzutage essen viele Menschen keine Schokolade, nur weil sie glauben, dass Schokolade Herzkrankheiten hervorrufen kann : Ginseng hat die Wirkung, die Vitalität und das Qi wieder aufzufüllen, aber welches Medikament wird oft als Ersatz für chronisch schwächende Krankheiten eingesetzt? Salvia miltiorrhiza Codonopsis pilosula Astragalus Pseudostellariae Radix Pseudostellariae Einführung und Beispiele von M3KE von a Multi-Education-Stage-Perspektive Die Forscher führten den Datensatz gemäß durch Das chinesische Bildungssystem umfasst Aufnahmeprüfungen für die Grundschule, die Mittelschule, das Gymnasium, die Universität und die Graduiertenschule. In ähnlicher Weise wählen Forscher auch einige Prüfungsfächer außerhalb des Bildungssystems, wie etwa Computerprüfungen und Prüfungen für den chinesischen Staatsdienst. Grundschule Beispiel für Chinesisch-Sprachaufgaben in der Grundschule: Welches der folgenden Wörter ist völlig richtig? A. Der Klang der Natur, fließende Wolken und fließendes Wasser, der Stift und der Drache und die Schlange, das Stöbern in Kisten und Schränken B Die Berge und fließendes Wasser, Gesang und Tanz, der letzte Schliff , einzigartige Ideen :
Ein Produkt hat seinen Preis zunächst um 20 % erhöht und dann seinen Preis um 20 % gesenkt. Wie schneidet der aktuelle Preis im Vergleich zum Original ab? A. Verbessert B Reduziert C. Unverändert
Junior-Mittelschule Welche der folgenden Aussagen ist richtig? A. „Das Bitterste und Glücklichste“ ist aus „Ausgewählte Werke von Liang Qichao“ ausgewählt Dynasty #🎜🎜 #B „Zou Ji verspottet den König von Qi und akzeptiert Vorwürfe“ ist eine Zusammenstellung von Strategien und Meinungen von Lobbyisten während der Zeit der Streitenden Reiche wurden von Liu Xiang aus der Östlichen Han-Dynastie zusammengestellt. Wörter werden auch „ Es gibt „lange und kurze Sätze“ und die Satzmuster variieren in der Länge. Su Shi und Xin Qiji blühten in der Song-Dynastie und waren Vertreter der kühnen Schule, während Li Qingzhao ein Vertreter der anmutigen Schule war D „Yueyang Tower“ ist eigentlich eine Leihgabe. Der ehrgeizige Artikel verkörpert die Idee des Autors, Spaß mit den Menschen zu haben. A Es gibt spezielle Zweiersitze im Bus für „ältere, schwache, kranke und schwangere Frauen“ #🎜 🎜#B . Mittelschüler gingen zur revolutionären traditionellen Bildungsbasis, um an Lernaktivitäten teilzunehmen C Bewache die Grenzen des Mutterlandes D Die Schüler nutzen die Feiertage, um kleine Werbeanzeigen auf den Straßen zu räumen #🎜🎜 #Gymnasium #🎜 🎜# Beispiele für Chinesisch-Sprachaufgaben für Gymnasien: #🎜🎜 # Shen Kuo sagte in „Mengxi Bi Tan“: „Veränderungen von Himmel und Erde, Kälte und Hitze, Wind und Regen, Überschwemmungen, Dürren, Heuschrecken. Was ist die philosophische Bedeutung dieses Satzes?“ A. Gesetze sind die Ursache für Veränderungen in objektiven Dingen B universelle Sexualität D. Wir müssen lernen, die Perspektive der Entwicklung zu nutzen. Sehen Sie sich die Frage an. Die Umweltkapazität hängt davon ab, wo sich eine Population unter den Umweltbedingungen befindet. Welche der folgenden Aussagen ist richtig? Die Umweltkapazität der Populationen der grauen Elster an zwei Orten muss gleich sein Leben in einem sicher Die Umweltkapazität der ostasiatischen Wanderheuschrecken im Grasland kann in verschiedenen Jahren gleich sein das Gleiche #🎜🎜 #Universität Beispiel einer Universitäts-Zahnmedizin-Mission: zählt zu den häufigsten Mundkrebsarten in unserem Land. Welcher ist der erste? A. Alveolarschleimhautkrebs # C. Lippenkrebs D. Universität Beispiel einer umfassenden Aufgabe in den Wirtschaftswissenschaften: Welche der folgenden Posten sollten im BIP enthalten sein? A. Staatliche Transferzahlung B. Kaufen Sie einen Gebrauchtwagen C. Vom Unternehmen gezahlte Darlehens- und Anleihezinsen D. Kaufen Sie 10.000 $ aus Lotterielosen Andere Beispiel für einfach Computeraufgaben in der Prüfung: Da ein Arbeitsblatt viele Daten enthält, kann ich beim Scrollen nicht immer die Titelzeile sehen ? A. „Titel drucken“ festlegen C. Erste Zeile einfrieren Religiöse Aufgabe: Was Ist die politische Grundlage für die Anpassung der Religion an die sozialistische Gesellschaft? A. Die Errichtung der demokratischen Staatsmacht des Volkes B Die Mehrheit der Gläubigen unterstützt das sozialistische System und steht im Einklang mit den grundlegenden Interessen des Volkes Regierungsstatus des Establishments der Kommunistischen Partei Chinas. Unabhängige, selbstverwaltete Kirche. Experiment Von der Tsinghua-Universität entwickeltes Sprachmodell, unterstützt China, Englisch zweisprachig. Die Forscher wählten drei Modelle der chinesischen Version von GLM mit den Parametergrößen 335M, 10B bzw. 130B. BLOOM-7.1B, ein großes mehrsprachiges Modell, das von Hugging Face eingeführt wurde, wurde von Hunderten von Forschern entwickelt. ChatGLM-6B, ein von der Tsinghua-Universität entwickeltes Sprachmodell, wird mithilfe von Unterrichtsdaten verfeinert und durch verstärkendes Lernen auf der Grundlage menschlichen Feedbacks weiter trainiert. MOSS-16B-SFT, ein von der Fudan-Universität entwickeltes Sprachmodell, die anweisungsoptimierte Version von MOSS-moon-003-SFT, wurde in dem Experiment verwendet. BELLE-7B-0.2M, ein Sprachmodell, das auf Basis von BLOOMZ-7.1B-mt entwickelt und mit 200.000 Anweisungen verfeinert wurde. GPT-3.5-turbo, ein von OpenAI entwickeltes Sprachmodell. Das Lerntraining zur Verstärkung des menschlichen Feedbacks wird unter Verwendung künstlich erstellter, qualitativ hochwertiger Instruktionsdaten durchgeführt. . Experimentelle Ergebnisanalyse 1. Bei der Nullstichprobenbewertung (Tabelle 4 und 6) ist die Genauigkeit aller vorab trainierten Sprachmodelle (ohne Feinabstimmung) mit Parametern unter 10B geringer als das Zufallsergebnis (25 %). Die Einstellung (Tabelle 5 und 7) trägt zur Verbesserung der Modellleistung bei. Allerdings sind die Ergebnisse von GLM130B bei der Nullstichprobenauswertung besser als die Ergebnisse der Wenigstichprobenauswertung. Der Grund dafür kann sein, dass GLM130B einen Teil der Befehlsdaten in der Vortrainingsphase verwendet hat, sodass es bereits bessere Nullstichproben hat. Beispiele für Lernfähigkeiten. 2, die meisten fein abgestimmten chinesischen Großmodelle erreichen nur das Niveau zufälliger Ergebnisse (25 %), selbst im Grundschultest (Tabelle 6 und 7). Dies zeigt, dass Wissen auf niedrigeren Bildungsniveaus immer noch einer der Mängel des aktuellen großen chinesischen Modells ist. 3. Bei der Nullstichprobenbewertung erzielte BELLE-7B-2M die besten Ergebnisse unter den großen chinesischen Modellen, hatte aber immer noch einen Abstand von 14,8 % zum GPT-3.5-Turbo. Darüber hinaus ist auch die Anzahl der überwachten Feinabstimmungsanweisungen ein wichtiger Faktor. BELLE-7B-2M, feinabgestimmt mit zwei Millionen Anweisungen, ist besser als BELLE-7B-0,2M, feinabgestimmt mit zweihunderttausend Anweisungen (Tabelle 4). . 4. Die Einstellung weniger Stichproben führt in den meisten Fällen nicht zu einer Leistungsverbesserung (Tabelle 5 und 7 gegenüber Tabelle 4 und 6), insbesondere beim Sprachmodell, das durch Feinabstimmung der Anweisungen oder verstärkendes Lernen auf der Grundlage menschlichen Feedbacks trainiert wird. Dies zeigt, dass die Feinabstimmung der Anweisungen eines vorab trainierten Sprachmodells die Zero-Shot-Lernfähigkeit des Sprachmodells erheblich verbessern kann, sodass keine zusätzlichen Beispiele erforderlich sind, um die Absicht der Anweisung oder Frage zu verstehen. Forscher schlugen einen neuen Benchmark, M3KE, vor, um die Wissensbeherrschung chinesischer Großmodelle in mehreren Disziplinen und verschiedenen Bildungsstufen zu bewerten. M3KE enthält 71 Aufgaben und 20.447 Fragen. Die Forscher fanden heraus, dass alle evaluierten großen chinesischen Open-Source-Modelle deutlich hinter GPT-3.5 zurückblieben. Die Forscher hoffen, dass M3KE dazu beitragen wird, Wissenslücken in chinesischen Großmodellen aufzudecken und die Weiterentwicklung chinesischer Großmodelle voranzutreiben. Alle Aufgaben in M3KE
Bewertungsergebnisse für verschiedene BildungsstufenSchlussfolgerung
Das obige ist der detaillierte Inhalt vonVerschieben Sie die Fragen der Aufnahmeprüfung in den chinesischen großen Modelldatensatz, 20477 Fragen und 4 Kandidatenantworten. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!