Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten'-KI-php.cn

Inhaltsverzeichnis

Die magische „emergente“ Fähigkeit

„Notfall“-Eingabeaufforderungen

„Emergente“ Prompt-Strategie

Die Bedeutung des Studiums „aufkommender“ Fähigkeiten

Heim

Technologie-Peripheriegeräte

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten'

王林

Apr 11, 2023 pm 11:16 PM

谷歌研究

Da große Sprachmodelle Dinge tun können, auf die sie nicht trainiert wurden, scheinen sie eine Art Magie zu besitzen und sind daher in den Mittelpunkt des Hypes und der Aufmerksamkeit von Medien und Forschern geraten.

Beim Erweitern eines großen Sprachmodells treten gelegentlich einige neue Fähigkeiten auf, die in kleineren Modellen nicht verfügbar sind. Dieses der „Kreativität“ ähnliche Attribut wird als „emergente“ Fähigkeit bezeichnet und stellt einen Schritt in Richtung allgemeiner künstlicher Intelligenz dar.

Jetzt erforschen Forscher von Google, Stanford, Deepmind und der University of North Carolina die „emergente“ Fähigkeit in großen Sprachmodellen.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Decoder fordert DALL-E auf

Die magische „emergente“ Fähigkeit

Die Verarbeitung natürlicher Sprache (NLP) wurde durch Sprachmodelle revolutioniert, die auf großen Textdatenmengen trainiert wurden. Durch die Skalierung von Sprachmodellen werden häufig die Leistung und die Stichprobeneffizienz bei einer Reihe nachgelagerter NLP-Aufgaben verbessert.

In vielen Fällen können wir die Leistung eines großen Sprachmodells vorhersagen, indem wir auf Leistungstrends kleinerer Modelle schließen. Beispielsweise wurde der Effekt der Skalierung auf die Ratlosigkeit von Sprachmodellen über mehr als sieben Größenordnungen hinweg nachgewiesen.

Allerdings verbesserte sich die Leistung bei einigen anderen Aufgaben nicht in vorhersehbarer Weise.

Zum Beispiel zeigt das GPT-3-Papier, dass die Fähigkeit des Sprachmodells, mehrstellige Additionen durchzuführen, eine flache Skalierungskurve für Modelle mit 100M- bis 13B-Parametern aufweist, was ungefähr zufällig ist, aber einen Leistungssprung bei a verursacht Knoten.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Angesichts der zunehmenden Verwendung von Sprachmodellen in der NLP-Forschung ist es wichtig, diese Fähigkeiten, die unerwartet auftreten können, besser zu verstehen.

In einem kürzlich in Machine Learning Research (TMLR) veröffentlichten Artikel „Emergent Power of Large Language Models“ zeigten Forscher Dutzende Beispiele für „emergent“ Power, die durch erweiterte Sprachmodelle erzeugt werden.

Die Existenz dieser „emergenten“ Fähigkeit wirft die Frage auf, ob eine zusätzliche Skalierung das Spektrum der Sprachmodellfähigkeiten weiter erweitern kann.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Bestimmte Hinweis- und Feinabstimmungsmethoden führen nur bei größeren Modellen zu Verbesserungen

„Notfall“-Eingabeaufforderungen

Zuerst besprechen wir die „Entstehung“, die bei Eingabeaufforderungsaufgaben auftreten kann.

Bei dieser Art von Aufgabe wird ein vorab trainiertes Sprachmodell aufgefordert, die Aufgabe der Vorhersage des nächsten Wortes auszuführen und führt die Aufgabe aus, indem es die Antwort vervollständigt.

Ohne weitere Feinabstimmung können Sprachmodelle häufig Aufgaben ausführen, die während des Trainings nicht gesehen wurden.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Wenn eine Aufgabe bei einem bestimmten Skalierungsschwellenwert unvorhersehbar von einer zufälligen zu einer überzufälligen Leistung ansteigt, nennen wir sie eine „aufkommende“ Aufgabe.

Im Folgenden zeigen wir drei Beispiele für schnelle Aufgaben mit „emergenter“ Leistung: mehrstufiges Rechnen, das Ablegen einer Prüfung auf Hochschulniveau und das Ermitteln der beabsichtigten Bedeutung eines Wortes.

In jedem Fall ist die Leistung von Sprachmodellen schlecht und hängt kaum von der Modellgröße ab, bis ein bestimmter Schwellenwert erreicht wird – wo ihre Leistung ansteigt.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Bei Modellen mit ausreichendem Maßstab wird die Leistung dieser Aufgaben nur nicht zufällig – beispielsweise werden arithmetische und Multitasking-NLU-Aufgaben pro Sekunde trainiert Die Anzahl der Gleitkommaoperationen (FLOP) übersteigt 10 hoch 22, und die Trainings-FLOP der Wörter in der Kontextaufgabe übersteigt 10 hoch 24.

„Emergente“ Prompt-Strategie

Die zweite Kategorie der „emergenten“ Fähigkeiten umfasst Prompt-Strategien, die die Fähigkeiten von Sprachmodellen verbessern.

Prompt-Strategie ist ein umfassendes Paradigma für Prompts, das auf eine Reihe unterschiedlicher Aufgaben angewendet werden kann. Sie gelten als „emergent“, wenn sie bei kleinen Modellen versagen und nur von ausreichend großen Modellen verwendet werden können.

Gedankenketten-Prompts sind ein typisches Beispiel für die „emergente“ Prompt-Strategie und veranlassen das Modell, eine Reihe von Zwischenschritten zu generieren, bevor es die endgültige Antwort gibt.

Gedankenketten-Eingabeaufforderungen ermöglichen es Sprachmodellen, Aufgaben auszuführen, die komplexes Denken erfordern, wie beispielsweise mehrstufige mathematische Wortaufgaben.

Es ist erwähnenswert, dass das Modell die Fähigkeit zum Gedankenkettendenken ohne explizites Training erwerben kann. Die folgende Abbildung zeigt ein Beispiel für eine Gedankenkettenaufforderung.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Die empirischen Ergebnisse der Denkkettenaufforderung sind wie folgt.

Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten

Bei kleineren Modellen übertrifft die Anwendung der Thought Chain-Eingabeaufforderung die Standardaufforderung nicht, z. B. bei GSM8K. ein anspruchsvoller mathematischer Textaufgaben-Benchmark.

Bei großen Modellen erreichten Thought Chain-Eingabeaufforderungen jedoch eine Lösungsrate von 57 % auf GSM8K, was die Leistung in unseren Tests erheblich verbesserte.

Die Bedeutung des Studiums „aufkommender“ Fähigkeiten

Was ist also die Bedeutung des Studiums „aufkommender“ Fähigkeiten?

Die Identifizierung „aufkommender“ Fähigkeiten in großen Sprachmodellen ist der erste Schritt zum Verständnis dieses Phänomens und seiner möglichen Auswirkungen auf zukünftige Modellfähigkeiten.

Da beispielsweise die „aufkommenden“ Fähigkeiten und Strategien zur Eingabeaufforderung bei kleinen Stichproben nicht explizit im Vortraining kodiert sind, kennen Forscher die Fähigkeiten zur Eingabeaufforderung bei kleinen Stichproben möglicherweise nicht der aktuellen Sprachmodelle.

Darüber hinaus ist auch die Frage sehr wichtig, ob eine weitere Erweiterung größeren Modellen möglicherweise „aufkommende“ Fähigkeiten verleihen wird.

Warum erscheint die Fähigkeit „emergent“?
Werden neue reale Anwendungen von Sprachmodellen freigeschaltet, wenn bestimmte Fähigkeiten auftauchen?
Können neue Fähigkeiten durch andere Methoden (z. B. bessere Modellarchitektur oder Trainingstechniken) freigeschaltet werden, ohne die Skalierbarkeit zu erhöhen, da Rechenressourcen teuer sind?

Forscher sagen, dass diese Probleme noch nicht bekannt sind.

Da sich das NLP-Gebiet jedoch weiterentwickelt, ist es sehr wichtig, das Verhalten von Sprachmodellen zu analysieren und zu verstehen, einschließlich der „aufkommenden“ Fähigkeiten, die durch Skalierung entstehen .

Das obige ist der detaillierte Inhalt vonDie Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7455

CakePHP-Tutorial

1375

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Gate.io Exchange Official Registration Portal Feb 20, 2025 pm 04:27 PM

Gate.io ist ein führender Kryptowährungsaustausch, der eine breite Palette von Krypto -Vermögenswerten und Handelspaaren bietet. Registrierung von Gate.io ist sehr einfach. Vervollständigen Sie die Registrierung. Mit Gate.io können Benutzer ein sicheres und bequemes Kryptowährungshandelserlebnis genießen.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

See all articles