


Die Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten'
Da große Sprachmodelle Dinge tun können, auf die sie nicht trainiert wurden, scheinen sie eine Art Magie zu besitzen und sind daher in den Mittelpunkt des Hypes und der Aufmerksamkeit von Medien und Forschern geraten.
Beim Erweitern eines großen Sprachmodells treten gelegentlich einige neue Fähigkeiten auf, die in kleineren Modellen nicht verfügbar sind. Dieses der „Kreativität“ ähnliche Attribut wird als „emergente“ Fähigkeit bezeichnet und stellt einen Schritt in Richtung allgemeiner künstlicher Intelligenz dar.
Jetzt erforschen Forscher von Google, Stanford, Deepmind und der University of North Carolina die „emergente“ Fähigkeit in großen Sprachmodellen.
Decoder fordert DALL-E auf
Die magische „emergente“ Fähigkeit
Die Verarbeitung natürlicher Sprache (NLP) wurde durch Sprachmodelle revolutioniert, die auf großen Textdatenmengen trainiert wurden. Durch die Skalierung von Sprachmodellen werden häufig die Leistung und die Stichprobeneffizienz bei einer Reihe nachgelagerter NLP-Aufgaben verbessert.
In vielen Fällen können wir die Leistung eines großen Sprachmodells vorhersagen, indem wir auf Leistungstrends kleinerer Modelle schließen. Beispielsweise wurde der Effekt der Skalierung auf die Ratlosigkeit von Sprachmodellen über mehr als sieben Größenordnungen hinweg nachgewiesen.
Allerdings verbesserte sich die Leistung bei einigen anderen Aufgaben nicht in vorhersehbarer Weise.
Zum Beispiel zeigt das GPT-3-Papier, dass die Fähigkeit des Sprachmodells, mehrstellige Additionen durchzuführen, eine flache Skalierungskurve für Modelle mit 100M- bis 13B-Parametern aufweist, was ungefähr zufällig ist, aber einen Leistungssprung bei a verursacht Knoten.
Angesichts der zunehmenden Verwendung von Sprachmodellen in der NLP-Forschung ist es wichtig, diese Fähigkeiten, die unerwartet auftreten können, besser zu verstehen.
In einem kürzlich in Machine Learning Research (TMLR) veröffentlichten Artikel „Emergent Power of Large Language Models“ zeigten Forscher Dutzende Beispiele für „emergent“ Power, die durch erweiterte Sprachmodelle erzeugt werden.
Die Existenz dieser „emergenten“ Fähigkeit wirft die Frage auf, ob eine zusätzliche Skalierung das Spektrum der Sprachmodellfähigkeiten weiter erweitern kann.
Bestimmte Hinweis- und Feinabstimmungsmethoden führen nur bei größeren Modellen zu Verbesserungen
„Notfall“-Eingabeaufforderungen
Zuerst besprechen wir die „Entstehung“, die bei Eingabeaufforderungsaufgaben auftreten kann.
Bei dieser Art von Aufgabe wird ein vorab trainiertes Sprachmodell aufgefordert, die Aufgabe der Vorhersage des nächsten Wortes auszuführen und führt die Aufgabe aus, indem es die Antwort vervollständigt.
Ohne weitere Feinabstimmung können Sprachmodelle häufig Aufgaben ausführen, die während des Trainings nicht gesehen wurden.
Wenn eine Aufgabe bei einem bestimmten Skalierungsschwellenwert unvorhersehbar von einer zufälligen zu einer überzufälligen Leistung ansteigt, nennen wir sie eine „aufkommende“ Aufgabe.
Im Folgenden zeigen wir drei Beispiele für schnelle Aufgaben mit „emergenter“ Leistung: mehrstufiges Rechnen, das Ablegen einer Prüfung auf Hochschulniveau und das Ermitteln der beabsichtigten Bedeutung eines Wortes.
In jedem Fall ist die Leistung von Sprachmodellen schlecht und hängt kaum von der Modellgröße ab, bis ein bestimmter Schwellenwert erreicht wird – wo ihre Leistung ansteigt.
Bei Modellen mit ausreichendem Maßstab wird die Leistung dieser Aufgaben nur nicht zufällig – beispielsweise werden arithmetische und Multitasking-NLU-Aufgaben pro Sekunde trainiert Die Anzahl der Gleitkommaoperationen (FLOP) übersteigt 10 hoch 22, und die Trainings-FLOP der Wörter in der Kontextaufgabe übersteigt 10 hoch 24.
„Emergente“ Prompt-Strategie
Die zweite Kategorie der „emergenten“ Fähigkeiten umfasst Prompt-Strategien, die die Fähigkeiten von Sprachmodellen verbessern.
Prompt-Strategie ist ein umfassendes Paradigma für Prompts, das auf eine Reihe unterschiedlicher Aufgaben angewendet werden kann. Sie gelten als „emergent“, wenn sie bei kleinen Modellen versagen und nur von ausreichend großen Modellen verwendet werden können.
Gedankenketten-Prompts sind ein typisches Beispiel für die „emergente“ Prompt-Strategie und veranlassen das Modell, eine Reihe von Zwischenschritten zu generieren, bevor es die endgültige Antwort gibt.
Gedankenketten-Eingabeaufforderungen ermöglichen es Sprachmodellen, Aufgaben auszuführen, die komplexes Denken erfordern, wie beispielsweise mehrstufige mathematische Wortaufgaben.
Es ist erwähnenswert, dass das Modell die Fähigkeit zum Gedankenkettendenken ohne explizites Training erwerben kann. Die folgende Abbildung zeigt ein Beispiel für eine Gedankenkettenaufforderung.
Die empirischen Ergebnisse der Denkkettenaufforderung sind wie folgt.
Bei kleineren Modellen übertrifft die Anwendung der Thought Chain-Eingabeaufforderung die Standardaufforderung nicht, z. B. bei GSM8K. ein anspruchsvoller mathematischer Textaufgaben-Benchmark.
Bei großen Modellen erreichten Thought Chain-Eingabeaufforderungen jedoch eine Lösungsrate von 57 % auf GSM8K, was die Leistung in unseren Tests erheblich verbesserte.
Die Bedeutung des Studiums „aufkommender“ Fähigkeiten
Was ist also die Bedeutung des Studiums „aufkommender“ Fähigkeiten?
Die Identifizierung „aufkommender“ Fähigkeiten in großen Sprachmodellen ist der erste Schritt zum Verständnis dieses Phänomens und seiner möglichen Auswirkungen auf zukünftige Modellfähigkeiten.
Da beispielsweise die „aufkommenden“ Fähigkeiten und Strategien zur Eingabeaufforderung bei kleinen Stichproben nicht explizit im Vortraining kodiert sind, kennen Forscher die Fähigkeiten zur Eingabeaufforderung bei kleinen Stichproben möglicherweise nicht der aktuellen Sprachmodelle.
Darüber hinaus ist auch die Frage sehr wichtig, ob eine weitere Erweiterung größeren Modellen möglicherweise „aufkommende“ Fähigkeiten verleihen wird.
- Warum erscheint die Fähigkeit „emergent“?
- Werden neue reale Anwendungen von Sprachmodellen freigeschaltet, wenn bestimmte Fähigkeiten auftauchen?
- Können neue Fähigkeiten durch andere Methoden (z. B. bessere Modellarchitektur oder Trainingstechniken) freigeschaltet werden, ohne die Skalierbarkeit zu erhöhen, da Rechenressourcen teuer sind?
Forscher sagen, dass diese Probleme noch nicht bekannt sind.
Da sich das NLP-Gebiet jedoch weiterentwickelt, ist es sehr wichtig, das Verhalten von Sprachmodellen zu analysieren und zu verstehen, einschließlich der „aufkommenden“ Fähigkeiten, die durch Skalierung entstehen .
Das obige ist der detaillierte Inhalt vonDie Parameter werden leicht verbessert und der Leistungsindex explodiert! Google: Große Sprachmodelle verbergen „mysteriöse Fähigkeiten'. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Heiße KI -Werkzeuge

Undresser.AI Undress
KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover
Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool
Ausziehbilder kostenlos

Clothoff.io
KI-Kleiderentferner

AI Hentai Generator
Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

Heiße Werkzeuge

Notepad++7.3.1
Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version
Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1
Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6
Visuelle Webentwicklungstools

SublimeText3 Mac-Version
Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Gate.io ist ein führender Kryptowährungsaustausch, der eine breite Palette von Krypto -Vermögenswerten und Handelspaaren bietet. Registrierung von Gate.io ist sehr einfach. Vervollständigen Sie die Registrierung. Mit Gate.io können Benutzer ein sicheres und bequemes Kryptowährungshandelserlebnis genießen.

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

Dieser Leitfaden enthält detaillierte Download- und Installationsschritte für die offizielle Bitget Exchange -App, die für Android- und iOS -Systeme geeignet ist. Der Leitfaden integriert Informationen aus mehreren maßgeblichen Quellen, einschließlich der offiziellen Website, dem App Store und Google Play, und betont Überlegungen während des Downloads und des Kontoverwaltung. Benutzer können die App aus offiziellen Kanälen herunterladen, einschließlich App Store, offizieller Website APK Download und offizieller Website -Sprung sowie vollständige Registrierung, Identitätsüberprüfung und Sicherheitseinstellungen. Darüber hinaus deckt der Handbuch häufig gestellte Fragen und Überlegungen ab, wie z.
