Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?-KI-php.cn

Inhaltsverzeichnis

Skalieren alle Modelle gleich?

Ist das beste Modell für jeden Maßstab unterschiedlich?

Skalierungsgesetz für jedes Modell

Wirken sich Skalierungsprotokolle in gleicher Weise auf die Modellarchitektur aus?

Heim

Technologie-Peripheriegeräte

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 09, 2023 pm 08:21 PM

谷歌模型

Transformer-Skalierung des Modells hat in den letzten Jahren das Forschungsinteresse vieler Wissenschaftler geweckt. Über die Skalierungseigenschaften verschiedener induktiver Vorspannungen, die durch Modellarchitekturen auferlegt werden, ist jedoch nicht viel bekannt. Es wird häufig davon ausgegangen, dass Verbesserungen in einem bestimmten Maßstab (Berechnung, Größe usw.) auf andere Maßstäbe und Rechenbereiche übertragen werden können.

Es ist jedoch von entscheidender Bedeutung, die Wechselwirkung zwischen Architektur und Skalierungsgesetzen zu verstehen, und es ist von großer Forschungsbedeutung, Modelle zu entwerfen, die in verschiedenen Maßstäben gut funktionieren. Mehrere Fragen müssen noch geklärt werden: Skalieren Modellarchitekturen unterschiedlich? Wenn ja, wie wirkt sich die induktive Vorspannung auf die Skalierungsleistung aus? Wie wirkt es sich auf vorgelagerte (Vorschulung) und nachgelagerte (Übertragungs-)Aufgaben aus? In einem aktuellen Artikel versuchten Forscher bei Google, den Einfluss der induktiven Verzerrung (Architektur) auf die Skalierung von Sprachmodellen zu verstehen. Zu diesem Zweck trainierten und optimierten die Forscher zehn verschiedene Modellarchitekturen über mehrere Rechenregionen und Maßstäbe hinweg (von 15 Millionen bis 40 Milliarden Parametern). Insgesamt haben sie mehr als 100 Modelle unterschiedlicher Architektur und Größe vorab trainiert und verfeinert und Einblicke und Herausforderungen bei der Skalierung dieser zehn verschiedenen Architekturen präsentiert.

Papierlink: https://arxiv.org/pdf/2207.10551.pdf#🎜 🎜#

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus? Sie stellen außerdem fest, dass die Skalierung dieser Modelle nicht so einfach ist, wie es scheint, das heißt, dass die komplizierten Details der Skalierung nichts mit der im Detail untersuchten Architektur zu tun haben In diesem Artikel sind Entscheidungen miteinander verflochten. Eine Funktion von Universal Transformers (und ALBERT) ist beispielsweise die gemeinsame Nutzung von Parametern. Diese Architekturwahl verzerrt das Skalierungsverhalten im Vergleich zum Standard-Transformer erheblich, nicht nur im Hinblick auf die Leistung, sondern auch im Hinblick auf Rechenmetriken wie FLOPs, Geschwindigkeit und Anzahl der Parameter. Im Gegensatz dazu sind Modelle wie Switch Transformers völlig anders und weisen eine ungewöhnliche Beziehung zwischen FLOPs und Parametergrößen auf.

Im Einzelnen lauten die Hauptbeiträge dieses Artikels wie folgt:

#🎜 🎜# Die Skalierungsgesetze für verschiedene induktive Vorspannungen und Modellarchitekturen werden zum ersten Mal abgeleitet

. Die Forscher stellten fest, dass dieser Skalierungsfaktor von Modell zu Modell erheblich variierte, und stellten fest, dass dies ein wichtiger Gesichtspunkt bei der Modellentwicklung ist. Es stellte sich heraus, dass der Vanilla Transformer von allen zehn berücksichtigten Architekturen die beste Skalierungsleistung aufwies, auch wenn er in absoluten Zahlen pro Rechenfläche nicht die beste war.

Forscher haben beobachtet, dass ein Modell, das in einem Rechenskalierungsbereich gut funktioniert, nicht unbedingt auch in einem anderen Rechenskalierungsbereich gut funktioniert. Das beste Modell von #🎜 🎜#. Darüber hinaus stellten sie fest, dass einige Modelle zwar in Regionen mit geringer Rechenleistung eine gute Leistung erbringen, sich aber nur schwer skalieren lassen. Dies bedeutet, dass es schwierig ist, durch einen Punkt-für-Punkt-Vergleich in einem bestimmten Rechenbereich ein vollständiges Bild der Skalierbarkeit des Modells zu erhalten. Forscher haben herausgefunden, dass Wenn es um die Skalierung verschiedener Modellarchitekturen geht, ist das Upstream-Vortraining möglicherweise weniger verwirrend als die Downstream-Übertragung Verwandte #🎜 🎜#
Methoden und ExperimenteIm dritten Kapitel der Arbeit skizziert der Forscher den gesamten Versuchsaufbau und stellt evaluierte Modelle vor bei Experimenten.
Tabelle 1 unten zeigt die Hauptergebnisse dieses Artikels, einschließlich der Anzahl der trainierbaren Parameter, FLOPs (einzelner Vorwärtsdurchlauf) und Geschwindigkeit (Schritte pro Sekunde) usw. Außerdem sind Validierungsratlosigkeit (Upstream-Vortraining) und Ergebnisse für 17 Downstream-Aufgaben enthalten.

Skalieren alle Modelle gleich?

Abbildung 2 unten zeigt das Skalierungsverhalten aller Modelle bei Erhöhung der Anzahl der FLOPs. Es ist zu beobachten, dass das Skalierungsverhalten aller Modelle recht einzigartig und unterschiedlich ist, d. h. die meisten unterscheiden sich vom Standard-Transformer. Die vielleicht größte Erkenntnis hier ist, dass die meisten Modelle (z. B. LConv, Evolution) anscheinend eine gleichwertige oder bessere Leistung als der Standard-Transformer erbringen, sich jedoch nicht mit höheren Rechenbudgets skalieren lassen.

Ein weiterer interessanter Trend ist, dass „lineare“ Transformer wie Performer nicht skalierbar sind. Wie in Abbildung 2i dargestellt, sank die Ratlosigkeit vor dem Training im Vergleich zum Basismaßstab nur um 2,7 %. Für den Vanilla Transformer beträgt dieser Wert 8,4 %.

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

Abbildung 3 unten zeigt die Skalierungskurven aller Modelle in der Downstream-Migrationsaufgabe. Es zeigt sich, dass die meisten Modelle im Vergleich zu Transformer unterschiedliche Skalierungskurven haben, die sich in Downstream-Aufgaben erheblich ändern. Es ist zu beachten, dass die meisten Modelle unterschiedliche Upstream- oder Downstream-Skalierungskurven haben.

Forscher fanden heraus, dass einige Modelle, wie Funnel Transformer und LConv, stromaufwärts offenbar eine recht gute Leistung zu erbringen schienen, stromabwärts jedoch stark beeinträchtigt waren. Bei Performer scheint der Leistungsunterschied zwischen Upstream und Downstream sogar noch größer zu sein. Es ist erwähnenswert, dass nachgelagerte Aufgaben von SuperGLUE oft Pseudo-Cross-Attention auf dem Encoder erfordern, was Modelle wie die Faltung nicht bewältigen können (Tay et al., 2021a).

Daher haben Forscher herausgefunden, dass einige Modelle zwar eine gute Upstream-Leistung aufweisen, sie jedoch möglicherweise immer noch Schwierigkeiten beim Erlernen von Downstream-Aufgaben haben.

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

Ist das beste Modell für jeden Maßstab unterschiedlich?

Abbildung 1 unten zeigt die Pareto-Grenze, berechnet in Bezug auf die Upstream- oder Downstream-Leistung. Die Farben des Diagramms stellen unterschiedliche Modelle dar, und es ist zu erkennen, dass das optimale Modell für jeden Maßstab und jeden Berechnungsbereich unterschiedlich sein kann. Darüber hinaus ist dies auch in Abbildung 3 oben zu sehen. Beispielsweise scheint der Evolved Transformer im winzigen bis kleinen Bereich (Downstream) genauso gut zu funktionieren wie der Standard-Transformer, aber das ändert sich schnell, wenn das Modell vergrößert wird. Dies beobachteten die Forscher auch beim MoS-Transformer, der in einigen Bereichen deutlich besser abschnitt als der gewöhnliche Transformer, in anderen jedoch nicht.

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

Skalierungsgesetz für jedes Modell

Tabelle 2 unten gibt die Steigung der angepassten linearen Geraden α für jedes Modell in verschiedenen Fällen an. Die Forscher ermittelten α durch Auftragen von F (FLOPs), U (Upstream-Perplexität), D (Downstream-Genauigkeit) und P (Anzahl der Parameter). Im Allgemeinen beschreibt α die Skalierbarkeit des Modells, z. B. zeigt α_F,U FLOPs gegen die Upstream-Leistung. Die einzige Ausnahme ist α_U,D, ein Maß für die Upstream- und Downstream-Leistung, wobei hohe α_U,D-Werte eine bessere Modellskalierung für Downstream-Aufgaben bedeuten. Insgesamt ist der Alpha-Wert ein Maß dafür, wie gut ein Modell im Verhältnis zur Skalierung abschneidet.

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

Wirken sich Skalierungsprotokolle in gleicher Weise auf die Modellarchitektur aus?

Abbildung 4 unten zeigt die Auswirkung der Skalierungstiefe in vier Modellarchitekturen (MoS-Transformer, Transformer, Evolved Transformer, LConv).

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

Abbildung 5 unten zeigt die Auswirkungen der Skalierung der Breite auf dieselben vier Architekturen. Erstens ist auf der Upstream-Kurve (negative Log-Perplexität) zu erkennen, dass es zwar deutliche Unterschiede in der absoluten Leistung zwischen verschiedenen Architekturen gibt, die Skalierungstrends jedoch sehr ähnlich bleiben. Downstream, mit Ausnahme von LConv, scheint die tiefe Skalierung (Abbildung 4 oben) auf den meisten Architekturen gleich zu funktionieren. Außerdem scheint es, dass der Evolved Transformer bei der Anwendung der Breitenskalierung im Vergleich zur Breitenskalierung etwas besser abschneidet. Es ist erwähnenswert, dass die Tiefenskalierung einen viel größeren Einfluss auf die Downstream-Skalierung hat als die Breitenskalierung.

Neue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?

Weitere Forschungsdetails finden Sie im Originalpapier.

Das obige ist der detaillierte Inhalt vonNeue Forschung von Google und DeepMind: Wie wirkt sich induktive Verzerrung auf die Modellskalierung aus?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

2 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7456

CakePHP-Tutorial

1376

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Wie man Deepseek kommentiert Feb 19, 2025 pm 05:42 PM

Deepseek ist ein leistungsstarkes Informations -Abruf -Tool. .

So suchen Sie Deepseek Feb 19, 2025 pm 05:39 PM

Deepseek ist eine proprietäre Suchmaschine, die nur schneller und genauer in einer bestimmten Datenbank oder einem bestimmten System sucht. Bei der Verwendung wird den Benutzern empfohlen, das Dokument zu lesen, verschiedene Suchstrategien auszuprobieren, Hilfe und Feedback zur Benutzererfahrung zu suchen, um die Vorteile optimal zu nutzen.

Sesame Open Door Exchange -Webseite Registrierung Link Gate Trading App Registrierung Website Neueste Feb 28, 2025 am 11:06 AM

In diesem Artikel wird der Registrierungsprozess der Webversion Sesam Open Exchange (GATE.IO) und die Gate Trading App im Detail vorgestellt. Unabhängig davon, ob es sich um eine Webregistrierung oder eine App -Registrierung handelt, müssen Sie die offizielle Website oder den offiziellen App Store besuchen, um die Genuine App herunterzuladen, und dann den Benutzernamen, das Kennwort, die E -Mail, die Mobiltelefonnummer und die anderen Informationen eingeben und eine E -Mail- oder Mobiltelefonüberprüfung abschließen.

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Feb 21, 2025 pm 10:57 PM

Warum kann der Bybit -Exchange -Link nicht direkt heruntergeladen und installiert werden? Bitbit ist eine Kryptowährungsbörse, die den Benutzern Handelsdienste anbietet. Die mobilen Apps der Exchange können aus den folgenden Gründen nicht direkt über AppStore oder Googleplay heruntergeladen werden: 1. App Store -Richtlinie beschränkt Apple und Google daran, strenge Anforderungen an die im App Store zulässigen Anwendungsarten zu haben. Kryptowährungsanträge erfüllen diese Anforderungen häufig nicht, da sie Finanzdienstleistungen einbeziehen und spezifische Vorschriften und Sicherheitsstandards erfordern. 2. Die Einhaltung von Gesetzen und Vorschriften In vielen Ländern werden Aktivitäten im Zusammenhang mit Kryptowährungstransaktionen reguliert oder eingeschränkt. Um diese Vorschriften einzuhalten, kann die Bitbit -Anwendung nur über offizielle Websites oder andere autorisierte Kanäle verwendet werden

Sesame Open Door Trading Platform Download Mobile Version Gateio Trading Platform Download -Adresse Feb 28, 2025 am 10:51 AM

Es ist wichtig, einen formalen Kanal auszuwählen, um die App herunterzuladen und die Sicherheit Ihres Kontos zu gewährleisten.

Gate.io Exchange Official Registration Portal Feb 20, 2025 pm 04:27 PM

Gate.io ist ein führender Kryptowährungsaustausch, der eine breite Palette von Krypto -Vermögenswerten und Handelspaaren bietet. Registrierung von Gate.io ist sehr einfach. Vervollständigen Sie die Registrierung. Mit Gate.io können Benutzer ein sicheres und bequemes Kryptowährungshandelserlebnis genießen.

Binance Binance Offizielle Website Neueste Version Anmeldeportal Feb 21, 2025 pm 05:42 PM

Befolgen Sie diese einfachen Schritte, um auf die neueste Version des Binance -Website -Login -Portals zuzugreifen. Gehen Sie zur offiziellen Website und klicken Sie in der oberen rechten Ecke auf die Schaltfläche "Anmeldung". Wählen Sie Ihre vorhandene Anmeldemethode. Geben Sie Ihre registrierte Handynummer oder E -Mail und Kennwort ein und vervollständigen Sie die Authentifizierung (z. B. Mobilfifizierungscode oder Google Authenticator). Nach einer erfolgreichen Überprüfung können Sie auf das neueste Version des offiziellen Website -Login -Portals von Binance zugreifen.

Sesam Open Door Exchange Webseite Login Neueste Version Gateio Offizieller Website Eingang Mar 04, 2025 pm 11:48 PM

Eine detaillierte Einführung in den Anmeldungsbetrieb der Sesame Open Exchange -Webversion, einschließlich Anmeldeschritte und Kennwortwiederherstellungsprozess.

See all articles