Natur: Sind größere KI-Modelle besser?-KI-php.cn

Inhaltsverzeichnis

Kann das Sprachmodell der Mathematik nicht herausfinden

Aber das Problem besteht darin, dass die Datensätze, die Rechenleistung und die Kosten, die mit dem Training großer Sprachmodelle verbunden sind, ihre Entwicklung einschränken. Derzeit ist dies nur Unternehmen mit extrem großen Rechenressourcen möglich.

Heim

Technologie-Peripheriegeräte

Natur: Sind größere KI-Modelle besser?

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 am 09:01 AM

系统 ai 模型

Generative KI-Modelle werden heutzutage immer größer. Bedeutet größer also besser?

Nein. Nun schlagen einige Wissenschaftler schlankere, energieeffizientere Systeme vor.

Natur: Sind größere KI-Modelle besser?

Artikeladresse: https://www.nature.com/articles/d41586-023-00641-w

Kann das Sprachmodell der Mathematik nicht herausfinden

Der jüngste Liebling der ChatGPT aus der Technologiebranche ist angesichts der Tatsache, dass die Leistung bei mathematischen Fragen, deren Beantwortung eine Begründung erfordert, tendenziell schlecht.

Zum Beispiel wird diese Frage „Eine gerade Linie parallel zu y = 4 x + 6 geht durch (5, 10). Was ist die y-Koordinate des Schnittpunkts dieser Linie und der y-Achse?“ oft nicht beantwortet korrekt.

In einem frühen Test der Denkfähigkeit erreichte ChatGPT bei der Beantwortung einer Stichprobe des MATH-Datensatzes auf Mittelschulniveau nur 26 (%).

Das haben wir natürlich erwartet. Angesichts des Eingabetextes generiert ChatGPT nur neuen Text basierend auf den statistischen Regeln von Wörtern, Symbolen und Sätzen im Trainingsdatensatz.

Natürlich ist es für ein Sprachmodell unmöglich, durch einfaches Erlernen eines Sprachmodells zu lernen, mathematisches Denken zu imitieren.

Aber tatsächlich hatte das von Google erstellte große Sprachmodell namens Minerva bereits im Juni 2022 diesen „Fluch“ gebrochen.

Minerva erreichte bei den Fragen im MATH-Datensatz (2) 50 %, ein Ergebnis, das die Forscher schockierte.

Natur: Sind größere KI-Modelle besser?

Minerva hat eine Mathematikaufgabe der Mittelschule im Datensatz „MATH“ richtig beantwortet

Sébastien Bubeck, Experte für maschinelles Lernen bei Microsoft Research, sagte, dass die Leute in der Branche schockiert seien und darüber gesprochen hätten.

Der Vorteil von Minerva ist natürlich, dass es auf mathematische Texte trainiert wird.

Aber Googles Untersuchungen legen einen weiteren wichtigen Grund für die gute Leistung des Modells nahe – seine schiere Größe. Es ist ungefähr dreimal so groß wie ChatGPT.

Die Ergebnisse von Minerva deuten auf etwas hin, was einige Forscher schon lange vermutet haben: Das Training größerer LLMs und die Bereitstellung von mehr Daten können sie in die Lage versetzen, Aufgaben zu lösen, die sonst Rückschlüsse allein durch Mustererkennung erfordern würden.

Wenn das der Fall ist, könnten Forscher sagen, dass diese „Größer ist besser“-Strategie einen Weg zu leistungsstarker künstlicher Intelligenz ebnen könnte.

Aber dieses Argument ist offensichtlich fragwürdig.

LLM macht immer noch offensichtliche Fehler, und einige Wissenschaftler glauben, dass größere Modelle nur besser darin werden, Anfragen innerhalb des relevanten Bereichs der Trainingsdaten zu beantworten, und nicht die Fähigkeit erlangen, völlig neue Fragen zu beantworten.

Diese Debatte über die Grenzen der künstlichen Intelligenz ist derzeit in vollem Gange.

Kommerzielle Unternehmen haben erkannt, dass sie mit größeren KI-Modellen bessere Ergebnisse erzielen können, und führen daher immer größere LLMs ein, deren Schulung und Betrieb jeweils Millionen von Dollar kosten.

Aber diese Modelle haben große Nachteile. Abgesehen davon, dass ihre Ergebnisse misstrauisch sein können und dadurch die Verbreitung von Fehlinformationen befeuern, sind sie einfach zu teuer und verbrauchen viel Energie.

Natur: Sind größere KI-Modelle besser?

Rezensenten glauben, dass große LLMs niemals in der Lage sein werden, die Fähigkeiten nachzuahmen oder zu erwerben, die es ihnen ermöglichen, Inferenzfragen konsistent zu beantworten.

Stattdessen sagen einige Wissenschaftler, dass Fortschritte mit kleinerer, energieeffizienterer KI erzielt werden, eine Ansicht, die teilweise von der Art und Weise inspiriert ist, wie das Gehirn lernt und Verbindungen herstellt.

Ist ein größeres Modell besser?

Große Sprachmodelle wie ChatGPT und Minerva sind riesige Netzwerke hierarchisch angeordneter Recheneinheiten (auch künstliche Neuronen genannt).

Die Größe eines LLM wird daran gemessen, wie viele Parameter es hat, und die Anzahl der Parameter beschreibt die einstellbaren Werte der Verbindungsstärke zwischen Neuronen.

Um ein solches Netzwerk zu trainieren, müssen Sie es bitten, den maskierten Teil eines bekannten Satzes vorherzusagen und diese Parameter anzupassen, damit der Algorithmus beim nächsten Mal besser abschneidet.

Wiederholen Sie diesen Vorgang für Milliarden von Menschen geschriebener Sätze, und das neuronale Netzwerk lernt interne Darstellungen, die die Art und Weise nachahmen, wie Menschen Sprache schreiben.

Zu diesem Zeitpunkt gilt das LLM als vortrainiert: Seine Parameter erfassen die statistische Struktur der geschriebenen Sprache, die es während des Trainings gesehen hat, einschließlich aller Fakten, Vorurteile und Fehler im Text. Anschließend kann auf der Grundlage spezieller Daten eine „Feinabstimmung“ vorgenommen werden.

Um beispielsweise Minerva zu erstellen, begannen die Forscher mit dem Pathways Language Model (PaLM) von Google, das 540 Milliarden Parameter hat und anhand eines Datensatzes von 780 Milliarden Token vorab trainiert wurde.

Token kann ein Wort, eine Zahl oder eine Informationseinheit sein; im Fall von PaLM werden Token aus englischen und mehrsprachigen Webdokumenten, Büchern und Code gesammelt. Minerva ist das Ergebnis der Feinabstimmung von Dutzenden Milliarden Token aus wissenschaftlichen Arbeiten und mathematischen Webseiten durch PaLM.

Minerva kann Fragen beantworten wie „Was ist das größte Vielfache von 30, das kleiner als 520 ist?“

LLM scheint in Schritten zu denken, aber alles, was es tut, ist, das Problem in eine Sequenz von Tokens umzuwandeln, einen statistisch sinnvollen nächsten Token zu generieren, ihn an die ursprüngliche Sequenz anzuhängen, einen weiteren Token zu generieren usw. Dieser Vorgang wird als Argumentation bezeichnet.

Google-Forscher haben Minerva mithilfe des zugrunde liegenden vorab trainierten PaLM-Modells mit 8 Milliarden, 62 Milliarden und 540 Milliarden Parametern in drei Größen verfeinert. Die Leistung von Minerva verbessert sich mit zunehmender Größe.

Im gesamten MATH-Datensatz beträgt die Genauigkeit des kleinsten Modells 25 %, das mittlere Modell erreicht 43 % und das größte Modell überschreitet die 50 %-Marke.

Natur: Sind größere KI-Modelle besser?

Das größte Modell verwendete auch die Daten mit der geringsten Feinabstimmung – es wurde nur auf 26 Milliarden Token feinabgestimmt, während das kleinste Modell auf 164 Milliarden Token feinabgestimmt wurde.

Aber die Feinabstimmung des größten Modells dauerte einen Monat, und die Rechenleistung der speziellen Hardware war achtmal so hoch wie die des kleinsten Modells, dessen Feinabstimmung nur zwei Wochen dauerte.

Idealerweise sollten die größten Modelle auf mehr Token abgestimmt werden. Ethan Dyer, Mitglied des Minerva-Teams bei Google Research, sagte, dies hätte zu einer besseren Leistung führen können. Das Team hielt es jedoch nicht für machbar, die Kosten zu berechnen.

Skalierungseffekt

Die größten Minerva-Modelle schneiden am besten ab, was im Einklang mit der Forschung zu Skalierungsgesetzen steht – Gesetzen, die bestimmen, wie sich die Leistung mit zunehmender Modellgröße verbessert.

Eine Studie aus dem Jahr 2020 zeigte, dass Modelle eine bessere Leistung erbringen, wenn ihnen eines von drei Dingen gegeben wird: mehr Parameter, mehr Trainingsdaten oder mehr „Berechnungen“ (die Anzahl der während des Trainings durchgeführten Rechenoperationen).

Die Leistung skaliert nach einem Potenzgesetz, das heißt, sie verbessert sich mit zunehmender Anzahl von Parametern.

Dennoch wissen Forscher nicht, warum. „Diese Gesetze sind rein empirischer Natur“, sagt Irina Rish, Informatikerin am Mila-Quebec Institute for Artificial Intelligence der Universität Montreal in Kanada.

Um optimale Ergebnisse zu erzielen, deuten Untersuchungen aus dem Jahr 2020 darauf hin, dass sich die Modellgröße verfünffachen sollte, wenn sich die Trainingsdaten verdoppeln. Dies wurde gegenüber der Arbeit des letzten Jahres leicht geändert.

Im März dieses Jahres war DeepMind davon überzeugt, dass es am besten ist, sowohl die Modellgröße als auch die Trainingsdaten zu erweitern, und dass kleinere Modelle, die mit mehr Daten trainiert wurden, eine bessere Leistung erbringen als größere Modelle, die mit weniger Daten trainiert wurden.

Zum Beispiel hat das Chinchilla-Modell von DeepMind 70 Milliarden Parameter und wird auf 1,4 Billionen Token trainiert, während das Gopher-Modell mit 280 Milliarden Parametern auf 300 Milliarden Token trainiert wird. In späteren Bewertungen übertraf Chinchilla Gopher.

Natur: Sind größere KI-Modelle besser?

Im Februar bauten Meta-Wissenschaftler auf der Grundlage dieses Konzepts ein kleines Parametermodell namens LLaMA auf, das auf bis zu 1,4 Billionen Token trainiert wurde.

Forscher sagen, dass die 13-Milliarden-Parameter-Version von LLaMA besser ist als ChatGPTs Vorgänger GPT-3 (175 Milliarden Parameter), während die 65-Milliarden-Parameter-Version wettbewerbsfähiger als Chinchilla oder sogar PaLM ist.

Letzten Oktober berichteten Ethan Caballero von der McGill University in Montreal, Rish und andere, dass sie einen komplexeren Zusammenhang zwischen Skalierung und Leistung entdeckt hatten – in einigen Fällen können mehrere Potenzgesetze steuern, wie die Leistung mit einer Änderung der Modellgröße skaliert.

In einem hypothetischen Szenario der Anpassung einer allgemeinen Gleichung verbessert sich beispielsweise die Leistung zunächst allmählich und dann mit der Größe des Modells schneller. Mit zunehmender Anzahl von Parametern nimmt die Leistung jedoch leicht ab und steigt dann wieder an. Die Merkmale dieser komplexen Beziehung hängen von den Details jedes Modells und davon ab, wie es trainiert wurde.

Letztendlich hoffen die Forscher, im Voraus vorhersagen zu können, wann ein bestimmtes LLM skaliert werden wird.

Eine separate theoretische Entdeckung unterstützt auch das Streben nach größeren Modellen – das „Robustheitsgesetz“ des maschinellen Lernens, das 2021 von Bubeck und Kollegen vorgeschlagen wurde.

Ein Modell ist robust, wenn seine Antworten trotz kleiner Störungen in seiner Eingabe konsistent bleiben.

Und Bubeck und Kollegen haben mathematisch nachgewiesen, dass eine Erhöhung der Anzahl der Parameter in einem Modell die Robustheit und damit die Generalisierungsfähigkeit erhöht.

Bubeck sagte, dass eine regelmäßige Beweisskalierung notwendig, aber für eine Verallgemeinerung nicht ausreichend sei. Dennoch wurde es als Rechtfertigung für den Wechsel zu einem größeren Modell herangezogen. „Ich denke, das ist eine vernünftige Sache.“

Minerva nutzt auch eine Schlüsselinnovation namens Thought Chain Prompts. Der Benutzer stellt der Frage einen Text voran, der mehrere Beispiele des Problems und der Lösung sowie eine Begründung enthält, die zur Antwort führt (dies ist eine klassische Gedankenkette).

Während der Argumentation greift LLM Hinweise aus diesem Kontext auf und liefert eine Schritt-für-Schritt-Antwort, die wie Argumentation aussieht.

Dies erfordert keine Aktualisierung der Parameter des Modells und erfordert daher nicht die zusätzliche Rechenleistung, die für die Feinabstimmung erforderlich ist.

Die Fähigkeit, auf Eingabeaufforderungen der Gedankenkette zu reagieren, gibt es nur im LLM mit über 100 Milliarden Parametern.

Blaise Agüera y Arcas von Google Research sagte, dass diese Erkenntnisse dabei helfen, größere Modelle auf der Grundlage empirischer Skalierungsgesetze zu verbessern. „Größere Modelle werden besser.“

Berechtigte Sorge

François Chollet, ein KI-Forscher bei Google, ist einer der Skeptiker, die glauben, dass LLMs, egal wie groß sie werden, nie gut genug sein werden (oder das Denken nachahmen), um neue Probleme zuverlässig zu lösen.

Er sagte, dass LLM offenbar nur durch die Verwendung von Vorlagen argumentiert, auf die es zuvor gestoßen ist, entweder in den Trainingsdaten oder in den Eingabeaufforderungen. „Es kann nicht sofort etwas verstehen, was es noch nicht gesehen hat.“

Vielleicht ist das Beste, was LLM tun kann, so viele Trainingsdaten zu absorbieren, dass die statistischen Muster der Sprache selbst es ihnen ermöglichen, etwas zu verwenden, das dem Sehen sehr nahe kommt , um die Frage zu beantworten.

Allerdings glaubt Agüera y Arcas, dass LLMs offenbar einige Fähigkeiten erwerben, für die sie nicht speziell ausgebildet wurden, was überraschend ist.

Vor allem Tests, die zeigen, ob eine Person über die sogenannte Theorie des Geistes verfügt, also die Fähigkeit, die mentalen Zustände anderer zu theoretisieren oder zu messen.

Zum Beispiel legt Alice ihre Brille in eine Schublade und Bob versteckt sie dann unter einem Kissen, ohne dass Alice es merkt. Wo würde Alice zuerst hingehen, um ihre Brille zu finden?

Wenn man einem Kind diese Frage stellt, soll man testen, ob es versteht, dass Alice ihre eigenen Überzeugungen hat, die möglicherweise nicht mit dem übereinstimmen, was das Kind weiß.

Agüera y Arcas Bei seinen Tests von LaMDA, einem weiteren LLM von Google, stellte er fest, dass LaMDA in dieser Art längerer Konversation richtig reagierte.

Für ihn zeigt dies, dass LLM die Fähigkeit besitzt, die Absichten anderer intern zu simulieren.

Agüera y Arcas sagte: „Diese Modelle, die nichts anderes tun, als Sequenzen vorherzusagen, haben eine Reihe außergewöhnlicher Fähigkeiten entwickelt, einschließlich der Theorie des Geistes.“

Aber er gibt zu, dass diese Modelle fehleranfällig sind, und er ist sich nicht sicher Das allein kann sich ändern. Reicht der Maßstab für eine zuverlässige Schlussfolgerung aus, obwohl dies notwendig erscheint?

Blaise Agüera y Arcas von Google Research hat über sein Gespräch mit LaMDA gebloggt Die beiden Gesprächspartner in der Geschichte „Wissen“ und „Nicht wissen“ sind eindeutig eine Parodie auf die Theorie des Geistes

Natur: Sind größere KI-Modelle besser?

Doch selbst wenn LLM die Antwort richtig verstanden hat, geht es nicht ums Verstehen

„Wenn du Wenn man ein wenig hineinschaut, sieht man sofort, dass ChatGPT kein Modell dafür hat, wovon es spricht. Es ist, als würde man sich ein Puppenspiel ansehen und glauben, dass die Puppen leben. Bislang macht LLM immer noch lächerliche Fehler die Menschen niemals schaffen würden, sagt Melanie Mitchell. Sie studiert konzeptionelle Abstraktion und Analogie in Systemen der künstlichen Intelligenz am Santa Fe Institute.

Dies wirft Bedenken auf, ob es sicher ist, LLM ohne Leitplanken in die Gesellschaft einzuführen.

Mitchell fügte hinzu, dass ein Problem bei der Frage, ob LLM wirklich neue, ungesehene Probleme lösen kann, darin besteht, dass wir diese Fähigkeit nicht vollständig testen können.

„Unsere aktuellen Benchmarks reichen nicht aus“, sagte sie. „Sie erforschen Dinge nicht systematisch. Wir wissen noch nicht, wie man das macht.“

Probleme aufgrund der Skalierung

Natur: Sind größere KI-Modelle besser?

Aber das Problem besteht darin, dass die Datensätze, die Rechenleistung und die Kosten, die mit dem Training großer Sprachmodelle verbunden sind, ihre Entwicklung einschränken. Derzeit ist dies nur Unternehmen mit extrem großen Rechenressourcen möglich.

Es wird beispielsweise erwartet, dass OpenAI mehr als 4 Millionen US-Dollar für das Training von GPT-3 ausgibt, und es kann jeden Monat Millionen von Dollar kosten, den Betrieb von ChatGPT aufrechtzuerhalten.

In der Folge haben Regierungen verschiedener Länder begonnen einzugreifen, in der Hoffnung, ihre Vorteile in diesem Bereich auszubauen.

Im Juni letzten Jahres investierte ein internationales Team aus etwa 1.000 akademischen Freiwilligen mit finanzieller Unterstützung der französischen Regierung, Hugging Face und anderen Institutionen Rechenzeit im Wert von 7 Millionen US-Dollar, um das BLOOM-Modell mit 176 Milliarden Parametern zu trainieren.

Im November hat das US-Energieministerium auch sein eigenes Supercomputing für ein großes Forschungsmodellprojekt lizenziert. Es heißt, dass das Team plant, ein 70-Milliarden-Parameter-Modell ähnlich wie Chinchilla zu trainieren.

Aber egal, wer das Training durchführt, der Stromverbrauch von LLM ist nicht zu unterschätzen.

Google gab an, dass das Training von PaLM über einen Zeitraum von etwa zwei Monaten etwa 3,4 Gigawattstunden in Anspruch nahm, was dem Energieverbrauch von etwa 300 US-Haushalten in einem Jahr entspricht.

Obwohl Google behauptet, dass 89 % seines Verbrauchs aus sauberer Energie besteht, zeigt eine Umfrage in der gesamten Branche, dass die meisten Schulungen Stromnetze nutzen, die hauptsächlich mit fossilen Brennstoffen betrieben werden.

Kleiner und intelligenter?

Aus dieser Perspektive müssen Forscher dringend den Energieverbrauch von LLM reduzieren – um neuronale Netze kleiner, effizienter und vielleicht intelligenter zu machen.

Zusätzlich zu den Energiekosten für das LLM-Training (obwohl es erheblich, aber auch einmalig ist) steigt der Energieaufwand für die Inferenz mit zunehmender Benutzerzahl. Beispielsweise beantwortete das BLOOM-Modell in den 18 Tagen, in denen es auf der Google Cloud Platform bereitgestellt wurde, insgesamt 230.768 Anfragen mit einer durchschnittlichen Leistung von 1.664 Watt.

Im Vergleich dazu ist unser eigenes Gehirn viel komplexer und größer als jedes LLM, mit 86 Milliarden Neuronen und etwa 100 Billionen synaptischen Verbindungen, aber nur etwa 20 bis 50 Watt Leistung.

Einige Forscher hoffen daher, durch die Nachahmung des Gehirns die Vision verwirklichen zu können, Modelle kleiner, intelligenter und effizienter zu machen.

Natur: Sind größere KI-Modelle besser?

Im Wesentlichen ist LLM ein „Feedforward“-Netzwerk, was bedeutet, dass Informationen in eine Richtung fließen: von der Eingabe über die Schichten des LLM bis zur Ausgabe.

Aber das Gehirn ist nicht so. Beispielsweise verfügen Neuronen im menschlichen visuellen System zusätzlich zur Weiterleitung empfangener Informationen an das Gehirn auch über Rückkopplungsverbindungen, die die Übertragung von Informationen in die entgegengesetzte Richtung zwischen Neuronen ermöglichen. Es können zehnmal so viele Rückkopplungsverbindungen vorhanden sein wie Feedforward-Verbindungen.

In künstlichen neuronalen Netzen umfassen Recurrent Neural Networks (RNN) auch sowohl Feedforward- als auch Feedback-Verbindungen. Im Gegensatz zu LLMs, die nur über Feedforward-Netzwerke verfügen, können RNNs Muster in Daten im Zeitverlauf erkennen. Allerdings sind RNNs schwer zu trainieren und langsam, was es schwierig macht, sie auf die Größe von LLMs zu skalieren.

Natur: Sind größere KI-Modelle besser?

Derzeit haben einige Studien mit kleinen Datensätzen gezeigt, dass RNNs mit Spiking-Neuronen Standard-RNNs übertreffen können und theoretisch drei Größenordnungen recheneffizienter sind.

Solange solche Spike-Netzwerke jedoch in der Software simuliert werden, können sie keine wirklichen Effizienzsteigerungen erzielen (da die Hardware, die sie simuliert, immer noch Energie verbraucht).

Energieeffizientes Großmodell

Mittlerweile experimentieren Forscher mit verschiedenen Methoden, um bestehende LLMs energieeffizienter zu machen.

Im Dezember 2021 schlug DeepMind das abrufbasierte Sprachmodell-Framework Retro vor.

Natur: Sind größere KI-Modelle besser?

Retro imitiert hauptsächlich den Mechanismus des Gehirns, beim Lernen nicht nur aktuelles Wissen zu nutzen, sondern auch Erinnerungen abzurufen. Sein Rahmen besteht darin, zunächst einen großen Textdatensatz vorzubereiten (der als Gedächtnis des Gehirns fungiert) und dann den kNN-Algorithmus zu verwenden, um die n nächsten Nachbarsätze des Eingabesatzes zu finden (Abrufspeicher).

Nach der Codierung des Eingabesatzes und des abgerufenen Satzes durch Transformer wird dann Cross-Attention durchgeführt, sodass das Modell gleichzeitig die Informationen im Eingabesatz und die Speicherinformationen verwenden kann, um verschiedene NLP-Aufgaben auszuführen.

Natur: Sind größere KI-Modelle besser?

In der Vergangenheit diente die große Anzahl von Parametern des Modells hauptsächlich dazu, die Informationen in den Trainingsdaten zu bewahren. Wenn dieses auf Abruf basierende Framework verwendet wird, kann die Anzahl der Parameter des Modells mehr Textinformationen enthalten Da es besonders groß ist, beschleunigt es natürlich den Betrieb des Modells, ohne zu viel Leistung zu verlieren.

Diese Methode kann auch beim Modelltraining Stromkosten sparen. Den umweltfreundlichen Mädchen gefiel es, nachdem sie es gesehen hatten!

Experimentelle Ergebnisse zeigen, dass ein großes Sprachmodell mit 7,5 Milliarden Parametern plus einer Datenbank mit 2 Billionen Token ein Modell mit 25-mal mehr Parametern übertreffen kann. Die Forscher schreiben, dass dies ein „effizienterer Ansatz als die Skalierung von Rohparametern ist, da wir versuchen, leistungsfähigere Sprachmodelle zu erstellen.“

Im selben Monat schlugen Forscher bei Google eine weitere Möglichkeit vor, die Energieeffizienz im großen Maßstab zu verbessern.

Dieses spärliche allgemeine Sprachmodell GLaM mit 1,2 Billionen Parametern verfügt intern über 64 kleinere neuronale Netze.

Während des Inferenzprozesses verwendet das Modell nur zwei Netzwerke, um die Aufgabe abzuschließen. Mit anderen Worten: Von mehr als einer Billion Parametern werden nur etwa 8 % genutzt.

Natur: Sind größere KI-Modelle besser?

Google sagte, dass GLaM die gleichen Rechenressourcen nutzt, die für das Training von GPT-3 erforderlich sind, aber aufgrund von Verbesserungen bei der Trainingssoftware und -hardware beträgt der Energieverbrauch nur 1/3 des letzteren. Die für die Inferenz erforderlichen Rechenressourcen sind halb so hoch wie die von GPT-3. Darüber hinaus schneidet GLaM besser ab als GPT-3, wenn es mit der gleichen Datenmenge trainiert wird.

Für weitere Verbesserungen scheinen jedoch selbst diese energieeffizienteren LLMs dazu bestimmt zu sein, größer zu werden und mehr Daten und Berechnungen zu verbrauchen.

Referenz:

https://www.nature.com/articles/d41586-023-00641-w

Das obige ist der detaillierte Inhalt vonNatur: Sind größere KI-Modelle besser?. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

R.E.P.O. Beste grafische Einstellungen

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Assassin's Creed Shadows: Seashell Riddle -Lösung

1 Wochen vor By DDD

R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

WWE 2K25: Wie man alles in Myrise freischaltet

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Wo ist der Login-Zugang für Gmail-E-Mail?

7444

CakePHP-Tutorial

1371

Wie lautet das Format des Kontonamens von Steam?

Win11 -Aktivierungsschlüssel dauerhaft

NYT -Verbindungen Hinweise und Antworten

Related knowledge

Welche Methode wird verwendet, um Strings in Objekte in Vue.js umzuwandeln? Apr 07, 2025 pm 09:39 PM

Bei der Konvertierung von Zeichenfolgen in Objekte in Vue.js wird JSON.Parse () für Standard -JSON -Zeichenfolgen bevorzugt. Bei nicht standardmäßigen JSON-Zeichenfolgen kann die Zeichenfolge durch Verwendung regelmäßiger Ausdrücke verarbeitet und Methoden gemäß dem Format oder dekodierten URL-kodiert reduziert werden. Wählen Sie die entsprechende Methode gemäß dem String -Format aus und achten Sie auf Sicherheits- und Codierungsprobleme, um Fehler zu vermeiden.

Vue- und Element-UI-Kaskaden-Dropdown-Box V-Model-Bindung Apr 07, 2025 pm 08:06 PM

Vue- und Element-UI-kaskadierte Dropdown-Boxen V-Model-Bindung gemeinsame Grubenpunkte: V-Model bindet ein Array, das die ausgewählten Werte auf jeder Ebene des kaskadierten Auswahlfelds darstellt, nicht auf einer Zeichenfolge; Der Anfangswert von ausgewählten Optionen muss ein leeres Array sein, nicht null oder undefiniert. Die dynamische Belastung von Daten erfordert die Verwendung asynchroner Programmierkenntnisse, um Datenaktualisierungen asynchron zu verarbeiten. Für riesige Datensätze sollten Leistungsoptimierungstechniken wie virtuelles Scrollen und fauler Laden in Betracht gezogen werden.

Laravels Geospatial: Optimierung interaktiver Karten und großen Datenmengen Apr 08, 2025 pm 12:24 PM

Verarbeiten Sie 7 Millionen Aufzeichnungen effizient und erstellen Sie interaktive Karten mit Geospatial -Technologie. In diesem Artikel wird untersucht, wie über 7 Millionen Datensätze mithilfe von Laravel und MySQL effizient verarbeitet und in interaktive Kartenvisualisierungen umgewandelt werden können. Erstes Herausforderungsprojektanforderungen: Mit 7 Millionen Datensätzen in der MySQL -Datenbank wertvolle Erkenntnisse extrahieren. Viele Menschen erwägen zunächst Programmiersprachen, aber ignorieren die Datenbank selbst: Kann sie den Anforderungen erfüllen? Ist Datenmigration oder strukturelle Anpassung erforderlich? Kann MySQL einer so großen Datenbelastung standhalten? Voranalyse: Schlüsselfilter und Eigenschaften müssen identifiziert werden. Nach der Analyse wurde festgestellt, dass nur wenige Attribute mit der Lösung zusammenhängen. Wir haben die Machbarkeit des Filters überprüft und einige Einschränkungen festgelegt, um die Suche zu optimieren. Kartensuche basierend auf der Stadt

VUE.JS Wie kann man ein Array von String -Typ in ein Array von Objekten umwandeln? Apr 07, 2025 pm 09:36 PM

Zusammenfassung: Es gibt die folgenden Methoden zum Umwandeln von VUE.JS -String -Arrays in Objektarrays: Grundlegende Methode: Verwenden Sie die Kartenfunktion, um regelmäßige formatierte Daten zu entsprechen. Erweitertes Gameplay: Die Verwendung regulärer Ausdrücke kann komplexe Formate ausführen, müssen jedoch sorgfältig geschrieben und berücksichtigt werden. Leistungsoptimierung: In Betracht ziehen die große Datenmenge, asynchrone Operationen oder effiziente Datenverarbeitungsbibliotheken können verwendet werden. Best Practice: Clear Code -Stil, verwenden Sie sinnvolle variable Namen und Kommentare, um den Code präzise zu halten.

So stellen Sie die Zeitüberschreitung von Vue Axios fest Apr 07, 2025 pm 10:03 PM

Um die Zeitüberschreitung für Vue Axios festzulegen, können wir eine Axios -Instanz erstellen und die Zeitleitungsoption angeben: in globalen Einstellungen: vue.Prototyp. $ Axios = axios.create ({Timeout: 5000}); In einer einzigen Anfrage: this. $ axios.get ('/api/user', {timeout: 10000}).

So verwenden Sie MySQL nach der Installation Apr 08, 2025 am 11:48 AM

Der Artikel führt den Betrieb der MySQL -Datenbank vor. Zunächst müssen Sie einen MySQL -Client wie MySQLworkBench oder Befehlszeilen -Client installieren. 1. Verwenden Sie den Befehl mySQL-uroot-P, um eine Verbindung zum Server herzustellen und sich mit dem Stammkonto-Passwort anzumelden. 2. Verwenden Sie die Erstellung von Createdatabase, um eine Datenbank zu erstellen, und verwenden Sie eine Datenbank aus. 3.. Verwenden Sie CreateTable, um eine Tabelle zu erstellen, Felder und Datentypen zu definieren. 4. Verwenden Sie InsertInto, um Daten einzulegen, Daten abzufragen, Daten nach Aktualisierung zu aktualisieren und Daten nach Löschen zu löschen. Nur indem Sie diese Schritte beherrschen, lernen, mit gemeinsamen Problemen umzugehen und die Datenbankleistung zu optimieren, können Sie MySQL effizient verwenden.

Remote Senior Backend Engineers (Plattformen) benötigen Kreise Apr 08, 2025 pm 12:27 PM

Remote Senior Backend Engineer Job Vacant Company: Circle Standort: Remote-Büro-Jobtyp: Vollzeitgehalt: 130.000 bis 140.000 US-Dollar Stellenbeschreibung Nehmen Sie an der Forschung und Entwicklung von Mobilfunkanwendungen und öffentlichen API-bezogenen Funktionen, die den gesamten Lebenszyklus der Softwareentwicklung abdecken. Die Hauptaufgaben erledigen die Entwicklungsarbeit unabhängig von RubyonRails und arbeiten mit dem Front-End-Team von React/Redux/Relay zusammen. Erstellen Sie die Kernfunktionalität und -verbesserungen für Webanwendungen und arbeiten Sie eng mit Designer und Führung während des gesamten funktionalen Designprozesses zusammen. Fördern Sie positive Entwicklungsprozesse und priorisieren Sie die Iterationsgeschwindigkeit. Erfordert mehr als 6 Jahre komplexes Backend für Webanwendungen

Wie man MySQL löst, kann nicht gestartet werden Apr 08, 2025 pm 02:21 PM

Es gibt viele Gründe, warum MySQL Startup fehlschlägt und durch Überprüfung des Fehlerprotokolls diagnostiziert werden kann. Zu den allgemeinen Ursachen gehören Portkonflikte (prüfen Portbelegung und Änderung der Konfiguration), Berechtigungsprobleme (Überprüfen Sie den Dienst Ausführen von Benutzerberechtigungen), Konfigurationsdateifehler (Überprüfung der Parametereinstellungen), Datenverzeichniskorruption (Wiederherstellung von Daten oder Wiederaufbautabellenraum), InnoDB-Tabellenraumprobleme (prüfen IBDATA1-Dateien), Plug-in-Ladeversagen (Überprüfen Sie Fehlerprotokolle). Wenn Sie Probleme lösen, sollten Sie sie anhand des Fehlerprotokolls analysieren, die Hauptursache des Problems finden und die Gewohnheit entwickeln, Daten regelmäßig zu unterstützen, um Probleme zu verhindern und zu lösen.

See all articles