Die Menge an Textdaten, die für das Training von Google PaLM 2 verwendet wird, ist fast fünfmal so groß wie die der ursprünglichen Generation

PHPz
Freigeben: 2023-05-21 18:49:07
nach vorne
998 Leute haben es durchsucht

谷歌 PaLM 2训练所用文本数据量是初代的近5倍

Neuigkeiten vom 17. Mai: Google hat letzte Woche auf der I/O-Entwicklerkonferenz 2023 sein neuestes groß angelegtes Sprachmodell PaLM 2 vorgestellt. Interne Unternehmensdokumente zeigen, dass die Menge an Textdaten, die für das Training neuer Modelle ab 2022 verwendet wird, fast fünfmal so hoch ist wie bei der Vorgängergeneration.

Es wird berichtet, dass Googles neu veröffentlichtes PaLM 2 komplexere Programmier-, Computer- und kreative Schreibaufgaben ausführen kann. Interne Dokumente ergaben, dass die Anzahl der zum Training von PaLM 2 verwendeten Token 3,6 Billionen beträgt.

Der sogenannte Token ist eine Zeichenfolge, die zum Trainieren des Modells verwendet wird. Jede Zeichenfolge wird normalerweise als Token bezeichnet. Dies ist ein wichtiger Teil des Trainings großer Sprachmodelle und lehrt sie, vorherzusagen, welches Wort in einer Sequenz als nächstes kommt.

Die vorherige Generation des großen Sprachmodells PaLM, das 2022 von Google veröffentlicht wurde, verwendete 780 Milliarden Token für das Training.

Während Google sein Können in der Technologie der künstlichen Intelligenz unter Beweis stellen und veranschaulichen wollte, wie diese in Suchmaschinen, E-Mail, Textverarbeitung und Tabellenkalkulationen eingebettet werden kann, zögerte das Unternehmen, die Größe der Trainingsdaten oder andere Details preiszugeben. Auch das von Microsoft unterstützte OpenAI hält Details seines neu veröffentlichten großen Sprachmodells GPT-4 geheim.

Beide Unternehmen gaben an, dass der Grund für die Nichtoffenlegung dieser Informationen der harte Wettbewerb in der Branche der künstlichen Intelligenz sei. Sowohl Google als auch OpenAI möchten Nutzer anlocken, die Chatbots statt herkömmlicher Suchmaschinen für die Informationssuche nutzen möchten.

Aber da sich der Wettbewerb im Bereich der künstlichen Intelligenz verschärft, fordert die Forschungsgemeinschaft mehr Transparenz.

Seit der Einführung von PaLM 2 hat Google erklärt, dass das neue Modell kleiner ist als das vorherige große Sprachmodell, was bedeutet, dass die Technologie des Unternehmens bei der Erledigung komplexerer Aufgaben effizienter werden kann. Parameter werden häufig verwendet, um die Komplexität eines Sprachmodells zu beschreiben. Internen Dokumenten zufolge wurde PaLM 2 mit 340 Milliarden Parametern trainiert, und das ursprüngliche PaLM wurde mit 540 Milliarden Parametern trainiert.

Google hatte keinen unmittelbaren Kommentar.

Google sagte in einem Blogbeitrag zu PaLM 2, dass das neue Modell eine „neue Technologie“ namens „rechenoptimale Skalierung“ verwendet, um PaLM 2 „effizienter und insgesamt besser zu machen, z. B. schnellere Inferenz, weniger Serviceparameter usw.“ geringere Servicekosten.“

Bei der Veröffentlichung von PaLM 2 gab Google bekannt, dass das neue Modell in 100 Sprachen trainiert wurde und eine Vielzahl von Aufgaben bewältigen kann. PaLM 2 wird in 25 Funktionen und Produkten verwendet, darunter Googles experimenteller Chatbot Bard. PaLM 2 verfügt je nach Parameterskala über vier verschiedene Versionen, die von klein bis groß reichen: Gecko, Otter, Bison und Einhorn.

Laut von Google veröffentlichten Informationen ist PaLM 2 leistungsstärker als jedes bestehende Modell. Facebook kündigte im Februar dieses Jahres die Einführung eines großen Sprachmodells namens LLaMA an, bei dem 1,4 Billionen Token für das Training verwendet wurden. OpenAI gab bei der Veröffentlichung von GPT-3 den entsprechenden Trainingsumfang bekannt. Damals gab das Unternehmen an, dass das Modell auf 300 Milliarden Token trainiert worden sei. Im März dieses Jahres veröffentlichte OpenAI ein neues Modell, GPT-4, und sagte, es habe in vielen professionellen Tests auf „menschlichem Niveau“ abgeschnitten.

Den neuesten Dokumenten zufolge wurde das vor zwei Jahren von Google eingeführte Sprachmodell auf 1,5 Billionen Token trainiert.

Da neue generative KI-Anwendungen in der Technologiebranche schnell zum Mainstream werden, wird die Kontroverse um die zugrunde liegende Technologie immer heftiger.

Im Februar dieses Jahres trat El Mahdi El Mhamdi, ein leitender Wissenschaftler in der Forschungsabteilung von Google, wegen mangelnder Transparenz des Unternehmens zurück. Am Dienstag sagte Sam Altman, CEO von OpenAI, bei einer Anhörung des Justizunterausschusses des US-Senats zu Datenschutz und Technologie aus und stimmte neuen Systemen zum Umgang mit künstlicher Intelligenz zu.

„Für eine sehr neue Technologie brauchen wir ein neues Framework“, sagte Altman. „Natürlich tragen Unternehmen wie unseres eine große Verantwortung für die Tools, die sie herausbringen.“

Das obige ist der detaillierte Inhalt vonDie Menge an Textdaten, die für das Training von Google PaLM 2 verwendet wird, ist fast fünfmal so groß wie die der ursprünglichen Generation. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:51cto.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage