Herausgeber |. KX
Große Sprachmodelle (LLM), die auf großen Datenmengen trainiert werden, eignen sich gut für das Verständnis und die Generierung natürlicher Sprache. Die meisten populären LLMs werden mit allgemeinen Korpora wie Wikipedia trainiert, aber Verteilungsänderungen im Vokabular führen zu einer schlechten Leistung in bestimmten Bereichen.
Davon inspiriert arbeitete die NASA mit IBM zusammen, um INDUS zu entwickeln, einen umfassenden Satz von LLMs, die auf die Bereiche Geowissenschaften, Biologie, Physik, Heliophysik, Planetenwissenschaften und Astrophysik zugeschnitten sind und in diesen verwendet werden. Trainieren Sie anhand kuratierter wissenschaftlicher Korpora aus verschiedenen Datenquellen.
INDUS enthält zwei Arten von Modellen: Encoder und Satztransformator. Der Encoder wandelt Text in natürlicher Sprache in eine numerische Codierung um, die der LLM verarbeiten kann. Der INDUS-Encoder wird auf einem Korpus von 60 Milliarden Token trainiert, die Daten aus den Bereichen Astrophysik, Planetenwissenschaften, Geowissenschaften, Heliophysik sowie biologische und physikalische Wissenschaften enthalten.
Verwandte Forschung mit dem Titel „INDUS: Effektive und effiziente Sprachmodelle für wissenschaftliche Anwendungen“ wurde auf der Preprint-Plattform arXiv veröffentlicht.
LLM, das auf einem allgemeinen Domänenkorpus trainiert wurde, schneidet bei Aufgaben der Verarbeitung natürlicher Sprache (NLP) gut ab. Frühere Studien haben jedoch gezeigt, dass LLMs, die mit domänenspezifischen Korpora trainiert wurden, bei speziellen Aufgaben bessere Leistungen erbringen.
Zum Beispiel haben einige Forscher LLMs in mehreren spezifischen Bereichen entwickelt, wie SCIBERT, BIOBERT, MATBERT, BATTERYBERT und SCHOLARBERT, mit dem Ziel, die Genauigkeit von NLP-Aufgaben in diesem Bereich zu verbessern.
In dieser Studie konzentrierten sich die Forscher speziell auf interdisziplinäre Bereiche wie Physik, Geowissenschaften, Astrophysik, Sonnenphysik, Planetenwissenschaften und Biologie.
INDUS ist eine Reihe von Encoder-basierten LLMs, die sich auf diese Interessengebiete konzentrieren und mit sorgfältig kuratierten Korpora aus verschiedenen Quellen trainiert werden. Mehr als die Hälfte der 50.000 in INDUS enthaltenen Wörter sind einzigartig für das spezifische wissenschaftliche Fachgebiet, das für die Ausbildung genutzt wird. Das INDUS Encoder-Modell optimiert das Sentence Transformer-Modell für etwa 268 Millionen Textpaare, einschließlich Titel/Zusammenfassung und Frage/Antwort.
Im Einzelnen:
1 Ein benutzerdefinierter Tokenizer INDUSBPE wurde aus einem kuratierten wissenschaftlichen Korpus unter Verwendung eines Bytepaar-Kodierungsalgorithmus erstellt.
2. Vorab trainierte LLMs mit mehreren Nur-Encodern unter Verwendung ausgewählter wissenschaftlicher Korpora und des INDUSBPE-Taggers. Darüber hinaus erstellen wir ein Satzeinbettungsmodell, indem wir das Nur-Encoder-Modell mit einem kontrastiven Lernziel verfeinern, um „universelle“ Satzeinbettungen zu lernen. Kleinere, effizientere Versionen dieser Modelle wurden mithilfe von Wissensextraktionstechniken trainiert.
3. Drei neue wissenschaftliche Benchmark-Datensätze erstellt, CLIMATE-CHANGE NER (Entity Recognition Task), NASA-QA (Extraction Question Answer Task) und NASA-IR (Retrieval Task), um diese multidisziplinäre Feldforschung weiter zu beschleunigen.
4. Durch experimentelle Ergebnisse demonstrieren wir die hervorragende Leistung des Modells bei diesen Benchmark-Aufgaben sowie bei bestehenden domänenspezifischen Benchmarks und übertreffen allgemeine Modelle wie RoBERTa und wissenschaftliche Domänenencoder wie SCIBERT.
Durch die Bereitstellung von domänenspezifischem Vokabular für INDUS übertraf das Forschungsteam das offene, nicht-domänenspezifische LLM bei Benchmarks für biomedizinische Aufgaben, Benchmarks für die Beantwortung wissenschaftlicher Fragen und geowissenschaftlichen Einheiten Erkennungstests besser.
Verglichen wurde das INDUS-Modell mit ähnlich großen Open-Source-Modellen RoBERTaBASE, SCIBERT, MINILM und TINYBERT.
Bei der Aufgabe zum Verstehen natürlicher Sprache übertrifft INDUSBASE unter den Basismodellen das allgemeine RoBERTa-Modell im Mikro-/Makro-Durchschnitt deutlich und erreicht gleichzeitig eine konkurrenzfähige Leistung im biologischen domänenspezifischen entsprechenden Modell SCIBERT.
Tabelle: BLURB-Bewertungsergebnisse. (Quelle: Papier)
BLURB übertrifft die entsprechenden Basismodelle für die NER-Aufgabe zum Klimawandel erheblich und demonstriert die Wirksamkeit des Trainings für große domänenspezifische Daten.
Tabelle: NER-Benchmark-Ergebnisse zum Klimawandel. (Quelle: Papier)
In der NASA-QA (Aufgabe zur Beantwortung von Extraktionsfragen) erfolgt die Feinabstimmung des erweiterten Trainingssatzes mithilfe relevanter SQuAD. Alle Modelle wurden für 15 Epochen verfeinert und es wurde beobachtet, dass INDUSBASE alle Modelle ähnlicher Größe übertraf, während INDUSSMALL relativ stark abschnitt.
Tabelle: NASA-QA-Benchmark-Ergebnisse. (Quelle: Paper)
Bei Abrufaufgaben wird das INDUS-Modell anhand des NASA-IR-Datensatzes und des BEIR-Benchmarks evaluiert, der aus 12 Abrufaufgaben besteht, die verschiedene Bereiche abdecken.
Wie in der folgenden Tabelle gezeigt, schneiden beide Satzeinbettungsmodelle bei der NASA-IR-Aufgabe deutlich besser ab als die Basislinie, während sie bei mehreren BEIR-Aufgaben immer noch eine gute Leistung beibehalten.
Tabelle: NASA-IR- und BEIR-Bewertungsergebnisse. (Quelle: Paper)
Die Forscher haben außerdem die durchschnittliche Abrufzeit für jede der 4.202 Testabfragen zum BEIR-Naturproblem auf einer einzelnen A100-GPU gemessen. Diese Zeit umfasst die Zeit zum Codieren der Abfrage, des Korpus und die Zeit zum Abrufen relevanter Dokumente. Bemerkenswert ist, dass INDUS-RETRIEVERSMALL INDUS-RETRIEVERBASE sowohl auf NASA-IR als auch auf BEIR übertrifft und dabei etwa 4,6-mal schneller ist.
IBM-Forscher Bishwaranjan Bhattacharjee kommentierte den Gesamtansatz: „Wir verfügen nicht nur über ein benutzerdefiniertes Vokabular, sondern auch über ein großes professionelles Korpus für das Training des Encodermodells und eine gute Trainingsstrategie, die zu einer hervorragenden Leistung führt. Für kleinere , In der schnelleren Version verwenden wir die Suche nach neuronaler Architektur, um die Modellarchitektur zu erhalten, und nutzen die Wissensdestillation, um sie zu trainieren und gleichzeitig das größere Modell zu überwachen.“ : „Durch die Integration von INDUS mit der Anwendungsprogrammierschnittstelle (API) des Open Science Data Repository (OSDR) können wir Chatbots entwickeln und testen, die intuitivere Suchfunktionen für das Durchsuchen einzelner Datensätze bieten. Wir untersuchen derzeit Methoden zur Verbesserung des internen kuratorischen Datensystems von OSDR. Nutzen Sie INDUS, um die Effizienz des Kuratorenteams zu steigern und den täglichen manuellen Arbeitsaufwand zu reduzieren -large.html
Das obige ist der detaillierte Inhalt vonSpeziell auf fünf große wissenschaftliche Bereiche zugeschnitten, arbeiten NASA und IBM zusammen, um ein großes Sprachmodell INDUS zu entwickeln. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!