Heim Technologie-Peripheriegeräte KI DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann', aber einige Leute stellten dies in Frage.

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann', aber einige Leute stellten dies in Frage.

Nov 07, 2023 pm 09:13 PM
理论 transformer

Ist Transformer dazu bestimmt, nicht in der Lage zu sein, neue Probleme zu lösen, die über „Trainingsdaten“ hinausgehen?

Apropos beeindruckende Fähigkeiten großer Sprachmodelle: Eine davon ist die Fähigkeit, Lernen in wenigen Schritten zu erreichen, indem Beispiele im Kontext bereitgestellt und das Modell aufgefordert werden, eine Antwort basierend auf der endgültigen bereitgestellten Eingabe zu generieren. Dies basiert auf der zugrunde liegenden maschinellen Lerntechnologie „Transformer-Modell“ und sie können auch kontextbezogene Lernaufgaben in anderen Bereichen als der Sprache durchführen.

Basierend auf früheren Erfahrungen wurde nachgewiesen, dass für Aufgabenfamilien oder Funktionsklassen, die in der vorab trainierten Mischung gut vertreten sind, die Auswahl geeigneter Funktionsklassen für kontextuelles Lernen nahezu kostenlos ist. Daher glauben einige Forscher, dass Transformer sich gut auf Aufgaben oder Funktionen verallgemeinern lässt, die mit der gleichen Verteilung wie die Trainingsdaten verteilt sind. Eine häufige, aber ungelöste Frage lautet jedoch: Wie funktionieren diese Modelle bei Stichproben, die nicht mit der Trainingsdatenverteilung übereinstimmen?

In einer aktuellen Studie sind Forscher von DeepMind dieser Frage mithilfe empirischer Forschung nachgegangen. Sie erklären das Generalisierungsproblem wie folgt: „Kann ein Modell gute Vorhersagen mit kontextbezogenen Beispielen generieren, indem es Funktionen verwendet, die zu keiner Basisfunktionsklasse in der Mischung vorab trainierter Daten gehören, und zwar aus einer Funktion, die keiner der Basisfunktionen angehört?“ Funktionsklassen, die in der Datenmischung vor dem Training zu sehen sind?)》

Der Schwerpunkt dieses Inhalts liegt auf der Untersuchung der Auswirkungen der im Vortrainingsprozess verwendeten Daten auf die Lernfähigkeit des resultierenden Transformer-Modells mit wenigen Schüssen. Um dieses Problem zu lösen, untersuchten die Forscher zunächst die Fähigkeit von Transformer, während des Vortrainingsprozesses verschiedene Funktionsfamilien für die Modellauswahl auszuwählen (Abschnitt 3) und beantworteten dann das OOD-Generalisierungsproblem mehrerer Schlüsselfälle (Abschnitt 4)

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.

Link zum Papier: https://arxiv.org/pdf/2311.00871.pdf

Bei ihrer Forschung wurde Folgendes festgestellt: Erstens weist der vorab trainierte Transformer eine schlechte Leistung bei der Vorhersage von Funktionen auf, die aus der vorab trainierten Funktionsklasse extrahiert wurden. Bei konvexer Kombination ist dies sehr schwierig. Zweitens kann Transformer seltenere Teile des Funktionsklassenraums effektiv verallgemeinern. Wenn die Aufgabe jedoch ihren Verteilungsbereich überschreitet, kann Transformer nicht über die Datenerkennung vor dem Training hinaus verallgemeinern kann Probleme nicht lösen, die über die Erkenntnis hinausgehen

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.Im Allgemeinen sind die Beiträge dieses Artikels wie folgt:

    Verwenden einer Mischung verschiedener Funktionsklassen zum Vorabtrainieren des Transformer-Modells, um Kontextlernen durchzuführen und zu beschreiben die Merkmale des Modellauswahlverhaltens;
  • Für Funktionen, die mit den Funktionsklassen in den vorab trainierten Daten „inkonsistent“ sind, wird das Verhalten des vorab trainierten Transformer-Modells beim Kontextlernen untersucht
  • Strong Strong Es wurde nachgewiesen, dass Modelle während des Kontextlernens mit geringem zusätzlichen statistischen Aufwand eine Modellauswahl unter vorab trainierten Funktionsklassen durchführen können. Es gibt jedoch auch nur begrenzte Beweise dafür, dass Modelle über ihren vorab trainierten Datenumfang hinaus Kontextlernverhalten ausführen können.
  • Dieser Forscher glaubt, dass dies eine gute Nachricht für die Sicherheit sein könnte, zumindest wird sich das Modell nicht so verhalten, wie es möchte

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.Aber einige Leute wiesen darauf hin, dass das in diesem Artikel verwendete Modell nicht für GPT geeignet ist -2 Skala“ bedeutet, dass das Modell in diesem Artikel etwa 1,5 Milliarden Parameter umfasst, was in der Tat schwer zu verallgemeinern ist.

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.Als nächstes werfen wir einen Blick auf die Details des Papiers.

Modellauswahlphänomen

Wenn Sie Datenmischungen verschiedener Funktionsklassen vorab trainieren, werden Sie auf ein Problem stoßen: Wenn das Modell auf Kontextbeispiele trifft, die von der Mischung vor dem Training unterstützt werden, wie wählt man zwischen verschiedenen Funktionsklassen aus? Treffen Sie eine Auswahl ?

In der Forschung wurde festgestellt, dass ein Modell, wenn es kontextbezogenen Stichproben im Zusammenhang mit Funktionsklassen in Pre-Training-Daten ausgesetzt wird, in der Lage ist, die besten (oder nahezu besten) Vorhersagen zu treffen. Die Forscher untersuchten auch die Leistung des Modells bei Funktionen, die keiner einzelnen Komponentenfunktionsklasse angehören, und diskutierten in Abschnitt 4

Funktionen, die überhaupt nichts mit den Daten vor dem Training zu tun haben

Zunächst beginnen wir mit der Untersuchung linearer Funktionen. Wir können sehen, dass lineare Funktionen im Bereich des kontextuellen Lernens große Aufmerksamkeit erregt haben. Letztes Jahr veröffentlichten Percy Liang und andere von der Stanford University einen Artikel mit dem Titel „What Can Transformers Learn in Context?“ Eine Fallstudie einer einfachen Funktionsklasse zeigte, dass der vorab trainierte Transformator beim Erlernen neuer linearer Funktionskontexte sehr gut abschnitt und fast das optimale Niveau erreichte

Sie betrachteten insbesondere zwei Modelle: eines in dichten linearen Funktionen (lineares A-Modell, auf dem trainiert wurde). eine dünn besetzte lineare Funktion (alle Koeffizienten des Modells sind ungleich Null) und das andere ist ein Modell, das auf einer dünn besetzten linearen Funktion trainiert wurde (nur 2 von 20 Koeffizienten sind ungleich Null). Die Leistung jedes Modells war vergleichbar mit der linearen Regression und der Lasso-Regression für die neue dichte lineare Funktion bzw. die dünn besetzte lineare Funktion. Darüber hinaus verglichen die Forscher diese beiden Modelle mit Modellen, die auf einer Mischung aus dünn besetzten linearen Funktionen und dichten linearen Funktionen vorab trainiert wurden.

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.

Wie in Abbildung 1 dargestellt, ähnelt die Leistung des Modells beim Kontextlernen auf einer DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.Mischung einem Modell, das nur auf einer Funktionsklasse vorab trainiert wurde. Da die Leistung des vorab trainierten Hybridmodells dem theoretisch optimalen Modell von Garg et al. [4] ähnelt, schließen die Forscher, dass das Modell ebenfalls nahezu optimal ist. Die ICL-Lernkurve in Abbildung 2 zeigt, dass diese Fähigkeit zur Kontextmodellauswahl relativ mit der Anzahl der bereitgestellten Kontextbeispiele übereinstimmt. In Abbildung 2 ist auch zu erkennen, dass für bestimmte Funktionsklassen verschiedene nicht triviale Gewichte DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage. verwendet werden.

Die ICL-Lernkurve entspricht nahezu der besten Basiskomplexität der Stichprobe. Die Abweichung ist gering und nimmt schnell ab, wenn die Anzahl der ICL-Stichproben zunimmt, was mit den Punkten auf der ICL-Lernkurve in Abbildung 1 übereinstimmt. Abbildung 2 zeigt, dass die ICL-Verallgemeinerung des Transformer-Modells durch Out-of-Distribution-Effekte beeinflusst wird. Obwohl sowohl die dichte lineare Klasse als auch die dünn besetzte lineare Klasse lineare Funktionen sind, können Sie sehen, dass die rote Kurve in Abbildung 2a (entsprechend dem Transformer, der nur für die dünn besetzte lineare Funktion vorab trainiert und anhand der dichten linearen Daten ausgewertet wurde) eine schlechte Leistung aufweist Umgekehrt ist die Leistung der braunen Kurve in Abbildung 2b ebenfalls schlecht. Forscher haben auch ein ähnliches Verhalten in anderen nichtlinearen Funktionsklassen beobachtet

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.Zurück zum Experiment in Abbildung 1, bei dem der Fehler als Funktion der Anzahl von Nicht-Null-Koeffizienten über den gesamten möglichen Bereich aufgetragen wird, zeigen die Ergebnisse, dass wenn w = . Das auf der Mischung von 5 vorkonditionierte Modell

funktioniert während des gesamten Prozesses genauso gut wie das auf der Mischung vorkonditionierte Modell (d. h. w = 0 und w = 1) (Abb. 3a). Dies zeigt, dass das Modell bei der Modellauswahl in der Lage ist, zu entscheiden, ob Vorhersagen nur anhand der Kenntnis einer Basisfunktionsklasse oder einer anderen Basisfunktionsklasse in der vorab trainierten Mischung getroffen werden sollen.

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.Tatsächlich zeigt Abbildung 3b, dass, wenn die im Kontext bereitgestellten Stichproben entweder aus sehr spärlichen oder sehr dichten Funktionen stammen, die Vorhersagen fast identisch mit denen eines Modells sind, das vorab trainiert wurde, indem nur spärliche Daten oder nur dichte Daten verwendet wurden. Dazwischen jedoch, wenn die Anzahl der Koeffizienten ungleich Null ≈ 4 ist, weichen die Hybridvorhersagen von denen des rein dichten oder rein spärlichen vortrainierten Transformers ab.

Dies zeigt, dass das auf der Mischung vorab trainierte Modell nicht einfach eine einzelne Funktionsklasse zur Vorhersage auswählt, sondern ein Ergebnis dazwischen vorhersagt.

Einschränkungen der Modellauswahlfähigkeit

Als nächstes untersuchten die Forscher die ICL-Generalisierungsfähigkeit des Modells aus zwei Perspektiven. Erstens wird die ICL-Leistung von Funktionen getestet, denen das Modell während des Trainings nicht ausgesetzt war. Zweitens wird die ICL-Leistung extremer Versionen von Funktionen bewertet, denen das Modell während des Trainings ausgesetzt war Es wurden kaum Hinweise auf eine Verallgemeinerung außerhalb der Verteilung gefunden. Wenn die Funktion stark von der Funktion vor dem Training abweicht, ist die Vorhersage instabil. Wenn die Funktion nahe genug an den Daten vor dem Training liegt, kann sich das Modell gut annähern

Die Vorhersagen von Transformer auf mittleren Sparsity-Ebenen (nnz = 3 bis 7) ähneln nicht den Vorhersagen einer Funktionsklasse, die durch das Vortraining bereitgestellt wird, sondern liegen irgendwo dazwischen, wie in Abbildung 3a dargestellt. Daraus können wir schließen, dass das Modell über eine Art induktive Tendenz verfügt, die es ihm ermöglicht, vorab trainierte Funktionsklassen auf nicht triviale Weise zu kombinieren. Wir können beispielsweise vermuten, dass das Modell Vorhersagen basierend auf der Kombination von Funktionen generieren kann, die während des Vortrainings beobachtet wurden. Um diese Hypothese zu testen, haben wir die Möglichkeit untersucht, ICL auf lineare Funktionen, Sinuskurven und konvexe Kombinationen der beiden anzuwenden. Sie konzentrieren sich auf den eindimensionalen Fall, um die Bewertung und Visualisierung der nichtlinearen Funktionsklasse zu erleichtern

Abbildung 4 zeigt, dass das auf einer Mischung aus linearen Funktionen und Sinuskurven (d. h. DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.) vorab trainierte Modell zwar in der Lage ist, beide getrennt vorherzusagen. Entweder Wenn eine der Funktionen gute Vorhersagen macht, kann sie nicht zu einer konvexen Kombinationsfunktion beider passen. Dies deutet darauf hin, dass das in Abbildung 3b gezeigte Phänomen der linearen Funktionsinterpolation keine verallgemeinerbare induktive Tendenz des kontextuellen Lernens von Transformer ist. Es unterstützt jedoch weiterhin die engere Annahme, dass das Modell in der Lage ist, die beste Funktionsklasse für die Vorhersage auszuwählen, wenn die Kontextstichprobe nahe an der im Vortraining erlernten Funktionsklasse liegt.

DeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann, aber einige Leute stellten dies in Frage.

Weitere Forschungsdetails finden Sie im Originalpapier

Das obige ist der detaillierte Inhalt vonDeepMind wies darauf hin, dass „Transformer nicht über die Daten vor dem Training hinaus verallgemeinern kann', aber einige Leute stellten dies in Frage.. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Beste grafische Einstellungen
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. So reparieren Sie Audio, wenn Sie niemanden hören können
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. Chat -Befehle und wie man sie benutzt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

„Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. „Defect Spectrum' durchbricht die Grenzen der herkömmlichen Fehlererkennung und erreicht erstmals eine hochpräzise und umfassende semantische Fehlererkennung in der Industrie. Jul 26, 2024 pm 05:38 PM

In der modernen Fertigung ist die genaue Fehlererkennung nicht nur der Schlüssel zur Sicherstellung der Produktqualität, sondern auch der Kern für die Verbesserung der Produktionseffizienz. Allerdings mangelt es vorhandenen Datensätzen zur Fehlererkennung häufig an der Genauigkeit und dem semantischen Reichtum, die für praktische Anwendungen erforderlich sind, was dazu führt, dass Modelle bestimmte Fehlerkategorien oder -orte nicht identifizieren können. Um dieses Problem zu lösen, hat ein Spitzenforschungsteam bestehend aus der Hong Kong University of Science and Technology Guangzhou und Simou Technology innovativ den „DefectSpectrum“-Datensatz entwickelt, der eine detaillierte und semantisch reichhaltige groß angelegte Annotation von Industriedefekten ermöglicht. Wie in Tabelle 1 gezeigt, bietet der Datensatz „DefectSpectrum“ im Vergleich zu anderen Industriedatensätzen die meisten Fehleranmerkungen (5438 Fehlerproben) und die detaillierteste Fehlerklassifizierung (125 Fehlerkategorien).

Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Das NVIDIA-Dialogmodell ChatQA wurde auf Version 2.0 weiterentwickelt, wobei die angegebene Kontextlänge 128 KB beträgt Jul 26, 2024 am 08:40 AM

Die offene LLM-Community ist eine Ära, in der hundert Blumen blühen und konkurrieren. Sie können Llama-3-70B-Instruct, QWen2-72B-Instruct, Nemotron-4-340B-Instruct, Mixtral-8x22BInstruct-v0.1 und viele andere sehen hervorragende Darsteller. Allerdings weisen offene Modelle im Vergleich zu den proprietären Großmodellen GPT-4-Turbo in vielen Bereichen noch erhebliche Lücken auf. Zusätzlich zu allgemeinen Modellen wurden einige offene Modelle entwickelt, die sich auf Schlüsselbereiche spezialisieren, wie etwa DeepSeek-Coder-V2 für Programmierung und Mathematik und InternVL für visuelle Sprachaufgaben.

Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Google AI gewann die Silbermedaille der IMO Mathematical Olympiad, das mathematische Argumentationsmodell AlphaProof wurde eingeführt und Reinforcement Learning ist zurück Jul 26, 2024 pm 02:40 PM

Für KI ist die Mathematikolympiade kein Problem mehr. Am Donnerstag hat die künstliche Intelligenz von Google DeepMind eine Meisterleistung vollbracht: Sie nutzte KI, um meiner Meinung nach die eigentliche Frage der diesjährigen Internationalen Mathematikolympiade zu lösen, und war nur einen Schritt davon entfernt, die Goldmedaille zu gewinnen. Der IMO-Wettbewerb, der gerade letzte Woche zu Ende ging, hatte sechs Fragen zu Algebra, Kombinatorik, Geometrie und Zahlentheorie. Das von Google vorgeschlagene hybride KI-System beantwortete vier Fragen richtig und erzielte 28 Punkte und erreichte damit die Silbermedaillenstufe. Anfang dieses Monats hatte der UCLA-Professor Terence Tao gerade die KI-Mathematische Olympiade (AIMO Progress Award) mit einem Millionenpreis gefördert. Unerwarteterweise hatte sich das Niveau der KI-Problemlösung vor Juli auf dieses Niveau verbessert. Beantworten Sie die Fragen meiner Meinung nach gleichzeitig. Am schwierigsten ist es meiner Meinung nach, da sie die längste Geschichte, den größten Umfang und die negativsten Fragen haben

Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Training mit Millionen von Kristalldaten zur Lösung kristallographischer Phasenprobleme, die Deep-Learning-Methode PhAI wird in Science veröffentlicht Aug 08, 2024 pm 09:22 PM

Herausgeber |KX Bis heute sind die durch die Kristallographie ermittelten Strukturdetails und Präzision, von einfachen Metallen bis hin zu großen Membranproteinen, mit keiner anderen Methode zu erreichen. Die größte Herausforderung, das sogenannte Phasenproblem, bleibt jedoch die Gewinnung von Phaseninformationen aus experimentell bestimmten Amplituden. Forscher der Universität Kopenhagen in Dänemark haben eine Deep-Learning-Methode namens PhAI entwickelt, um Kristallphasenprobleme zu lösen. Ein Deep-Learning-Neuronales Netzwerk, das mithilfe von Millionen künstlicher Kristallstrukturen und den entsprechenden synthetischen Beugungsdaten trainiert wird, kann genaue Elektronendichtekarten erstellen. Die Studie zeigt, dass diese Deep-Learning-basierte Ab-initio-Strukturlösungsmethode das Phasenproblem mit einer Auflösung von nur 2 Angström lösen kann, was nur 10 bis 20 % der bei atomarer Auflösung verfügbaren Daten im Vergleich zur herkömmlichen Ab-initio-Berechnung entspricht

Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Der Standpunkt der Natur: Die Erprobung künstlicher Intelligenz in der Medizin ist im Chaos. Was ist zu tun? Aug 22, 2024 pm 04:37 PM

Herausgeber | ScienceAI Basierend auf begrenzten klinischen Daten wurden Hunderte medizinischer Algorithmen genehmigt. Wissenschaftler diskutieren darüber, wer die Werkzeuge testen soll und wie dies am besten geschieht. Devin Singh wurde Zeuge, wie ein pädiatrischer Patient in der Notaufnahme einen Herzstillstand erlitt, während er lange auf eine Behandlung wartete, was ihn dazu veranlasste, den Einsatz von KI zu erforschen, um Wartezeiten zu verkürzen. Mithilfe von Triage-Daten aus den Notaufnahmen von SickKids erstellten Singh und Kollegen eine Reihe von KI-Modellen, um mögliche Diagnosen zu stellen und Tests zu empfehlen. Eine Studie zeigte, dass diese Modelle die Zahl der Arztbesuche um 22,3 % verkürzen können und die Verarbeitung der Ergebnisse pro Patient, der einen medizinischen Test benötigt, um fast drei Stunden beschleunigt. Der Erfolg von Algorithmen der künstlichen Intelligenz in der Forschung bestätigt dies jedoch nur

Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Um ein neues wissenschaftliches und komplexes Frage-Antwort-Benchmark- und Bewertungssystem für große Modelle bereitzustellen, haben UNSW, Argonne, die University of Chicago und andere Institutionen gemeinsam das SciQAG-Framework eingeführt Jul 25, 2024 am 06:42 AM

Herausgeber | Der Frage-Antwort-Datensatz (QA) von ScienceAI spielt eine entscheidende Rolle bei der Förderung der Forschung zur Verarbeitung natürlicher Sprache (NLP). Hochwertige QS-Datensätze können nicht nur zur Feinabstimmung von Modellen verwendet werden, sondern auch effektiv die Fähigkeiten großer Sprachmodelle (LLMs) bewerten, insbesondere die Fähigkeit, wissenschaftliche Erkenntnisse zu verstehen und zu begründen. Obwohl es derzeit viele wissenschaftliche QS-Datensätze aus den Bereichen Medizin, Chemie, Biologie und anderen Bereichen gibt, weisen diese Datensätze immer noch einige Mängel auf. Erstens ist das Datenformular relativ einfach, die meisten davon sind Multiple-Choice-Fragen. Sie sind leicht auszuwerten, schränken jedoch den Antwortauswahlbereich des Modells ein und können die Fähigkeit des Modells zur Beantwortung wissenschaftlicher Fragen nicht vollständig testen. Im Gegensatz dazu offene Fragen und Antworten

PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? PRO |. Warum verdienen große Modelle, die auf MoE basieren, mehr Aufmerksamkeit? Aug 07, 2024 pm 07:08 PM

Im Jahr 2023 entwickeln sich fast alle Bereiche der KI in beispielloser Geschwindigkeit weiter. Gleichzeitig verschiebt die KI ständig die technologischen Grenzen wichtiger Bereiche wie der verkörperten Intelligenz und des autonomen Fahrens. Wird der Status von Transformer als Mainstream-Architektur großer KI-Modelle durch den multimodalen Trend erschüttert? Warum ist die Erforschung großer Modelle auf Basis der MoE-Architektur (Mixture of Experts) zu einem neuen Trend in der Branche geworden? Können Large Vision Models (LVM) ein neuer Durchbruch im allgemeinen Sehvermögen sein? ...Aus dem PRO-Mitglieder-Newsletter 2023 dieser Website, der in den letzten sechs Monaten veröffentlicht wurde, haben wir 10 spezielle Interpretationen ausgewählt, die eine detaillierte Analyse der technologischen Trends und industriellen Veränderungen in den oben genannten Bereichen bieten, um Ihnen dabei zu helfen, Ihre Ziele in der Zukunft zu erreichen Jahr vorbereitet sein. Diese Interpretation stammt aus Week50 2023

Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Identifizieren Sie automatisch die besten Moleküle und reduzieren Sie die Synthesekosten. Das MIT entwickelt ein Algorithmus-Framework für die Entscheidungsfindung im molekularen Design Jun 22, 2024 am 06:43 AM

Herausgeber |. Der Einsatz von Ziluo AI bei der Rationalisierung der Arzneimittelforschung nimmt explosionsartig zu. Durchsuchen Sie Milliarden von Kandidatenmolekülen nach solchen, die möglicherweise über Eigenschaften verfügen, die für die Entwicklung neuer Medikamente erforderlich sind. Es sind so viele Variablen zu berücksichtigen, von Materialpreisen bis hin zum Fehlerrisiko, dass es keine leichte Aufgabe ist, die Kosten für die Synthese der besten Kandidatenmoleküle abzuwägen, selbst wenn Wissenschaftler KI einsetzen. Hier entwickelten MIT-Forscher SPARROW, ein quantitatives Entscheidungsalgorithmus-Framework, um automatisch die besten molekularen Kandidaten zu identifizieren und so die Synthesekosten zu minimieren und gleichzeitig die Wahrscheinlichkeit zu maximieren, dass die Kandidaten die gewünschten Eigenschaften aufweisen. Der Algorithmus bestimmte auch die Materialien und experimentellen Schritte, die zur Synthese dieser Moleküle erforderlich sind. SPARROW berücksichtigt die Kosten für die gleichzeitige Synthese einer Charge von Molekülen, da häufig mehrere Kandidatenmoleküle verfügbar sind

See all articles