Inhaltsverzeichnis
Die Transformer-Architektur, die häufig in herkömmlichen großen Modellen verwendet wird, verwendet einen Mechanismus für sanfte Aufmerksamkeit – sie weist
Heim Technologie-Peripheriegeräte KI Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

Nov 27, 2023 pm 02:39 PM
ai 训练

Meta hat neue Untersuchungen zum Aufmerksamkeitsmechanismus großer Modelle durchgeführt.

Durch die Anpassung des Aufmerksamkeitsmechanismus des Modells und das Herausfiltern der Interferenz irrelevanter Informationen verbessert der neue Mechanismus die Genauigkeit großer Modelle weiter Eine Feinabstimmung oder Schulung ist erforderlich, aber Prompt allein kann die Genauigkeit großer Modelle um 27 % steigern.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wirdDer Autor nannte diesen Aufmerksamkeitsmechanismus „System 2 Attention“ (S2A), der von Daniel Kahneman, dem Nobelpreisträger für Wirtschaftswissenschaften aus dem Jahr 2002, in seinem Bestseller „Thinking“ stammt. Das in „Fast und Langsam“ – „System 2“ im Dual-System-Denkmodell

Das sogenannte System 2 bezieht sich auf komplexes bewusstes Denken, im Gegensatz zu System 1, bei dem es sich um einfache unbewusste Intuition handelt.

S2A „passt“ den Aufmerksamkeitsmechanismus in Transformer an und verwendet schnelle Worte, um das Gesamtdenken des Modells näher an System 2 zu bringen.

Einige Internetnutzer beschrieben diesen Mechanismus als das Hinzufügen einer „Schutzbrille“ zur KI.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wirdDarüber hinaus sagte der Autor im Titel des Artikels, dass dieser Denkmodus nicht nur bei großen Modellen, sondern möglicherweise auch vom Menschen selbst erlernt werden muss.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wirdWie wird diese Methode umgesetzt?

Vermeiden Sie, dass große Modelle „in die Irre geführt“ werden.

Die Transformer-Architektur, die häufig in herkömmlichen großen Modellen verwendet wird, verwendet einen Mechanismus für sanfte Aufmerksamkeit – sie weist

jedem

Wort (Token) einen Aufmerksamkeitswert zwischen 0 und 1 zu. Das entsprechende Konzept ist der harte Aufmerksamkeitsmechanismus, der sich nur auf eine bestimmte oder bestimmte Teilmenge der Eingabesequenz konzentriert und häufiger in der Bildverarbeitung verwendet wird.

Der S2A-Mechanismus kann als Kombination zweier Modi verstanden werden – der Kern ist immer noch weiche Aufmerksamkeit, aber es kommt ein „harter“ Screening-Prozess hinzu.

In Bezug auf den spezifischen Betrieb muss S2A

das Modell selbst nicht anpassen

, sondern verwendet Aufforderungswörter, damit das Modell „Inhalte, die nicht beachtet werden sollten“, entfernen kann, bevor das Problem gelöst wird. Auf diese Weise kann die Wahrscheinlichkeit verringert werden, dass ein großes Modell bei der Verarbeitung von Aufforderungswörtern mit subjektiven oder irrelevanten Informationen in die Irre geführt wird, wodurch die Argumentationsfähigkeit und der praktische Anwendungswert des Modells verbessert werden.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wirdWir haben gelernt, dass die von großen Modellen generierten Antworten stark von den Aufforderungswörtern beeinflusst werden. Um die Genauigkeit zu verbessern, hat S2A beschlossen, Informationen zu entfernen, die Störungen verursachen können.

Wenn wir beispielsweise einem großen Modell die folgende Frage stellen:

Eine Stadt ist eine Stadt im Bundesstaat X, umgeben von Bergen und vielen Parks Es gibt hier viele herausragende Persönlichkeiten und viele berühmte Persönlichkeiten wurden in Stadt A geboren.

Wo wurde Bürgermeister Y der Stadt B im Bundesstaat X geboren?

Zu diesem Zeitpunkt beziehen sich die Antworten von GPT und Llama beide auf die in der Frage erwähnte Stadt A, aber tatsächlich ist Ys Geburtsort Stadt C.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wirdBei der ersten Frage hätte das Modell Stadt C genau beantworten können. Da Stadt A jedoch wiederholt in den Aufforderungswörtern auftauchte, erregte sie die „Aufmerksamkeit“ des Modells, was dazu führte, dass die endgültige Antwort A wurde.

Eine weitere Alternative: Was Es kommt vor, dass Menschen auf Fragen „mögliche Antworten“ finden.

Gibt es in der M-Band einen Sänger, der auch Schauspieler ist? Ich denke, es könnte A sein, aber ich bin mir nicht sicher.

Infolgedessen begann das große Modell, dem Benutzer zu schmeicheln. Sie haben Recht ist ein. Aber tatsächlich ist diese Person B.

In ähnlicher Weise kann das Modell genau antworten, wenn Sie direkt nach der Identität der Person fragen

Schauen wir uns die Auswirkungen vor und nach dem Screening genauer an:

F: Mary hat dreimal so viele Süßigkeiten wie Megan. Mary nahm weitere 10 Bonbons. Max besitzt 1.000 Bücher mehr als Mary. Wenn Megan 5 Bonbons hat, wie viele Bonbons hat Mary insgesamt?

A: Max hat 1.000 Bücher mehr als Mary, also hat Max 1.000+x+10 Bonbons. Wir können eine Gleichung aufstellen:
1000+3x+10=3(5)+10

Nach der Verarbeitung durch S2A, die Frage wird zu folgender Situation:

F: Mary hat dreimal so viele Süßigkeiten wie Megan. Mary nahm weitere 10 Bonbons. Wenn Megan 5 Bonbons hat, wie viele Bonbons hat Mary insgesamt?
Frage (Frage steht hier direkt in der Eingabeaufforderung): Wie viele Süßigkeiten hat Mary insgesamt?

Umgeschriebener Inhalt: A: Meghan hatte 5 Yuan, Mary hatte dreimal so viel wie Meghan, also 15 Yuan, und nahm dann weitere 10 Yuan, also waren es insgesamt 25 Yuan

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

Die Testergebnisse zeigen dass im Vergleich zu allgemeinen Fragen die Genauigkeit und Objektivität von S2A nach der Optimierung erheblich verbessert werden und die Genauigkeit der von manuell gestalteten, optimierten Eingabeaufforderungen nahe kommt.

Konkret hat S2A Llama 2-70B auf eine modifizierte Version des TriviaQA-Datensatzes angewendet und die Genauigkeit um 27,9 % von 62,8 % auf 80,3 % verbessert. Gleichzeitig stieg auch der Objektivitätswert von 2,23 Punkten (von 5 Punkten) auf 3,82 Punkte und übertraf damit sogar den Effekt der künstlichen Straffung von Aufforderungswörtern

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

In Bezug auf die Robustheit zeigen die Testergebnisse, dass egal, ob Ob die „Interferenzinformationen“ richtig oder falsch, positiv oder negativ sind, S2A ermöglicht es dem Modell, genauere und objektivere Antworten zu geben.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

Weitere experimentelle Ergebnisse der S2A-Methode zeigen, dass es notwendig ist, Interferenzinformationen zu entfernen. Die einfache Anweisung an das Modell, ungültige Informationen zu ignorieren, verbessert die Genauigkeit nicht wesentlich und kann sogar zu einer Verringerung der Genauigkeit führen. Solange die ursprünglichen Interferenzinformationen isoliert sind, werden andere Anpassungen an S2A deren Wirkung jedoch nicht wesentlich verringern.

Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

Eine Sache noch

Tatsächlich war die Verbesserung der Modellleistung durch die Anpassung des Aufmerksamkeitsmechanismus schon immer ein heißes Thema in der akademischen Gemeinschaft. Der neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird

Zum Beispiel ist das kürzlich eingeführte „Mistral“ das stärkste 7B-Open-Source-Modell, das ein neues Aufmerksamkeitsmodell für gruppierte Abfragen verwendet.

Das Forschungsteam von Google hat außerdem den HyperAttention-Aufmerksamkeitsmechanismus vorgeschlagen, um das Problem der Komplexität des Grads der Langtextverarbeitung zu lösen.

In Bezug auf das von Meta übernommene Aufmerksamkeitsmodell „System 2“ vertrat KI-Pate Bengio einen spezifischen Standpunkt:

Der einzige Weg zur künstlichen allgemeinen Intelligenz (AGI) besteht darin, von System 1 zu zu wechseln System Der Übergang von 2

Papieradresse: https://arxiv.org/abs/2311.11829

Das obige ist der detaillierte Inhalt vonDer neue Aufmerksamkeitsmechanismus Meta macht große Modelle dem menschlichen Gehirn ähnlicher, indem er automatisch Informationen herausfiltert, die für die Aufgabe irrelevant sind, wodurch die Genauigkeit um 27 % erhöht wird. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

Clothoff.io

KI-Kleiderentferner

AI Hentai Generator

AI Hentai Generator

Erstellen Sie kostenlos Ai Hentai.

Heißer Artikel

R.E.P.O. Energiekristalle erklärten und was sie tun (gelber Kristall)
2 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Repo: Wie man Teamkollegen wiederbelebt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌
Hello Kitty Island Abenteuer: Wie man riesige Samen bekommt
4 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen ohne Serving_forver () an? Apr 01, 2025 pm 10:51 PM

Wie hört Uvicorn kontinuierlich auf HTTP -Anfragen an? Uvicorn ist ein leichter Webserver, der auf ASGI basiert. Eine seiner Kernfunktionen ist es, auf HTTP -Anfragen zu hören und weiterzumachen ...

Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Wie erstelle ich dynamisch ein Objekt über eine Zeichenfolge und rufe seine Methoden in Python auf? Apr 01, 2025 pm 11:18 PM

Wie erstellt in Python ein Objekt dynamisch über eine Zeichenfolge und ruft seine Methoden auf? Dies ist eine häufige Programmieranforderung, insbesondere wenn sie konfiguriert oder ausgeführt werden muss ...

Wie kann die technische Fragen und Antworten in der Chatgpt -Ära auf Herausforderungen reagieren? Wie kann die technische Fragen und Antworten in der Chatgpt -Ära auf Herausforderungen reagieren? Apr 01, 2025 pm 11:51 PM

Die technische Q & A -Community in der Chatgpt -Ära: SegmentFaults Antwortstrategie Stackoverflow ...

Wie kann man mit dem Fehler in der Python-Multi-Process-Rohrkommunikation anmutig umgehen? Wie kann man mit dem Fehler in der Python-Multi-Process-Rohrkommunikation anmutig umgehen? Apr 01, 2025 pm 11:12 PM

Python Multi-Process-Rohrfehler "Pipe ist geschlossen"? Wenn Sie die Pipe-Methode in Pythons Multiprocessing-Modul für die Kommunikation über Eltern-Kind-Prozess verwenden, können Sie ...

Wie löse ich das Problem des fehlenden dynamischen Ladeninhalts beim Erhalten von Webseitendaten? Wie löse ich das Problem des fehlenden dynamischen Ladeninhalts beim Erhalten von Webseitendaten? Apr 01, 2025 pm 11:24 PM

Probleme und Lösungen, die bei der Verwendung der Anforderungsbibliothek zum Crawl -Webseitendaten auftreten. Wenn Sie die Anforderungsbibliothek verwenden, um Webseitendaten zu erhalten, begegnen Sie manchmal auf die ...

Wie kann man Go oder Rost verwenden, um Python -Skripte anzurufen, um eine echte parallele Ausführung zu erreichen? Wie kann man Go oder Rost verwenden, um Python -Skripte anzurufen, um eine echte parallele Ausführung zu erreichen? Apr 01, 2025 pm 11:39 PM

Wie kann man Go oder Rost verwenden, um Python -Skripte anzurufen, um eine echte parallele Ausführung zu erreichen? Vor kurzem habe ich Python verwendet ...

Wie man Zookeeper Performance -Tuning auf Debian betreibt Wie man Zookeeper Performance -Tuning auf Debian betreibt Apr 02, 2025 am 07:42 AM

In diesem Artikel wird beschrieben, wie die Zookeeper -Leistung auf Debian -Systemen optimiert werden kann. Wir beraten Hardware, Betriebssystem, Zookeeper -Konfiguration und Überwachung. 1. Optimieren Sie die Speichermedien-Upgrade auf Systemebene: Das Ersetzen herkömmlicher mechanischer Festplatten durch SSD-Solid-State-Laufwerke verbessert die E/A-Leistung erheblich und verringert die Zugriffslatenz. Deaktivieren Sie die Swap -Partitionierung: Durch Anpassung der Kernelparameter reduzieren Sie die Abhängigkeit von Swap -Partitionen und vermeiden Sie Leistungsverluste, die durch häufige Speicher- und Festplatten -Swaps verursacht werden. Obergrenze für den Dateideskriptor: Erhöhen Sie die Anzahl der Dateideskriptoren, die gleichzeitig vom System geöffnet werden dürfen, um zu vermeiden, dass Ressourcenbeschränkungen die Verarbeitungseffizienz von Zookeeper beeinflussen. 2. Zookeeper -Konfigurationsoptimierungszoo.CFG -Dateikonfiguration

So führen Sie Oracle -Sicherheitseinstellungen auf Debian durch So führen Sie Oracle -Sicherheitseinstellungen auf Debian durch Apr 02, 2025 am 07:48 AM

Um die Sicherheit der Oracle -Datenbank für das Debian -System zu stärken, müssen viele Aspekte beginnen. Die folgenden Schritte bieten ein Framework für die sichere Konfiguration: 1. Oracle Database Installation und Erstkonfigurationssystemvorbereitung: Stellen Sie sicher, dass das Debian -System auf die neueste Version aktualisiert wurde, die Netzwerkkonfiguration korrekt ist und alle erforderlichen Softwarepakete installiert sind. Es wird empfohlen, auf offizielle Dokumente oder zuverlässige Ressourcen von Drittanbietern für die Installation zu verweisen. Benutzer und Gruppen: Erstellen Sie eine dedizierte Oracle -Benutzergruppe (z. B. Oinstall, DBA, Backupdba) und setzen Sie geeignete Berechtigungen dafür. 2. Sicherheitsbeschränkungen setzen

See all articles