Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen-KI-php.cn

Heim

Technologie-Peripheriegeräte

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Aug 07, 2024 pm 06:04 PM

深度学习工程

Vor sieben Jahren schlug das Papier „Attention is all you need“ die Transformer-Architektur vor und unterwanderte damit den gesamten Bereich des Deep Learning.

Heutzutage basieren alle wichtigen Modelle auf der Transformatorarchitektur, aber das interne Funktionsprinzip des Transformators ist immer noch ein ungelöstes Rätsel.

Letztes Jahr gab Llion Jones, einer der Autoren des Transformer Papers, die Gründung des Unternehmens für künstliche Intelligenz Sakana AI bekannt. Kürzlich veröffentlichte Sakana AI einen Artikel mit dem Titel „Transformer Layers as Painters“, der den Informationsfluss in vorab trainierten Transformatoren untersuchte und eine Reihe von Experimenten mit eingefrorenen Transformatormodellen nur für Decoder und nur für Encoder durchführte. Beachten Sie, dass in dieser Studie keinerlei Feinabstimmung des vorab trainierten Modells durchgeführt wurde.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Papieradresse: https://arxiv.org/pdf/2407.09298v1

Diese Forschung geht davon aus, dass der interne Mechanismus des Transformators (insbesondere der mittleren Schicht) in Analogie zur Malpipeline eines Malers verstanden werden kann.

Eine Malpipeline übergibt normalerweise die Leinwand (Eingabe) an eine Reihe von Malern. Manche Maler sind gut im Malen von Vögeln, während andere gut im Malen von Rädern sind. Jeder Maler erhält die Leinwand vom darunter liegenden Maler und entscheidet dann, ob er dem Gemälde einige Striche hinzufügt oder es einfach an den darüber liegenden Maler weitergibt (unter Verwendung von Restverbindungen).

Diese Analogie ist keine strenge Theorie, sondern ein Werkzeug zum Nachdenken über Transformatorschichten. Inspiriert durch diese Analogie testete und verifizierte die Studie einige Hypothesen:

Verwenden alle Ebenen denselben Darstellungsraum?
Sind alle Schichten notwendig?
Erfüllen die mittleren Schichten alle die gleiche Funktion?
Ist die Reihenfolge der Ebenen wichtig?
Können diese Schichten parallel laufen?
Ist bei manchen Aufgaben die Reihenfolge wichtiger als andere Faktoren?
Unterstützen Schleifen die Ebenenparallelität?
Welche Varianten haben den geringsten Einfluss auf die Modellleistung?

Die Studie führte eine Reihe von Experimenten mit vorab trainiertem LLM durch, darunter das Experimentieren mit Variationen der Standard-Transformer-Ausführungsstrategie und das Messen dieser Änderungen an verschiedenen Benchmarks für Nur-Decoder-Modelle (Llama) und Nur-Encoder-Modelle (BERT). Auswirkungen auf die Modellleistung.

Verwenden alle Ebenen denselben Darstellungsraum?

Um zu beantworten, ob verschiedene Ebenen denselben Darstellungsraum verwenden, haben die Autoren getestet, ob Transformer beim Überspringen bestimmter Ebenen oder beim Ändern der Reihenfolge benachbarter Ebenen robust ist. Beispielsweise erwartet Schicht 6 in Llama2-7B typischerweise den Empfang der Ausgabe von Schicht 5. Wenn Schicht 6 die Ausgabe von Schicht 4 erhält, verhält sie sich dann „katastrophal“?

In Abbildung 2 können wir sehen, dass die Schichten von Llama2-7B mit Ausnahme der ersten und letzten Schichten recht robust gegenüber Schichtsprüngen oder -wechseln sind.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Dieses Experiment zeigt, dass die mittlere Schicht einen Repräsentationsraum teilt und einen anderen Repräsentationsraum hat als die „peripheren Schichten“ (die erste und letzte Schicht). Um diese Hypothese weiter zu testen, folgten die Autoren früheren Studien und maßen die durchschnittliche Kosinusähnlichkeit zwischen Aktivierungen verborgener Zustände auf verschiedenen Ebenen der Modelle in der Basislinie (Llama2-7B, Llama2-13B und BERT-Large). Abbildung 3 zeigt die Konsistenz zwischen allen Zwischenschichten.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Dies zeigt, dass das Modell drei verschiedene Darstellungsräume haben kann: „Anfangs-“, „Mittel“- und „End“-Ebenen. Antwort auf Frage 1: Ja, die Zwischenschichten scheinen sich einen gemeinsamen Darstellungsraum zu teilen.

Sind alle Schichten notwendig?

Um weiter zu testen, ob der Umleitungsraum der Zwischenschicht wirklich geteilt wird (zusätzlich zur engen Kosinusähnlichkeit), wurde in dieser Studie versucht, „die Schicht zu überspringen“, d. h. die Ausgabe der N-ten Schicht direkt an die N-te Schicht zu senden +M-te Schicht (wobei M > 1), wodurch die M − 1-Schicht „übersprungen“ wird, wie in Abbildung 1a gezeigt. Ziel des Experiments war es, herauszufinden, ob Schicht N + M die Aktivierungen von Schicht N verstehen konnte, obwohl sie nur auf Eingaben von Schicht N + M − 1 trainiert wurde. Abbildung 4 zeigt, dass sowohl Llama2-7B als auch BERT-Large bei vielen Benchmarks leichte Leistungseinbußen erfahren. Beantwortung von Frage 2: Sind alle Schichten notwendig:

Nein, zumindest einige der mittleren Schichten können ohne katastrophales Versagen entfernt werden.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Erfüllen die mittleren Schichten alle die gleiche Funktion?

Wenn die mittleren Schichten alle einen gemeinsamen Darstellungsraum haben, bedeutet das, dass andere mittlere Schichten überflüssig sind? Um dies zu testen, führten die Forscher das „Skip“-Experiment aus dem vorherigen Unterabschnitt erneut durch und ersetzten dabei die Gewichte der mittleren Schicht durch die Gewichte der mittleren Schicht, wobei T – 2N effektiv auf jeder ersetzten Schicht + 1 Mal wiederholt wurde. wobei T die Gesamtzahl der Schichten ist (32 Schichten für Llama2-7B und 24 Schichten für BERT-Large).

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

그림 5에서 볼 수 있듯이 교체된 레이어 수가 증가할수록 벤치마크 테스트에서 모델의 점수가 급격히 떨어지는 것을 확인할 수 있습니다. 아래 그림 11에서 볼 수 있듯이, 이 레이어 교체 방법은 연구원들이 시도한 다른 어떤 방법보다 나쁩니다. 따라서 연구자들은 중간 계층이 서로 다른 기능을 수행하며 중간 계층 간에 가중치를 공유하는 것은 불가능하다고 결론지었습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

레이어 순서가 중요한가요?

이전 실험에서는 중간 계층이 표현 공간을 공유하지만 이 공간에서 서로 다른 기능을 담당한다는 것을 보여주었습니다. 해결해야 할 다음 질문은 이러한 기능의 순서가 무엇을 의미하는지입니다. 이 문제를 해결하기 위해 연구자들은 두 가지 실험 세트를 설계했습니다. 먼저, 훈련된 역순으로 중간 레이어를 실행합니다. 구체적으로 T - N 번째 레이어의 출력을 가져와 T - N - 1번째 레이어에 입력한 다음 이 레이어의 출력을 T - N - 2번째 레이어에 입력하는 식으로 N번째 레이어 레이어까지 입력합니다. 그런 다음 이 레이어의 출력을 다음 T - N 레이어로 보냅니다. 두 번째 실험 세트에서 연구원들은 중간 레이어를 무작위 순서로 실행하고 10개의 시드 값에 대한 평균을 구했습니다.

그림 6과 7은 중간 계층을 각각 역순과 무작위 순서로 실행한 결과를 보여주며, 모델은 모든 기본 테스트 세트에서 점진적인 하향 추세를 보여줍니다. 이는 또한 레이어의 순서가 모델에 있어서 어느 정도 중요하지만 순서가 변경되더라도 레이어가 계속 작동할 수 있음을 보여줍니다.

더 흥미롭게도 레이어 순서를 무작위로 섞는 것이 정확히 반대 방향으로 하는 것보다 더 잘 작동합니다. 이는 어떤 방식으로든 순서를 무작위로 섞으면 레이어 간의 원래 관계 중 일부가 유지되는 반면(즉, 레이어 i는 레이어 j를 따르며, 여기서 i > j) 완전한 역순은 이러한 관계를 완전히 깨뜨리기 때문일 수 있습니다.

이 레이어를 병렬로 실행할 수 있나요?

실행 순서보다 레이어 자체의 존재가 더 중요하다는 것을 확인하기 위해 연구원들은 중간 레이어를 병렬로 실행하고 평균 결과를 최종 N 레이어로 보내는 실험을 설계했습니다.

그림 8에서 볼 수 있듯이 모든 벤치마크 테스트에서 모델의 성능은 완만한 하향 추세를 보여줍니다. 그러나 이러한 추세는 GSM8K의 수학 단어 문제에는 적용되지 않습니다.

실험 결과에 따르면 이 방법은 대부분의 경우 효과적이지만 일부 복잡한 수학적 문제는 잘 처리되지 않습니다. 이 병렬 처리 방법은 레이어를 건너뛰는 것보다 나쁘지만 레이어를 역순으로 실행하는 것만큼 좋지는 않습니다. 이를 바탕으로 연구진은 병렬 연산 계층이 일반적인 경우에는 가능하지만 순차적인 논리적 이해가 필요한 수학적 문제에는 이 방법이 적합하지 않을 수 있다는 결론을 내렸습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

일부 작업의 경우 다른 요소보다 순서가 더 중요합니까?

대부분의 "개조된" 모델의 경우 추상적 추론(ARC) 또는 수학적 추론(GSM8K) 벤치마크에 직면할 때 가장 가파른 하향 추세를 보이는 경향이 있습니다. 이러한 현상은 단계별 추론 작업이 의미론적 이해에 주로 의존하는 상식 작업보다 모델 수준의 순서에 훨씬 더 민감하다는 사실에서 비롯될 수 있습니다. 의미론만 이해하여 수행할 수 있는 작업과 달리 추론 작업에서는 모델이 구조와 의미를 모두 파악해야 합니다. 이 관찰은 모델이 단일 처리 세션 동안 어느 정도 순서에 따른 추론을 수행할 수 있다는 가설과 일치합니다.

연구원들은 비유를 사용하여 설명했습니다. 다양한 요소로 구성된 콜라주를 그리는 경우 그림의 순서는 그다지 중요하지 않을 수 있지만, 정확한 건축 장면을 그리는 경우에는 각 획의 순서가 중요합니다. 순서가 매우 중요해집니다. 이를 바탕으로 연구자들은 수학과 추론 작업이 모델 레이어의 순서에 더 큰 의존성을 갖는 반면, 의미론적 이해에 주로 의존하는 작업의 경우 순서의 영향이 상대적으로 적다는 결론을 내렸습니다.

루프가 레이어 간 병렬화에 도움이 되나요?

앞 절에서 그림을 비유한 것에 따르면, 화가가 그림을 그릴 때는 처음부터 전부 그리는 것이 아니라 차체 등의 부분을 먼저 칠하고, 이 부분을 바탕으로 다른 부분을 추가하는 것입니다. . AI 모델에서는 레이어가 소위 페인터이고, 처리 정보가 페인팅이고, 올바른 정보를 먼저 얻으면 소위 차체를 먼저 그려야 작업을 더 잘 완성하고 작업에 기여할 수 있습니다. 그림.바퀴를 추가합니다.

변압기의 경우 적절한 입력이 주어지면 레이어는 잔여 연결을 통해 입력을 "전달"하는 대신 순방향 전파에만 기여할 수 있습니다. 이 경우 이전 실험의 병렬 레이어를 반복하면 병렬 레이어를 한 번 실행하는 것보다 모델 성능이 더 향상됩니다. 이를 기반으로 연구원들은 고정된 반복 횟수 동안 병렬 레이어의 평균 출력을 동일한 레이어에 공급하여 이를 테스트했습니다.

그림 9는 병렬 레이어를 3번 반복한 결과를 보여줍니다. 루프를 3번 병렬화한 결과는 단일 반복(병렬 레이어)보다 훨씬 더 좋습니다. 시작 레이어 N을 각 사례의 가장 왼쪽 끝에 있는 15(Llama2-7B 모델의 경우) 또는 11(BERT 모델의 경우)로 설정하면 단일 레이어만 영향을 받습니다. 이 특별한 경우 루프를 세 번 병렬화하는 효과는 단순히 중간 계층을 세 번 반복하는 것과 동일합니다. 동시에, 이 시점에서 병렬 레이어의 성능은 전체 모델과 구별할 수 없습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

연구원들은 또한 다른 반복 횟수로 동일한 실험을 반복했습니다. 그림 10은 병렬화 레이어 수 M과 반복 횟수에 따른 Llama2-7B의 성능을 보여줍니다. 각 M에 대해 가장 높은 성능을 보이는 반복 번호는 빨간색 상자로 표시됩니다. 최적의 반복 횟수는 M=29 및 M=31(거의 모든 레이어가 병렬화되는 경우)을 제외하고 병렬화된 레이어 수에 따라 대략 선형적으로 확장됩니다. 따라서 연구진은 최적의 반복 횟수는 병렬화 레이어 수에 비례한다는 결론을 내렸습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

모델 성능에 최소한의 영향을 미치면서 레이어를 조정하는 방법은 무엇입니까?

마지막으로 그림 11에서 연구원들은 모든 실험에서 Transformer의 "변환"을 비교하여 모든 벤치마크의 중앙값 또는 평균을 차트에 표시했습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

중간 복제 - 중간 레이어를 동일한 수의 중간 레이어 복사본으로 교체 - 최악의 성능을 발휘하여 빠르게 무작위 기준 성능으로 떨어졌습니다. 대조적으로, 루프 병렬성과 무작위 레이어 순서는 최소한의 영향을 미칩니다. 따라서 연구진은 단일 레이어의 복제가 가장 심각한 영향을 미친다고 결론지었습니다. 레이어 순서 무작위화 및 루프 병렬 처리는 영향을 최소화합니다.

이 실험은 전반적으로 완만하게 성능이 저하되는 것을 보여주지만, 연구자들은 이러한 레이어가 대부분의 교란 속에서도 왜 어느 정도 견고성을 유지할 수 있는지 여전히 알지 못합니다. 이 문제는 향후 연구에서 더 자세히 조사해야 합니다.

자세한 내용은 원본을 확인해주세요.

^{참조 링크: https://arxiv.org/pdf/2407.09298v1}

Das obige ist der detaillierte Inhalt vonAcht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Erklärung dieser Website

Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn

Heiße KI -Werkzeuge

Undresser.AI Undress

KI-gestützte App zum Erstellen realistischer Aktfotos

AI Clothes Remover

Online-KI-Tool zum Entfernen von Kleidung aus Fotos.

Undress AI Tool

Ausziehbilder kostenlos

Clothoff.io

KI-Kleiderentferner

Video Face Swap

Tauschen Sie Gesichter in jedem Video mühelos mit unserem völlig kostenlosen KI-Gesichtstausch-Tool aus!

Heißer Artikel

<🎜>: Wachsen Sie einen Garten - Komplette Mutationsführer

3 Wochen vor By DDD

Wie kann ich KB5055612 in Windows 10 nicht installieren?

3 Wochen vor By DDD

<🎜>: Bubble Gum Simulator Infinity - So erhalten und verwenden Sie Royal Keys

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Mandragora: Flüstern des Hexenbaum

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Nordhold: Fusionssystem, erklärt

3 Wochen vor By 尊渡假赌尊渡假赌尊渡假赌

Heiße Werkzeuge

Notepad++7.3.1

Einfach zu bedienender und kostenloser Code-Editor

SublimeText3 chinesische Version

Chinesische Version, sehr einfach zu bedienen

Senden Sie Studio 13.0.1

Leistungsstarke integrierte PHP-Entwicklungsumgebung

Dreamweaver CS6

Visuelle Webentwicklungstools

SublimeText3 Mac-Version

Codebearbeitungssoftware auf Gottesniveau (SublimeText3)

Heiße Themen

Java-Tutorial

1667

CakePHP-Tutorial

1426

Laravel-Tutorial

1328

PHP-Tutorial

1273

C#-Tutorial

1255

Related knowledge

Der Autor von ControlNet hat einen weiteren Hit! Der gesamte Prozess der Generierung eines Gemäldes aus einem Bild, der in zwei Tagen 1,4.000 Sterne verdient Jul 17, 2024 am 01:56 AM

Es ist ebenfalls ein Tusheng-Video, aber PaintsUndo ist einen anderen Weg gegangen. ControlNet-Autor LvminZhang begann wieder zu leben! Dieses Mal ziele ich auf den Bereich der Malerei. Das neue Projekt PaintsUndo hat nicht lange nach seinem Start 1,4.000 Sterne erhalten (die immer noch wahnsinnig steigen). Projektadresse: https://github.com/lllyasviel/Paints-UNDO Bei diesem Projekt gibt der Benutzer ein statisches Bild ein, und PaintsUndo kann Ihnen dabei helfen, automatisch ein Video des gesamten Malprozesses zu erstellen, vom Linienentwurf bis zum fertigen Produkt . Während des Zeichenvorgangs sind die Linienänderungen erstaunlich. Das Endergebnis des Videos ist dem Originalbild sehr ähnlich: Schauen wir uns eine vollständige Zeichnung an.

Von RLHF über DPO bis TDPO sind große Modellausrichtungsalgorithmen bereits auf „Token-Ebene' Jun 24, 2024 pm 03:04 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Im Entwicklungsprozess der künstlichen Intelligenz war die Steuerung und Führung großer Sprachmodelle (LLM) schon immer eine der zentralen Herausforderungen, um sicherzustellen, dass diese Modelle beides sind kraftvoll und sicher dienen der menschlichen Gesellschaft. Frühe Bemühungen konzentrierten sich auf Methoden des verstärkenden Lernens durch menschliches Feedback (RL

Die agentenlose Lösung von UIUC steht ganz oben auf der Liste der Open-Source-KI-Softwareentwickler und löst problemlos echte Programmierprobleme im SWE-Bench Jul 17, 2024 pm 10:02 PM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. Einreichungs-E-Mail: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com Die Autoren dieses Artikels stammen alle aus dem Team von Lehrer Zhang Lingming an der University of Illinois in Urbana-Champaign, darunter: Steven Code Repair; Doktorand im vierten Jahr, Forscher

arXiv-Artikel können als „Barrage' gepostet werden, die Diskussionsplattform von Stanford alphaXiv ist online, LeCun gefällt es Aug 01, 2024 pm 05:18 PM

Prost! Wie ist es, wenn es bei einer Papierdiskussion auf Worte ankommt? Kürzlich haben Studenten der Stanford University alphaXiv erstellt, ein offenes Diskussionsforum für arXiv-Artikel, das es ermöglicht, Fragen und Kommentare direkt zu jedem arXiv-Artikel zu posten. Website-Link: https://alphaxiv.org/ Tatsächlich ist es nicht erforderlich, diese Website speziell zu besuchen. Ändern Sie einfach arXiv in einer beliebigen URL in alphaXiv, um den entsprechenden Artikel direkt im alphaXiv-Forum zu öffnen: Sie können die Absätze darin genau lokalisieren das Papier, Satz: Im Diskussionsbereich auf der rechten Seite können Benutzer Fragen stellen, um dem Autor Fragen zu den Ideen und Details des Papiers zu stellen. Sie können beispielsweise auch den Inhalt des Papiers kommentieren, wie zum Beispiel: „Gegeben an.“

Ein bedeutender Durchbruch in der Riemann-Hypothese! Tao Zhexuan empfiehlt dringend neue Arbeiten vom MIT und Oxford, und der 37-jährige Fields-Medaillengewinner nahm daran teil Aug 05, 2024 pm 03:32 PM

Kürzlich gelang der Riemann-Hypothese, die als eines der sieben großen Probleme des Jahrtausends bekannt ist, ein neuer Durchbruch. Die Riemann-Hypothese ist ein sehr wichtiges ungelöstes Problem in der Mathematik, das sich auf die genauen Eigenschaften der Verteilung von Primzahlen bezieht (Primzahlen sind Zahlen, die nur durch 1 und sich selbst teilbar sind, und sie spielen eine grundlegende Rolle in der Zahlentheorie). In der heutigen mathematischen Literatur gibt es mehr als tausend mathematische Thesen, die auf der Aufstellung der Riemann-Hypothese (oder ihrer verallgemeinerten Form) basieren. Mit anderen Worten: Sobald die Riemann-Hypothese und ihre verallgemeinerte Form bewiesen sind, werden diese mehr als tausend Sätze als Theoreme etabliert, die einen tiefgreifenden Einfluss auf das Gebiet der Mathematik haben werden, und wenn sich die Riemann-Hypothese als falsch erweist, dann unter anderem Auch diese Sätze werden teilweise ihre Gültigkeit verlieren. Neuer Durchbruch kommt von MIT-Mathematikprofessor Larry Guth und der Universität Oxford

Posthume Arbeit des OpenAI Super Alignment Teams: Zwei große Modelle spielen ein Spiel und die Ausgabe wird verständlicher Jul 19, 2024 am 01:29 AM

Wenn die Antwort des KI-Modells überhaupt unverständlich ist, würden Sie es wagen, sie zu verwenden? Da maschinelle Lernsysteme in immer wichtigeren Bereichen eingesetzt werden, wird es immer wichtiger zu zeigen, warum wir ihren Ergebnissen vertrauen können und wann wir ihnen nicht vertrauen sollten. Eine Möglichkeit, Vertrauen in die Ausgabe eines komplexen Systems zu gewinnen, besteht darin, vom System zu verlangen, dass es eine Interpretation seiner Ausgabe erstellt, die für einen Menschen oder ein anderes vertrauenswürdiges System lesbar ist, d. h. so vollständig verständlich, dass mögliche Fehler erkannt werden können gefunden. Um beispielsweise Vertrauen in das Justizsystem aufzubauen, verlangen wir von den Gerichten, dass sie klare und lesbare schriftliche Stellungnahmen abgeben, die ihre Entscheidungen erläutern und stützen. Für große Sprachmodelle können wir auch einen ähnlichen Ansatz verfolgen. Stellen Sie bei diesem Ansatz jedoch sicher, dass das Sprachmodell generiert wird

LLM eignet sich wirklich nicht für die Vorhersage von Zeitreihen. Es nutzt nicht einmal seine Argumentationsfähigkeit. Jul 15, 2024 pm 03:59 PM

Können Sprachmodelle wirklich zur Zeitreihenvorhersage verwendet werden? Gemäß Betteridges Gesetz der Schlagzeilen (jede Schlagzeile, die mit einem Fragezeichen endet, kann mit „Nein“ beantwortet werden) sollte die Antwort „Nein“ lauten. Die Tatsache scheint wahr zu sein: Ein so leistungsstarkes LLM kann mit Zeitreihendaten nicht gut umgehen. Zeitreihen, also Zeitreihen, beziehen sich, wie der Name schon sagt, auf eine Reihe von Datenpunktsequenzen, die in der Reihenfolge ihres Auftretens angeordnet sind. Die Zeitreihenanalyse ist in vielen Bereichen von entscheidender Bedeutung, einschließlich der Vorhersage der Ausbreitung von Krankheiten, Einzelhandelsanalysen, Gesundheitswesen und Finanzen. Im Bereich der Zeitreihenanalyse haben viele Forscher in letzter Zeit untersucht, wie man mithilfe großer Sprachmodelle (LLM) Anomalien in Zeitreihen klassifizieren, vorhersagen und erkennen kann. Diese Arbeiten gehen davon aus, dass Sprachmodelle, die gut mit sequentiellen Abhängigkeiten in Texten umgehen können, auch auf Zeitreihen verallgemeinert werden können.

Das erste Mamba-basierte MLLM ist da! Modellgewichte, Trainingscode usw. waren alle Open Source Jul 17, 2024 am 02:46 AM

Die AIxiv-Kolumne ist eine Kolumne, in der diese Website akademische und technische Inhalte veröffentlicht. In den letzten Jahren sind in der AIxiv-Kolumne dieser Website mehr als 2.000 Berichte eingegangen, die Spitzenlabore großer Universitäten und Unternehmen auf der ganzen Welt abdecken und so den akademischen Austausch und die Verbreitung wirksam fördern. Wenn Sie hervorragende Arbeiten haben, die Sie teilen möchten, können Sie gerne einen Beitrag leisten oder uns für die Berichterstattung kontaktieren. E-Mail-Adresse: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com. Einleitung In den letzten Jahren hat die Anwendung multimodaler großer Sprachmodelle (MLLM) in verschiedenen Bereichen bemerkenswerte Erfolge erzielt. Als Grundmodell für viele nachgelagerte Aufgaben besteht aktuelles MLLM jedoch aus dem bekannten Transformer-Netzwerk, das

See all articles