Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

WBOY
Freigeben: 2024-08-07 18:04:03
Original
391 Leute haben es durchsucht

Vor sieben Jahren schlug das Papier „Attention is all you need“ die Transformer-Architektur vor und unterwanderte damit den gesamten Bereich des Deep Learning.

Heutzutage basieren alle wichtigen Modelle auf der Transformatorarchitektur, aber das interne Funktionsprinzip des Transformators ist immer noch ein ungelöstes Rätsel.

Letztes Jahr gab Llion Jones, einer der Autoren des Transformer Papers, die Gründung des Unternehmens für künstliche Intelligenz Sakana AI bekannt. Kürzlich veröffentlichte Sakana AI einen Artikel mit dem Titel „Transformer Layers as Painters“, der den Informationsfluss in vorab trainierten Transformatoren untersuchte und eine Reihe von Experimenten mit eingefrorenen Transformatormodellen nur für Decoder und nur für Encoder durchführte. Beachten Sie, dass in dieser Studie keinerlei Feinabstimmung des vorab trainierten Modells durchgeführt wurde.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Papieradresse: https://arxiv.org/pdf/2407.09298v1

Diese Forschung geht davon aus, dass der interne Mechanismus des Transformators (insbesondere der mittleren Schicht) in Analogie zur Malpipeline eines Malers verstanden werden kann.

Eine Malpipeline übergibt normalerweise die Leinwand (Eingabe) an eine Reihe von Malern. Manche Maler sind gut im Malen von Vögeln, während andere gut im Malen von Rädern sind. Jeder Maler erhält die Leinwand vom darunter liegenden Maler und entscheidet dann, ob er dem Gemälde einige Striche hinzufügt oder es einfach an den darüber liegenden Maler weitergibt (unter Verwendung von Restverbindungen).

Diese Analogie ist keine strenge Theorie, sondern ein Werkzeug zum Nachdenken über Transformatorschichten. Inspiriert durch diese Analogie testete und verifizierte die Studie einige Hypothesen:

  • Verwenden alle Ebenen denselben Darstellungsraum?

  • Sind alle Schichten notwendig?

  • Erfüllen die mittleren Schichten alle die gleiche Funktion?

  • Ist die Reihenfolge der Ebenen wichtig?

  • Können diese Schichten parallel laufen?

  • Ist bei manchen Aufgaben die Reihenfolge wichtiger als andere Faktoren?

  • Unterstützen Schleifen die Ebenenparallelität?

  • Welche Varianten haben den geringsten Einfluss auf die Modellleistung?

Die Studie führte eine Reihe von Experimenten mit vorab trainiertem LLM durch, darunter das Experimentieren mit Variationen der Standard-Transformer-Ausführungsstrategie und das Messen dieser Änderungen an verschiedenen Benchmarks für Nur-Decoder-Modelle (Llama) und Nur-Encoder-Modelle (BERT). Auswirkungen auf die Modellleistung.

Verwenden alle Ebenen denselben Darstellungsraum?

Um zu beantworten, ob verschiedene Ebenen denselben Darstellungsraum verwenden, haben die Autoren getestet, ob Transformer beim Überspringen bestimmter Ebenen oder beim Ändern der Reihenfolge benachbarter Ebenen robust ist. Beispielsweise erwartet Schicht 6 in Llama2-7B typischerweise den Empfang der Ausgabe von Schicht 5. Wenn Schicht 6 die Ausgabe von Schicht 4 erhält, verhält sie sich dann „katastrophal“?

In Abbildung 2 können wir sehen, dass die Schichten von Llama2-7B mit Ausnahme der ersten und letzten Schichten recht robust gegenüber Schichtsprüngen oder -wechseln sind.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Dieses Experiment zeigt, dass die mittlere Schicht einen Repräsentationsraum teilt und einen anderen Repräsentationsraum hat als die „peripheren Schichten“ (die erste und letzte Schicht). Um diese Hypothese weiter zu testen, folgten die Autoren früheren Studien und maßen die durchschnittliche Kosinusähnlichkeit zwischen Aktivierungen verborgener Zustände auf verschiedenen Ebenen der Modelle in der Basislinie (Llama2-7B, Llama2-13B und BERT-Large). Abbildung 3 zeigt die Konsistenz zwischen allen Zwischenschichten.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Dies zeigt, dass das Modell drei verschiedene Darstellungsräume haben kann: „Anfangs-“, „Mittel“- und „End“-Ebenen. Antwort auf Frage 1: Ja, die Zwischenschichten scheinen sich einen gemeinsamen Darstellungsraum zu teilen.

Sind alle Schichten notwendig?

Um weiter zu testen, ob der Umleitungsraum der Zwischenschicht wirklich geteilt wird (zusätzlich zur engen Kosinusähnlichkeit), wurde in dieser Studie versucht, „die Schicht zu überspringen“, d. h. die Ausgabe der N-ten Schicht direkt an die N-te Schicht zu senden +M-te Schicht (wobei M > 1), wodurch die M − 1-Schicht „übersprungen“ wird, wie in Abbildung 1a gezeigt. Ziel des Experiments war es, herauszufinden, ob Schicht N + M die Aktivierungen von Schicht N verstehen konnte, obwohl sie nur auf Eingaben von Schicht N + M − 1 trainiert wurde. Abbildung 4 zeigt, dass sowohl Llama2-7B als auch BERT-Large bei vielen Benchmarks leichte Leistungseinbußen erfahren. Beantwortung von Frage 2: Sind alle Schichten notwendig:

Nein, zumindest einige der mittleren Schichten können ohne katastrophales Versagen entfernt werden.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

Erfüllen die mittleren Schichten alle die gleiche Funktion?

Wenn die mittleren Schichten alle einen gemeinsamen Darstellungsraum haben, bedeutet das, dass andere mittlere Schichten überflüssig sind? Um dies zu testen, führten die Forscher das „Skip“-Experiment aus dem vorherigen Unterabschnitt erneut durch und ersetzten dabei die Gewichte der mittleren Schicht durch die Gewichte der mittleren Schicht, wobei T – 2N effektiv auf jeder ersetzten Schicht + 1 Mal wiederholt wurde. wobei T die Gesamtzahl der Schichten ist (32 Schichten für Llama2-7B und 24 Schichten für BERT-Large).

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

그림 5에서 볼 수 있듯이 교체된 레이어 수가 증가할수록 벤치마크 테스트에서 모델의 점수가 급격히 떨어지는 것을 확인할 수 있습니다. 아래 그림 11에서 볼 수 있듯이, 이 레이어 교체 방법은 연구원들이 시도한 다른 어떤 방법보다 나쁩니다. 따라서 연구자들은 중간 계층이 서로 다른 기능을 수행하며 중간 계층 간에 가중치를 공유하는 것은 불가능하다고 결론지었습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

레이어 순서가 중요한가요?

이전 실험에서는 중간 계층이 표현 공간을 공유하지만 이 공간에서 서로 다른 기능을 담당한다는 것을 보여주었습니다. 해결해야 할 다음 질문은 이러한 기능의 순서가 무엇을 의미하는지입니다. 이 문제를 해결하기 위해 연구자들은 두 가지 실험 세트를 설계했습니다. 먼저, 훈련된 역순으로 중간 레이어를 실행합니다. 구체적으로 T - N 번째 레이어의 출력을 가져와 T - N - 1번째 레이어에 입력한 다음 이 레이어의 출력을 T - N - 2번째 레이어에 입력하는 식으로 N번째 레이어 레이어까지 입력합니다. 그런 다음 이 레이어의 출력을 다음 T - N 레이어로 보냅니다. 두 번째 실험 세트에서 연구원들은 중간 레이어를 무작위 순서로 실행하고 10개의 시드 값에 대한 평균을 구했습니다.

그림 6과 7은 중간 계층을 각각 역순과 무작위 순서로 실행한 결과를 보여주며, 모델은 모든 기본 테스트 세트에서 점진적인 하향 추세를 보여줍니다. 이는 또한 레이어의 순서가 모델에 있어서 어느 정도 중요하지만 순서가 변경되더라도 레이어가 계속 작동할 수 있음을 보여줍니다.

더 흥미롭게도 레이어 순서를 무작위로 섞는 것이 정확히 반대 방향으로 하는 것보다 더 잘 작동합니다. 이는 어떤 방식으로든 순서를 무작위로 섞으면 레이어 간의 원래 관계 중 일부가 유지되는 반면(즉, 레이어 i는 레이어 j를 따르며, 여기서 i > j) 완전한 역순은 이러한 관계를 완전히 깨뜨리기 때문일 수 있습니다.

이 레이어를 병렬로 실행할 수 있나요?

실행 순서보다 레이어 자체의 존재가 더 중요하다는 것을 확인하기 위해 연구원들은 중간 레이어를 병렬로 실행하고 평균 결과를 최종 N 레이어로 보내는 실험을 설계했습니다.

그림 8에서 볼 수 있듯이 모든 벤치마크 테스트에서 모델의 성능은 완만한 하향 추세를 보여줍니다. 그러나 이러한 추세는 GSM8K의 수학 단어 문제에는 적용되지 않습니다.

실험 결과에 따르면 이 방법은 대부분의 경우 효과적이지만 일부 복잡한 수학적 문제는 잘 처리되지 않습니다. 이 병렬 처리 방법은 레이어를 건너뛰는 것보다 나쁘지만 레이어를 역순으로 실행하는 것만큼 좋지는 않습니다. 이를 바탕으로 연구진은 병렬 연산 계층이 일반적인 경우에는 가능하지만 순차적인 논리적 이해가 필요한 수학적 문제에는 이 방법이 적합하지 않을 수 있다는 결론을 내렸습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

일부 작업의 경우 다른 요소보다 순서가 더 중요합니까?

대부분의 "개조된" 모델의 경우 추상적 추론(ARC) 또는 수학적 추론(GSM8K) 벤치마크에 직면할 때 가장 가파른 하향 추세를 보이는 경향이 있습니다. 이러한 현상은 단계별 추론 작업이 의미론적 이해에 주로 의존하는 상식 작업보다 모델 수준의 순서에 훨씬 더 민감하다는 사실에서 비롯될 수 있습니다. 의미론만 이해하여 수행할 수 있는 작업과 달리 추론 작업에서는 모델이 구조와 의미를 모두 파악해야 합니다. 이 관찰은 모델이 단일 처리 세션 동안 어느 정도 순서에 따른 추론을 수행할 수 있다는 가설과 일치합니다.

연구원들은 비유를 사용하여 설명했습니다. 다양한 요소로 구성된 콜라주를 그리는 경우 그림의 순서는 그다지 중요하지 않을 수 있지만, 정확한 건축 장면을 그리는 경우에는 각 획의 순서가 중요합니다. 순서가 매우 중요해집니다. 이를 바탕으로 연구자들은 수학과 추론 작업이 모델 레이어의 순서에 더 큰 의존성을 갖는 반면, 의미론적 이해에 주로 의존하는 작업의 경우 순서의 영향이 상대적으로 적다는 결론을 내렸습니다.

루프가 레이어 간 병렬화에 도움이 되나요?

앞 절에서 그림을 비유한 것에 따르면, 화가가 그림을 그릴 때는 처음부터 전부 그리는 것이 아니라 차체 등의 부분을 먼저 칠하고, 이 부분을 바탕으로 다른 부분을 추가하는 것입니다. . AI 모델에서는 레이어가 소위 페인터이고, 처리 정보가 페인팅이고, 올바른 정보를 먼저 얻으면 소위 차체를 먼저 그려야 작업을 더 잘 완성하고 작업에 기여할 수 있습니다. 그림.바퀴를 추가합니다.

변압기의 경우 적절한 입력이 주어지면 레이어는 잔여 연결을 통해 입력을 "전달"하는 대신 순방향 전파에만 기여할 수 있습니다. 이 경우 이전 실험의 병렬 레이어를 반복하면 병렬 레이어를 한 번 실행하는 것보다 모델 성능이 더 향상됩니다. 이를 기반으로 연구원들은 고정된 반복 횟수 동안 병렬 레이어의 평균 출력을 동일한 레이어에 공급하여 이를 테스트했습니다.

그림 9는 병렬 레이어를 3번 반복한 결과를 보여줍니다. 루프를 3번 병렬화한 결과는 단일 반복(병렬 레이어)보다 훨씬 더 좋습니다. 시작 레이어 N을 각 사례의 가장 왼쪽 끝에 있는 15(Llama2-7B 모델의 경우) 또는 11(BERT 모델의 경우)로 설정하면 단일 레이어만 영향을 받습니다. 이 특별한 경우 루프를 세 번 병렬화하는 효과는 단순히 중간 계층을 세 번 반복하는 것과 동일합니다. 동시에, 이 시점에서 병렬 레이어의 성능은 전체 모델과 구별할 수 없습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

연구원들은 또한 다른 반복 횟수로 동일한 실험을 반복했습니다. 그림 10은 병렬화 레이어 수 M과 반복 횟수에 따른 Llama2-7B의 성능을 보여줍니다. 각 M에 대해 가장 높은 성능을 보이는 반복 번호는 빨간색 상자로 표시됩니다. 최적의 반복 횟수는 M=29 및 M=31(거의 모든 레이어가 병렬화되는 경우)을 제외하고 병렬화된 레이어 수에 따라 대략 선형적으로 확장됩니다. 따라서 연구진은 최적의 반복 횟수는 병렬화 레이어 수에 비례한다는 결론을 내렸습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

모델 성능에 최소한의 영향을 미치면서 레이어를 조정하는 방법은 무엇입니까?

마지막으로 그림 11에서 연구원들은 모든 실험에서 Transformer의 "변환"을 비교하여 모든 벤치마크의 중앙값 또는 평균을 차트에 표시했습니다.

Acht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen

중간 복제 - 중간 레이어를 동일한 수의 중간 레이어 복사본으로 교체 - 최악의 성능을 발휘하여 빠르게 무작위 기준 성능으로 떨어졌습니다. 대조적으로, 루프 병렬성과 무작위 레이어 순서는 최소한의 영향을 미칩니다. 따라서 연구진은 단일 레이어의 복제가 가장 심각한 영향을 미친다고 결론지었습니다. 레이어 순서 무작위화 및 루프 병렬 처리는 영향을 최소화합니다.

이 실험은 전반적으로 완만하게 성능이 저하되는 것을 보여주지만, 연구자들은 이러한 레이어가 대부분의 교란 속에서도 왜 어느 정도 견고성을 유지할 수 있는지 여전히 알지 못합니다. 이 문제는 향후 연구에서 더 자세히 조사해야 합니다.

자세한 내용은 원본을 확인해주세요.

참조 링크: https://arxiv.org/pdf/2407.09298v1

Das obige ist der detaillierte Inhalt vonAcht Fragen und acht Antworten, um das Innenleben von Transformer zu verstehen. Für weitere Informationen folgen Sie bitte anderen verwandten Artikeln auf der PHP chinesischen Website!

Verwandte Etiketten:
Quelle:jiqizhixin.com
Erklärung dieser Website
Der Inhalt dieses Artikels wird freiwillig von Internetnutzern beigesteuert und das Urheberrecht liegt beim ursprünglichen Autor. Diese Website übernimmt keine entsprechende rechtliche Verantwortung. Wenn Sie Inhalte finden, bei denen der Verdacht eines Plagiats oder einer Rechtsverletzung besteht, wenden Sie sich bitte an admin@php.cn
Beliebte Tutorials
Mehr>
Neueste Downloads
Mehr>
Web-Effekte
Quellcode der Website
Website-Materialien
Frontend-Vorlage
Über uns Haftungsausschluss Sitemap
Chinesische PHP-Website:Online-PHP-Schulung für das Gemeinwohl,Helfen Sie PHP-Lernenden, sich schnell weiterzuentwickeln!