ネチズンは称賛:トランスフォーマーが年次報告書の簡易版をリード
大規模モデルのルートから最適化します。
Transformer アーキテクチャ は、ディープ ラーニングの分野における最近の多くの成功事例の背後にある主力であると言えます。深い Transformer アーキテクチャを構築する簡単な方法は、複数の同一の Transformer 「ブロック」を次々に積み重ねることですが、各「ブロック」はより複雑で、特定の配置と組み合わせを必要とする多くの異なるコンポーネントで構成されており、優れたパフォーマンスを実現します。
2017 年に Transformer アーキテクチャが誕生して以来、研究者はそれに基づいた多数の派生研究を開始しましたが、Transformer の「ブロック」にはほとんど変更が加えられていません。
そこで質問は、標準の Transformer ブロックを簡素化できるかということです。
最近の論文では、チューリッヒ工科大学の研究者が、収束特性やダウンストリーム タスクのパフォーマンスに影響を与えることなく、LLM に必要な標準の Transformer ブロックを簡素化する方法について議論しています。信号伝播理論と経験的証拠に基づいて、残留接続、正規化層 (LayerNorm)、射影パラメータと値パラメータ、MLP シリアル化サブブロック (並列レイアウトを優先する) などの一部の部分を削除できることがわかりました。 ) GPT のようなデコーダー アーキテクチャとエンコーダー スタイルの BERT モデルを簡素化します。
研究者らは、トレーニング速度に影響を与えずに関係するコンポーネントを削除できるかどうか、また、Transformer ブロックにどのようなアーキテクチャ上の変更を加える必要があるかを検討しました。

論文リンク: https://arxiv.org/pdf/2311.01906.pdf
Lightning AI 創設者、機械学習研究者セバスティアン・ラシュカは、この研究を「今年のお気に入りの論文の一つ」と呼んでいます:
しかし、研究者の中には「コメントするのは難しい」と疑問を抱く人もいます。完全なトレーニング プロセスを見たことがない限り、正規化層や残留接続がなければ、パラメータが 1 億を超えるネットワークでどのようにスケールできるでしょうか?#''

Sebastian Raschka 氏も同意しました:「はい、彼らが実験したアーキテクチャは比較的小規模です。これを数十億のパラメータを持つ Transformer に一般化できるでしょうか? それはまだわかりません。」 しかし、彼はまだ言います。この作業は印象的であり、(初期化スキームを考慮すると) 残留接続の削除が成功したことは完全に合理的であると考えられます。
これに関して、チューリング賞受賞者のヤン・ルカン氏は次のようにコメントしました。「私たちは深層学習アーキテクチャの分野の表面に触れただけです。これは高次元空間なので、ボリュームはほぼ完全に含まれています」
なぜ Transformer ブロックを単純化する必要があるのでしょうか?
研究者らは、トレーニング速度に影響を与えずに Transformer ブロックを簡素化することが興味深い研究課題であると述べています。 まず第一に、最新のニューラル ネットワーク アーキテクチャは設計が複雑で、多くのコンポーネントが含まれています。これらのさまざまなコンポーネントがニューラル ネットワークのトレーニングのダイナミクスで果たす役割と、それらがどのように相互作用するかはまだ不明です。この質問はディープラーニングの理論と実践の間のギャップに関係するため、非常に重要です。 信号伝播理論は、ディープ ニューラル ネットワーク アーキテクチャにおける実際的な設計の選択を促すという点で影響力があることが証明されています。信号伝播は、入力全体の階層表現の内積によって捕捉された、初期化時のニューラル ネットワーク内の幾何学的情報の進化を研究し、ディープ ニューラル ネットワークのトレーニングにおいて多くの印象的な結果をもたらしました。 ただし、現時点では、この理論は初期化中のモデルのみを考慮しており、多くの場合、最初の順方向パスのみを考慮しているため、残差接続の寄与など、ディープ ニューラル ネットワークのトレーニング ダイナミクスにおける多くの複雑な問題を明らかにすることはできません。トレーニングスピードです。信号の伝播は改造の動機付けにとって重要ですが、研究者らは、理論だけから単純化されたTransformerモジュールを導き出すことはできず、経験的な洞察にも依存していると述べています。 実際のアプリケーションの観点から見ると、現在、大規模な Transformer モデルのトレーニングとデプロイにかかるコストが高額であることを考えると、Transformer アーキテクチャのトレーニングと推論パイプラインの効率が向上すれば、大幅な節約の可能性が高まります。不要なコンポーネントを削除して Transformer モジュールを簡素化できれば、パラメーターの数が減り、モデルのスループットが向上します。 この論文では、残差接続、値パラメーター、投影パラメーター、およびシリアル化サブブロックを削除した後、トレーニング速度と下流タスクのパフォーマンスの点で標準の Transformer に匹敵できることにも言及しました。最終的に、研究者らはパラメータの数を 16% 削減し、トレーニングと推論時間のスループットが 16% 増加することを観察しました。Transformer ブロックを簡素化するにはどうすればよいですか?
研究者は、信号伝播理論と経験的観察を組み合わせて、Pre-LN モジュールから開始して最も単純な Transformer ブロックを生成する方法を紹介しました (以下を参照)。
この論文の第 4 章の各セクションで、著者はトレーニング速度に影響を与えることなく、一度に 1 つのブロック コンポーネントを削除する方法を紹介します。
このパートのすべての実験では、CodeParrot データセット 上の 18 ブロック 768 幅の因果限定デコーダーのような GPT モデルを使用します。このデータセットは十分に大きいため、作成者が単一トレーニング エポック モードでは、汎化ギャップが非常に小さいため (図 2 を参照)、トレーニング速度に集中できます。
残留接続の削除
研究者は最初に、注目サブブロック内の残留接続を削除することを検討しました。これは、式(1)の表記において、α_SAを0に固定することに相当します。アテンションの残留接続を単に削除すると、信号の劣化、つまりランク崩壊が発生し、トレーニング可能性が低下する可能性があります。論文のセクション 4.1 では、研究者らが自分たちの方法を詳しく説明しています。
#投影/値パラメータの削除
図 3 から、値パラメータと投影パラメータ W^ が完全に削除されていると結論付けることができます。 V、W^P は、更新ごとのトレーニング速度の損失を最小限に抑えて可能です。つまり、β_V = β_P = 0 でアイデンティティが初期化された
上記のモジュールと比較して、MLP サブブロックの残留接続を削除するには、さらに挑戦的。以前の研究と同様に、著者らは、図 22 に示すように、MLP 残留接続なしで Adam を使用した場合、信号伝播を通じてアクティベーションをより線形にしても、更新ごとのトレーニング速度が大幅に低下することを発見しました。
彼らは、ガウス重み、直交重み、恒等重みなど、Looks Linear 初期化のさまざまなバリエーションも試しましたが、無駄でした。したがって、MLP サブブロックでの作業と初期化全体を通じて、標準のアクティベーション (ReLU など) を使用します。
著者らは、PALM や ViT-22B など、最近のいくつかの大型変圧器モデルで人気があることが証明されている並列 MHA および MLP サブブロックの概念に目を向けます。並列トランスのブロックを下図に示します。

最後に削除するのは正規化層です。これにより、図 1 の右上隅にある最も単純なブロックが取得されます。信号伝播の初期化の観点から、著者はこのセクションの簡略化のどの段階でも正規化層を削除できます。彼らの考えは、Pre-LN ブロックでの正規化によって暗黙的に残留ブランチの重みが軽減され、この有益な効果は別のメカニズムを通じて正規化層なしで再現できるというものです。残留接続を使用する場合は、残留ブランチの重みを明示的に軽減します。 、または、アテンション マトリックスを同一性の方向にバイアスするか、MLP の非線形性を「より多くの」線形性に変換します。
作者は修正プロセス中にこれらのメカニズムを考慮したため (MLP β_FF や Shaped Attend の重みを減らすなど)、正規化の必要はありません。著者らはセクション 4.4 で詳細を説明しています。
実験結果深さの拡大
信号伝播理論は通常、深い深さに焦点を当てていることを考えると、この場合は信号の劣化です。通常発生します。したがって、当然の疑問は、単純化されたトランスフォーマー ブロックによって達成されるトレーニング速度の向上は、より深いレベルまで拡張できるかということです。
図 6 から、深さを 18 ブロックから 72 ブロックに拡張した後、この研究のモデルと Pre-LN 変圧器の両方のパフォーマンスが向上していることがわかります。これは、この研究が単純化されたことを示しています。モデルのトレーニングが高速化されるだけでなく、より深い深度によって得られる追加のパワーも活用します。実際、正規化を使用すると、この研究の単純化されたブロックと Pre-LN の更新ごとの軌跡は、異なる深さではほとんど区別できなくなります。

BERT
次に、著者らは、単純化されたブロックのパフォーマンスがさまざまなデータセットやアーキテクチャ、さらには下流のタスクにも適用されることを示します。彼らは、マスクされた言語モデリングに双方向エンコーダ専用 BERT モデルの一般的な設定を選択し、ダウンストリーム GLUE ベンチマークを採用しました。
図 7 に示すように、実行後 24 時間以内では、この調査の単純化されたブロックは、(詰め込まれた) Pre-LN ベースラインと比較した、マスクされた言語モデリング タスクの事前トレーニング速度に匹敵します。一方、値や投影を再度変更せずに残りの接続を削除すると、トレーニング速度の大幅な低下につながります。図 24 では、著者らはマイクロバッチ ステップの等価図を示しています。

さらに、表 1 では、研究者らは、GLUE ベンチマークで微調整した後、自分たちの方法が以前と同様に機能することを発見しました。詰め込まれた BERT ベンチマークはかなり優れています。

表 2 では、下流のタスクを分類しています。公平な比較のために、Geiping & Goldstein (2023) と同じ微調整プロトコル (5 エポック、各タスクの一定のハイパーパラメーター、ドロップアウトの正則化) を使用しました。

#効率の向上
表 1 では、研究者はマスキング言語でのさまざまな Transformer ブロックの使用法についても詳しく説明しています。 パラメーターの数モデリングタスクでのトレーニング速度。彼らは、ベースラインの Pre-LN 詰め込み BERT に対する 24 時間の事前トレーニング中に実行されたマイクロバッチ ステップ数の比率として速度を計算しました。結論として、このモデルは Pre-LN ブロックよりも使用するパラメーターが 16% 少なく、SAS-P と SAS は反復あたりそれぞれ 16% と 9% 高速です。 ここでの実装では、並列ブロックは Pre-LN ブロックよりもわずか 5% 高速であるのに対し、Chowdhery et al. (2022) によって観察されたトレーニング速度は 15% 高速であることに注意してください。は、最適化の実装により、全体的なトレーニング速度がさらに向上する可能性があることを示しています。 Geiping & Goldstein (2023) と同様に、この実装でも PyTorch の自動オペレーター融合テクノロジーが使用されています (Sarofeen et al.、2022)。長期トレーニング
最後に、より多くのデータで小規模なモデルを長期間トレーニングするという現在の傾向を考慮して、研究者らは、より長期間にわたってブロックを簡素化することについて議論しました。 Pre-LN ブロックのトレーニング速度がトレーニング後も達成できるかどうか。これを行うために、CodeParrot で図 5 のモデルを使用し、3x トークンでトレーニングします。正確に言うと、トレーニングにはバッチ サイズ 128、シーケンス長 128 で (40K ステップではなく) 約 120K ステップがかかり、その結果、約 2B トークンが生成されます。 図 8 からわかるように、より多くのトークンがトレーニングに使用された場合でも、簡略化された SAS および SAS-P コード ブロックのトレーニング速度は、PreLN コード ブロックと同等か、それ以上です。以上がネチズンは称賛:トランスフォーマーが年次報告書の簡易版をリードの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com 人工知能の開発プロセスにおいて、大規模言語モデル (LLM) の制御とガイダンスは常に中心的な課題の 1 つであり、これらのモデルが両方とも確実に機能することを目指しています。強力かつ安全に人類社会に貢献します。初期の取り組みは人間のフィードバックによる強化学習手法に焦点を当てていました (RL

これも Tusheng のビデオですが、PaintsUndo は別の道を歩んでいます。 ControlNet 作者 LvminZhang が再び生き始めました!今回は絵画の分野を目指します。新しいプロジェクト PaintsUndo は、開始されて間もなく 1.4kstar を獲得しました (まだ異常なほど上昇しています)。プロジェクトアドレス: https://github.com/lllyasviel/Paints-UNDO このプロジェクトを通じて、ユーザーが静止画像を入力すると、PaintsUndo が線画から完成品までのペイントプロセス全体のビデオを自動的に生成するのに役立ちます。 。描画プロセス中の線の変化は驚くべきもので、最終的なビデオ結果は元の画像と非常によく似ています。完成した描画を見てみましょう。

AIxivコラムは、当サイトが学術的・技術的な内容を掲載するコラムです。過去数年間で、このサイトの AIxiv コラムには 2,000 件を超えるレポートが寄せられ、世界中の主要な大学や企業のトップ研究室がカバーされ、学術交流と普及を効果的に促進しています。共有したい優れた作品がある場合は、お気軽に寄稿するか、報告のために当社までご連絡ください。提出電子メール: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com この論文の著者は全員、イリノイ大学アーバナ シャンペーン校 (UIUC) の Zhang Lingming 教師のチームのメンバーです。博士課程4年、研究者

AIモデルによって与えられた答えがまったく理解できない場合、あなたはそれをあえて使用しますか?機械学習システムがより重要な分野で使用されるにつれて、なぜその出力を信頼できるのか、またどのような場合に信頼してはいけないのかを実証することがますます重要になっています。複雑なシステムの出力に対する信頼を得る方法の 1 つは、人間または他の信頼できるシステムが読み取れる、つまり、考えられるエラーが発生する可能性がある点まで完全に理解できる、その出力の解釈を生成することをシステムに要求することです。見つかった。たとえば、司法制度に対する信頼を築くために、裁判所に対し、決定を説明し裏付ける明確で読みやすい書面による意見を提供することを求めています。大規模な言語モデルの場合も、同様のアプローチを採用できます。ただし、このアプローチを採用する場合は、言語モデルが

現在、次のトークン予測パラダイムを使用した自己回帰大規模言語モデルが世界中で普及していると同時に、インターネット上の多数の合成画像やビデオがすでに拡散モデルの威力を示しています。最近、MITCSAIL の研究チーム (そのうちの 1 人は MIT の博士課程学生、Chen Boyuan です) は、全系列拡散モデルとネクスト トークン モデルの強力な機能を統合することに成功し、トレーニングおよびサンプリング パラダイムである拡散強制 (DF) を提案しました。 )。論文タイトル:DiffusionForcing:Next-tokenPredictionMeetsFull-SequenceDiffusion 論文アドレス:https:/

乾杯!紙面でのディスカッションが言葉だけになると、どんな感じになるでしょうか?最近、スタンフォード大学の学生が、arXiv 論文のオープン ディスカッション フォーラムである alphaXiv を作成しました。このフォーラムでは、arXiv 論文に直接質問やコメントを投稿できます。 Web サイトのリンク: https://alphaxiv.org/ 実際、URL の arXiv を alphaXiv に変更するだけで、alphaXiv フォーラムの対応する論文を直接開くことができます。この Web サイトにアクセスする必要はありません。その中の段落を正確に見つけることができます。論文、文: 右側のディスカッション エリアでは、ユーザーは論文のアイデアや詳細について著者に尋ねる質問を投稿できます。たとえば、次のような論文の内容についてコメントすることもできます。

最近、2000年代の7大問題の一つとして知られるリーマン予想が新たなブレークスルーを達成した。リーマン予想は、数学における非常に重要な未解決の問題であり、素数の分布の正確な性質に関連しています (素数とは、1 とそれ自身でのみ割り切れる数であり、整数論において基本的な役割を果たします)。今日の数学文献には、リーマン予想 (またはその一般化された形式) の確立に基づいた 1,000 を超える数学的命題があります。言い換えれば、リーマン予想とその一般化された形式が証明されれば、これらの 1,000 を超える命題が定理として確立され、数学の分野に重大な影響を与えることになります。これらの命題の一部も有効性を失います。 MIT数学教授ラリー・ガスとオックスフォード大学から新たな進歩がもたらされる

LLM に因果連鎖を示すと、LLM は公理を学習します。 AI はすでに数学者や科学者の研究を支援しています。たとえば、有名な数学者のテレンス タオは、GPT などの AI ツールを活用した研究や探索の経験を繰り返し共有しています。 AI がこれらの分野で競争するには、強力で信頼性の高い因果推論能力が不可欠です。この記事で紹介する研究では、小さなグラフでの因果的推移性公理の実証でトレーニングされた Transformer モデルが、大きなグラフでの推移性公理に一般化できることがわかりました。言い換えれば、Transformer が単純な因果推論の実行を学習すると、より複雑な因果推論に使用できる可能性があります。チームが提案した公理的トレーニング フレームワークは、デモンストレーションのみで受動的データに基づいて因果推論を学習するための新しいパラダイムです。
