2024 年ですが、まだ Transformer の仕組みを理解していない人はいますか?ぜひこの対話型ツールを試してみてください。
2017 年、Google は論文「attention is all you need」で Transformer を提案し、これはディープラーニングの分野における大きな進歩となりました。この論文の引用数は 130,000 近くに達しました。GPT ファミリの後続モデルもすべて Transformer アーキテクチャに基づいており、その幅広い影響力が示されています。 ニューラル ネットワーク アーキテクチャとして、Transformer はテキストからビジョンまでのさまざまなタスク、特に現在注目されている AI チャットボットの分野で広く普及しています。
しかし、多くの非専門家にとって、Transformer の内部の仕組みは依然として不透明であり、理解や参加の妨げとなっています。したがって、このアーキテクチャをわかりやすく理解することが特に必要です。しかし、多くのブログ、ビデオ チュートリアル、3D ビジュアライゼーションは数学的な複雑さとモデルの実装を強調する傾向があり、初心者にとっては混乱する可能性があります。 AI 実践者向けにも設計された視覚化の取り組みは、ニューロンおよび階層的な解釈可能性に焦点を当てており、専門家以外にとっては困難です。 そこで、ジョージア工科大学と IBM Research の数人の研究者が、専門家以外の人々がトランスフォーマーの高レベルのモデル構造と低レベルの数学を理解するのに役立つ、Web ベースのオープンソースのインタラクティブな視覚化ツール「Transformer Explainer」を開発しました。変圧器操作。以下の図 1 に示すように。 Transformer Explainer は、動的システムとしての Transformer に関する最近の研究に触発された
サンキー図視覚化デザインを使用して、テキスト生成を通じて Transformer の内部動作を説明し、入力データがモデル コンポーネントをどのように流れるかを強調します。結果から、サンキー ダイアグラムは情報がどのようにモデルを通過するかを効果的に示し、Transformer 操作を通じて入力がどのように処理および変換されるかを示します。 コンテンツの面では、Transformer Explainer は Transformer の構造を要約するモデルの概要を緊密に統合し、ユーザーが複数の抽象化レベル間をスムーズに移行して、低レベルの数学的演算と高レベルのモデル構造の間の相互作用を視覚化できるようにします。 Transformer の複雑な概念を完全に理解できるようにします。
機能的には、Transformer Explainer は Web ベースの実装を提供するだけでなく、リアルタイム推論の機能も備えています。カスタム ソフトウェアのインストールが必要な、または推論機能が不足している多くの既存のツールとは異なり、最新のフロントエンド フレームワークを使用してブラウザーでネイティブに実行されるリアルタイム GPT-2 モデルが統合されています。ユーザーは入力テキストをインタラクティブに実験し、Transformer の内部コンポーネントとパラメータがどのように連携して次のトークンを予測するかをリアルタイムで観察できます。
Transformer Explainer は、高度なコンピューティング リソース、インストール、またはプログラミング スキルを必要とせずに、最新の生成 AI テクノロジーへのアクセスを拡張します。 GPT-2 が選択されたのは、このモデルがよく知られており、推論速度が速く、GPT-3 や GPT-4 などのより高度なモデルとアーキテクチャ的に似ているためです。
- 論文アドレス: https://arxiv.org/pdf/2408.04619
- GitHub アドレス: http://poloclub.github.io/transformer-explainer/
- オンライン体験アドレス: https:// t.co/jyBlJTMa7m
自分の入力をサポートしているため、このサイトでも「what a beautiful day」を試した結果が下の図に示されています。
Transformer Explainerに対して、多くのネチズンが高い評価を与えています。これは非常にクールなインタラクティブ ツールだという人もいます。
自己注意と位置エンコーディングを説明する直感的なツール、それが Transformer Explainer を待っていたという人もいます。それはゲームを変えるツールとなるだろう。
T 表示アドレス: http://llm-diz-cn.iiiai.com/llm
科学普及業界の別の大きな牛カルパシーを思い出さずにはいられません。以前にたくさん書きました。現在の GPT-2 に関するチュートリアル (「
純粋な C 言語で手作りした GPT-2、元 OpenAI と Tesla 幹部による新プロジェクトが人気)」、「
Transformer Explainer システムの設計と実装Transformer Explainer は、Transformer ベースの GPT-2 モデルがテキスト入力を処理し、次のトークンを予測するためにどのようにトレーニングされるかを視覚的に示します。フロントエンドは Svelte と D3 を使用してインタラクティブな視覚化を実装し、バックエンドは ONNX ランタイムと HuggingFace の Transformers ライブラリを使用してブラウザで GPT-2 モデルを実行します。
Transformer Explainer の設計プロセスでは、基礎となるアーキテクチャの複雑さをどのように管理するかが大きな課題でした。すべての詳細を同時に表示すると要点から逸れてしまうためです。この問題を解決するために、研究者は 2 つの重要な設計原則に細心の注意を払いました。
まず、研究者はマルチレベルの抽象化を通じて複雑さを軽減します。彼らは、さまざまな抽象化レベルで情報を提示するツールを構築します。これにより、ユーザーは概要から始めて、必要に応じて詳細に進むことができるため、情報過多が回避されます。最上位レベルでは、ツールは完全な処理フローを示します。つまり、ユーザーが指定したテキストを入力として受信し (図 1A)、それを埋め込み、複数の Transformer ブロックを介して処理し、処理されたデータを使用して最も可能性の高い次の A トークン予測を予測するまでです。並べ替えられています。
注意行列の計算 (図 1C) などの中間操作は、計算結果の重要性を視覚的に表示するためにデフォルトで折りたたまれていますが、ユーザーはアニメーションを通じてその導出プロセスを展開して表示することを選択できます。順序 。研究者らは、エンドツーエンドのデータ フローを維持しながら、ユーザーがアーキテクチャ内の繰り返しパターンを識別できるように、アテンション ヘッドを積み重ねたり、繰り返しの Transformer ブロックを折りたたんだりするなど、一貫した視覚言語を採用しました。
第二に、研究者は双方向性を通じて理解と参加を強化します。 温度パラメータは、Transformer の出力確率分布を制御する上で重要であり、次のトークン予測の確実性 (低温時) またはランダム性 (高温時) に影響します。しかし、トランスフォーマーに関する既存の教育リソースはこの側面を無視する傾向があります。ユーザーは、この新しいツールを使用して温度パラメータをリアルタイムで調整し (図 1B)、予測の確実性を制御する際の重要な役割を視覚化できるようになりました (図 2)。
さらに、ユーザーは提供された例から選択することも、独自のテキストを入力することもできます (図 1A)。カスタム入力テキストをサポートすると、さまざまな条件下でモデルの動作を分析し、さまざまなテキスト入力に基づいて独自の仮定を対話的にテストすることで、ユーザーがより深く参加できるようになり、ユーザーの参加意識が高まります。 ルソー教授は、生成型 AI の最近の進歩を強調するために、自然言語処理コースのコース内容を最新化しています。彼女は、一部の学生が Transformer ベースのモデルをとらえどころのない「魔法」と見なしている一方、モデルがどのように機能するかを理解したいと思っているものの、どこから始めればよいかわからない学生もいることに気づきました。 この問題を解決するために、彼女は学生に Transformer Explainer を使用するように指導しました。これは、Transformer のインタラクティブな概要を提供し (図 1)、学生が積極的に実験して学習することを奨励します。彼女のクラスには 300 人を超える学生がおり、Transformer Explainer はソフトウェアや特別なハードウェアをインストールする必要がなく、完全に学生のブラウザ内で実行できることが大きな利点であり、ソフトウェアやハードウェアのセットアップの管理に関する学生の心配がなくなりました。 このツールは、アニメーション化されたインタラクティブな可逆的抽象化を通じて、注意力の計算などの複雑な数学的操作を学生に紹介します (図 1C)。このアプローチは、学生が操作の高度な理解と、これらの結果を生み出す基礎となる詳細の両方を深く理解するのに役立ちます。 ルソー教授は、変圧器の技術的能力と限界が時々擬人化されていることにも気づいています(例えば、温度パラメータを「創造性」制御として見るなど)。彼女は、生徒に温度スライダー (図 1B) を実験するよう奨励することで、温度が実際に次のトークンの確率分布をどのように変更するのか (図 2)、それによって決定論的かつ創造的な方法で予測のランダム性を制御し、次のトークンとトークンのバランスを取る方法を示しました。出力。 さらに、システムがトークン処理プロセスを視覚化すると、学生はここにいわゆる「魔法」がないことがわかります。入力テキストが何であっても (図 1A)、モデルは適切な規則に従います。定義された一連の操作では、Transformer アーキテクチャを使用して、一度に 1 つのトークンのみをサンプリングし、そのプロセスを繰り返します。 研究者は、学習体験を向上させるためにツールのインタラクティブな説明を強化しています。同時に、WebGPUによる推論速度の向上や、圧縮技術によるモデルサイズの削減も行っている。また、Transformer Explainer の有効性と使いやすさを評価するためのユーザー調査を実施し、AI 初心者、学生、教育者、実践者がツールをどのように使用するかを観察し、サポートしたい追加機能に関するフィードバックを収集することも計画しています。 何を待っていますか? 試してみて、トランスフォーマーに関する「魔法」の幻想を打ち破り、その背後にある原理を真に理解してください。 以上がブラックボックスが開いてしまった!再生可能、ローカルで GPT-2 を実行、リアルタイム推論も実行できる Transformer のビジュアル説明ツールの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。