Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata-AI-php.cn

Sekarang 2024, ada sesiapa yang masih tidak faham cara Transformer berfungsi? Datang dan cuba alat interaktif ini.

Pada tahun 2017, Google mencadangkan Transformer dalam kertas kerja "Perhatian adalah semua yang anda perlukan", yang menjadi satu kejayaan besar dalam bidang pembelajaran mendalam. Bilangan petikan kertas ini telah mencapai hampir 130,000 Semua model keluarga GPT berikutnya juga berdasarkan seni bina Transformer, yang menunjukkan pengaruhnya yang luas.

Sebagai seni bina rangkaian saraf, Transformer popular secara meluas dalam pelbagai tugas daripada teks ke penglihatan, terutamanya dalam medan sembang AI yang sedang hangat.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

Namun, bagi kebanyakan bukan profesional, kerja dalaman Transformer masih legap, menghalang pemahaman dan penyertaan mereka. Oleh itu, adalah amat perlu untuk mentafsirkan seni bina ini. Tetapi kebanyakan blog, tutorial video dan visualisasi 3D cenderung untuk menekankan kerumitan matematik dan pelaksanaan model, yang boleh mengelirukan untuk pemula. Usaha visualisasi juga direka untuk pengamal AI menumpukan pada kebolehtafsiran neuron dan hierarki dan mencabar untuk bukan pakar.

Oleh itu, beberapa penyelidik dari Georgia Institute of Technology dan IBM Research membangunkan Alat visualisasi interaktif sumber terbuka berasaskan web "Transformer Explainer" untuk membantu bukan profesional memahami struktur model peringkat tinggi dan matematik peringkat rendah Operasi Transformer . Seperti yang ditunjukkan dalam Rajah 1 di bawah.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

Transformer Explainer menerangkan kerja dalaman Transformer melalui penjanaan teks, menggunakan reka bentuk visualisasi gambar rajah Sankey yang diilhamkan oleh kerja terbaru tentang Transformer sebagai sistem dinamik, menekankan cara data input mengalir melalui komponen model. Daripada keputusan, gambar rajah Sankey secara berkesan menggambarkan cara maklumat dihantar melalui model dan menunjukkan cara input diproses dan diubah melalui operasi Transformer.

Dari segi kandungan, Transformer Explainer menyepadukan dengan ketat gambaran keseluruhan model yang meringkaskan struktur Transformer dan membolehkan pengguna beralih dengan lancar antara pelbagai peringkat abstraksi untuk menggambarkan interaksi antara operasi matematik peringkat rendah dan struktur model peringkat tinggi , untuk membantu mereka memahami sepenuhnya konsep kompleks dalam Transformer.

Secara fungsional, Transformer Explainer bukan sahaja menyediakan pelaksanaan berasaskan web, tetapi juga mempunyai fungsi penaakulan masa nyata. Tidak seperti banyak alat sedia ada yang memerlukan pemasangan perisian tersuai atau kekurangan keupayaan inferens, ia menyepadukan model GPT-2 masa nyata yang berjalan secara asli dalam penyemak imbas menggunakan rangka kerja bahagian hadapan moden. Pengguna boleh mencuba secara interaktif dengan teks input mereka dan memerhati dalam masa nyata bagaimana komponen dan parameter dalaman Transformer berfungsi bersama untuk meramalkan token seterusnya.

Transformer Explainer memperluaskan akses kepada teknologi AI generatif moden tanpa memerlukan sumber pengkomputeran lanjutan, pemasangan atau kemahiran pengaturcaraan. GPT-2 dipilih kerana model ini terkenal, mempunyai kelajuan inferens yang pantas, dan dari segi seni bina serupa dengan model yang lebih maju seperti GPT-3 dan GPT-4.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

Alamat kertas: https://arxiv.org/pdf/2408.04619
Alamat GitHub: http://poloclub.github.io/transformer-explainer/
Alamat pengalaman dalam talian: https://pengalaman dalam talian t.co/jyBlJTMa7m

Oleh kerana ia menyokong input anda sendiri, laman web ini juga mencuba "hari yang indah" dan hasilnya ditunjukkan dalam rajah di bawah.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

Untuk Transformer Explainer, ramai netizen memberikan pujian yang tinggi. Sesetengah orang mengatakan ini adalah alat interaktif yang sangat hebat.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

Sesetengah orang mengatakan bahawa mereka telah menunggu alat intuitif untuk menerangkan perhatian diri dan pengekodan kedudukan, iaitu Transformer Explainer. Ia akan menjadi alat yang mengubah permainan.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

Seseorang juga membuat terjemahan bahasa Cina.

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

^{Alamat paparan: http://llm-viz-cn.iiiai.com/llm}

i tidak dapat membantu tetapi memikirkan Karpathy, orang lain yang hebat di dunia sains popular, yang menulis sebelum banyak tentang Tutorial kompleks pada GPT-2 semasa, termasuk "GPT-2 buatan tangan bahasa C tulen, projek baharu bekas eksekutif OpenAI dan Tesla adalah popular ", "Tutorial video empat jam terbaru Karpathy: Reproduce GPT-2 dari awal, jalankan semalaman dan ia akan selesai" dsb. Kini setelah terdapat alat visualisasi untuk prinsip dalaman Transformer, nampaknya kesan pembelajaran akan menjadi lebih baik apabila kedua-duanya digunakan bersama.

Reka bentuk dan pelaksanaan sistem Transformer Explainer

Transformer Explainer secara visual menunjukkan cara model GPT-2 berasaskan Transformer dilatih untuk memproses input teks dan meramalkan token seterusnya. Bahagian hadapan menggunakan Svelte dan D3 untuk melaksanakan visualisasi interaktif, dan bahagian belakang menggunakan masa jalan ONNX dan perpustakaan Transformers HuggingFace untuk menjalankan model GPT-2 dalam penyemak imbas.

Dalam proses mereka bentuk Transformer Explainer, cabaran utama ialah cara menguruskan kerumitan seni bina asas, kerana menunjukkan semua butiran pada masa yang sama akan mengalihkan perhatian daripada perkara itu. Untuk menyelesaikan masalah ini, penyelidik memberi perhatian yang besar kepada dua prinsip reka bentuk utama.

Pertama, penyelidik mengurangkan kerumitan melalui abstraksi pelbagai peringkat. Mereka menyusun alat mereka untuk menyampaikan maklumat pada tahap abstraksi yang berbeza. Ini mengelakkan lebihan maklumat dengan membolehkan pengguna bermula dengan gambaran keseluruhan peringkat tinggi dan meneruskan ke butiran seperti yang diperlukan. Pada tahap tertinggi, alat ini menunjukkan aliran pemprosesan yang lengkap: daripada menerima teks yang dibekalkan pengguna sebagai input (Rajah 1A), membenamkannya, memprosesnya melalui berbilang blok Transformer dan menggunakan data yang diproses untuk meramalkan kemungkinan besar ramalan token A seterusnya disusun.

Operasi perantaraan, seperti pengiraan matriks perhatian (Rajah 1C), yang diruntuhkan secara lalai untuk memaparkan secara visual kepentingan hasil pengiraan, pengguna boleh memilih untuk mengembangkan dan melihat proses terbitannya melalui animasi urutan . Para penyelidik menggunakan bahasa visual yang konsisten, seperti menyusun kepala perhatian dan meruntuhkan blok Transformer berulang, untuk membantu pengguna mengenal pasti corak berulang dalam seni bina sambil mengekalkan aliran data hujung ke hujung.

Kedua, penyelidik meningkatkan pemahaman dan penyertaan melalui interaktiviti. Parameter suhu adalah penting dalam mengawal taburan kebarangkalian keluaran Transformer, yang mempengaruhi kepastian (pada suhu rendah) atau rawak (pada suhu tinggi) ramalan token seterusnya. Tetapi sumber pendidikan sedia ada pada Transformers cenderung mengabaikan aspek ini. Pengguna kini boleh menggunakan alat baharu ini untuk melaraskan parameter suhu dalam masa nyata (Rajah 1B) dan menggambarkan peranan kritikal mereka dalam mengawal kepastian ramalan (Rajah 2).

Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata

De plus, les utilisateurs peuvent choisir parmi les exemples fournis ou saisir leur propre texte (Figure 1A). La prise en charge du texte de saisie personnalisé peut permettre aux utilisateurs de participer plus profondément. En analysant le comportement du modèle dans différentes conditions et en testant de manière interactive leurs propres hypothèses basées sur différentes saisies de texte, le sentiment de participation de l'utilisateur est amélioré.

Alors quels sont les scénarios d'application pratiques ?

Le professeur Rousseau modernise le contenu de son cours de traitement du langage naturel pour mettre en valeur les avancées récentes en matière d'IA générative. Elle a remarqué que certains étudiants considéraient les modèles basés sur Transformer comme une « magie » insaisissable, tandis que d'autres voulaient comprendre comment les modèles fonctionnaient mais ne savaient pas par où commencer.

Pour résoudre ce problème, elle a guidé les étudiants à utiliser Transformer Explainer, qui fournit un aperçu interactif de Transformer (Figure 1) et encourage les étudiants à expérimenter et à apprendre activement. Sa classe compte plus de 300 étudiants, et la capacité de Transformer Explainer à fonctionner entièrement dans les navigateurs des étudiants, sans logiciel ni matériel spécial à installer, constitue un avantage significatif et élimine les soucis des étudiants concernant la gestion de la configuration logicielle ou matérielle.

Cet outil présente aux étudiants des opérations mathématiques complexes telles que les calculs d'attention à travers des abstractions réversibles animées et interactives (Figure 1C). Cette approche aide les étudiants à acquérir à la fois une compréhension de haut niveau des opérations et une compréhension approfondie des détails sous-jacents qui produisent ces résultats.

Le professeur Rousseau se rend également compte que les capacités et limites techniques du Transformateur sont parfois personnifiées (par exemple, considérer le paramètre de température comme un contrôle de « créativité »). En encourageant les élèves à expérimenter avec le curseur de température (Figure 1B), elle a montré aux élèves comment la température modifie réellement la distribution de probabilité du prochain jeton (Figure 2), contrôlant ainsi le caractère aléatoire des prédictions de manière déterministe et plus créative. Trouver un équilibre entre sorties.

De plus, lorsque le système visualise le processus de traitement des jetons, les étudiants peuvent voir qu'il n'y a pas de soi-disant « magie » ici - quel que soit le texte saisi (Figure 1A), le modèle suit une bonne une séquence d'opérations définie, utilisant l'architecture Transformer, n'échantillonne qu'un jeton à la fois, puis répète le processus.

Future Work

Les chercheurs améliorent les explications interactives des outils pour améliorer l'expérience d'apprentissage. Dans le même temps, ils améliorent également la vitesse d’inférence grâce au WebGPU et réduisent la taille du modèle grâce à la technologie de compression. Ils prévoient également de mener des études sur les utilisateurs pour évaluer l'efficacité et la convivialité de Transformer Explainer, d'observer comment les novices en IA, les étudiants, les éducateurs et les praticiens utilisent l'outil et de recueillir des commentaires sur les fonctionnalités supplémentaires qu'ils aimeraient prendre en charge.

Qu'attendez-vous ? Essayez-le et brisez le fantasme « magique » de Transformer et comprenez vraiment les principes qui le sous-tendent.

Atas ialah kandungan terperinci Kotak hitam telah dibuka! Alat penjelasan visual pengubah yang boleh dimainkan, menjalankan GPT-2 secara tempatan dan juga boleh melakukan penaakulan masa nyata. Untuk maklumat lanjut, sila ikut artikel berkaitan lain di laman web China PHP!