2024년인데 아직도 Transformer가 어떻게 작동하는지 이해하지 못하는 사람이 있나요? 와서 이 대화형 도구를 사용해 보십시오.
Google은 2017년 "Attention is all you need"라는 논문에서 Transformer를 제안했는데, 이는 딥러닝 분야에서 획기적인 발전이 되었습니다. 이 논문의 인용 횟수는 거의 130,000회에 달합니다. GPT 제품군의 모든 후속 모델도 Transformer 아키텍처를 기반으로 하며 이는 광범위한 영향력을 보여줍니다. 신경망 아키텍처인 Transformer는 텍스트부터 비전까지 다양한 작업, 특히 현재 뜨거운 분야인 AI 챗봇에서 널리 사용되고 있습니다.
그러나 많은 비전문가에게는 Transformer의 내부 작동 방식이 여전히 불투명하여 이해와 참여를 방해합니다. 따라서 이 아키텍처를 명확하게 설명하는 것이 특히 필요합니다. 그러나 많은 블로그, 비디오 튜토리얼 및 3D 시각화에서는 수학적 복잡성과 모델 구현을 강조하는 경향이 있어 초보자에게 혼란을 줄 수 있습니다. AI 실무자를 위해 설계된 시각화 노력은 신경 및 계층적 해석 가능성에 중점을 두고 있으며 비전문가에게는 어려운 작업입니다. 따라서 Georgia Institute of Technology와 IBM Research의 여러 연구원은 웹 기반 오픈 소스 대화형 시각화 도구인 "Transformer explainer"를 개발하여 비전문가가 상위 수준 모델 구조와 하위 수준 수학을 이해할 수 있도록 돕습니다. 변압기 작동 . 아래 그림 1과 같습니다.
Transformer explainer는 동적 시스템으로서의 Transformer에 대한 최근 작업에서 영감을 받은 Sankey 다이어그램 시각화 디자인을 사용하여 텍스트 생성을 통해 Transformer의 내부 작동 방식을 설명하고 입력 데이터가 모델 구성 요소를 통해 흐르는 방식을 강조합니다. 결과에서 Sankey 다이어그램은 정보가 모델을 통해 전달되는 방식을 효과적으로 설명하고 Transformer 작업을 통해 입력이 처리 및 변환되는 방식을 보여줍니다. 콘텐츠 측면에서 Transformer explainer는 Transformer 구조를 요약하는 모델 개요를 긴밀하게 통합하고 사용자가 여러 추상화 수준 사이를 원활하게 전환하여 낮은 수준의 수학적 연산과 높은 수준의 모델 구조 간의 상호 작용을 시각화할 수 있도록 합니다. Transformer의 복잡한 개념을 완전히 이해하도록 돕습니다. Transformer Expander는 기능적으로 웹 기반 구현뿐만 아니라 실시간 추론 기능도 갖추고 있습니다. 맞춤형 소프트웨어 설치가 필요하거나 추론 기능이 부족한 많은 기존 도구와 달리, 이 도구는 최신 프런트엔드 프레임워크를 사용하여 브라우저에서 기본적으로 실행되는 라이브 GPT-2 모델을 통합합니다. 사용자는 입력 텍스트를 대화형으로 실험하고 Transformer의 내부 구성요소와 매개변수가 어떻게 함께 작동하여 다음 토큰을 예측하는지 실시간으로 관찰할 수 있습니다. Transformer explainer는 고급 컴퓨팅 리소스, 설치 또는 프로그래밍 기술 없이도 최신 생성 AI 기술에 대한 액세스를 확장합니다. GPT-2를 선택한 이유는 모델이 잘 알려져 있고, 추론 속도가 빠르며, GPT-3, GPT-4 등 고급 모델과 구조적으로 유사하기 때문입니다.
- 페이퍼 주소: https://arxiv.org/pdf/2408.04619
- GitHub 주소: http://poloclub.github.io/transformer-explainer/
- 온라인 체험 주소: https:// t.co/jyBlJTMa7m
본 사이트에서도 "what a beautiful day"를 시도해 보았는데 그 결과는 아래 그림과 같습니다.
Transformer Expander에 대해 많은 네티즌들이 높은 평가를 주셨습니다. 어떤 사람들은 이것이 매우 멋진 대화형 도구라고 말합니다.
어떤 사람들은 Self-Attention과 위치 인코딩을 설명하는 직관적인 도구인 Transformer explainer를 기다리고 있다고 말합니다. 이는 판도를 바꾸는 도구가 될 것입니다.
ㅋㅋ 표시 주소: http://llm-viz-cn.iiiai.com/llm
대중과학계의 또 다른 위대한 인물인 카르파시(Karpathy)를 생각해 보십시오. 이전에는 "
Pure C 언어로 직접 만든 GPT-2, 전 OpenAI 및 Tesla 경영진의 새 프로젝트가 인기가 많습니다 ", "
Transformer explainer 시스템 설계 및 구현Transformer explainer는 Transformer 기반 GPT-2 모델이 텍스트 입력을 처리하고 다음 토큰을 예측하도록 훈련되는 방법을 시각적으로 보여줍니다. 프런트엔드는 Svelte와 D3를 사용하여 대화형 시각화를 구현하고, 백엔드는 ONNX 런타임과 HuggingFace의 Transformers 라이브러리를 사용하여 브라우저에서 GPT-2 모델을 실행합니다.
Transformer explainer를 디자인하는 과정에서 주요 과제는 기본 아키텍처의 복잡성을 관리하는 방법이었습니다. 모든 세부 사항을 동시에 표시하면 요점이 산만해지기 때문입니다. 이 문제를 해결하기 위해 연구자들은 두 가지 핵심 설계 원칙에 큰 관심을 기울였습니다.
먼저, 연구자들은 다단계 추상화를 통해 복잡성을 줄입니다. 그들은 다양한 추상화 수준에서 정보를 표시하기 위해 도구를 구성합니다. 이를 통해 사용자는 높은 수준의 개요부터 시작하여 필요에 따라 세부 사항까지 작업할 수 있으므로 정보 과부하가 방지됩니다. 가장 높은 수준에서 이 도구는 사용자가 제공한 텍스트를 입력으로 수신(그림 1A)하고, 이를 삽입하고, 여러 Transformer 블록을 통해 처리하고, 처리된 데이터를 사용하여 가장 가능성이 높은 다음 A 토큰 예측을 예측하는 전체 처리 흐름을 보여줍니다. 정렬됩니다.
계산 결과의 중요성을 시각적으로 표시하기 위해 기본적으로 축소되는 주의 매트릭스 계산(그림 1C)과 같은 중간 작업에서는 사용자가 애니메이션을 통해 파생 프로세스를 확장하고 볼 수 있습니다. 순서 . 연구원들은 사용자가 엔드투엔드 데이터 흐름을 유지하면서 아키텍처에서 반복되는 패턴을 식별할 수 있도록 주의 헤드 쌓기 및 반복되는 Transformer 블록 축소와 같은 일관된 시각적 언어를 채택했습니다.
둘째, 연구자들은 상호작용을 통해 이해와 참여를 강화합니다. 온도 매개변수는 다음 토큰 예측의 확실성(낮은 온도) 또는 무작위성(높은 온도)에 영향을 미치는 Transformer의 출력 확률 분포를 제어하는 데 중요합니다. 그러나 Transformers에 대한 기존 교육 자료는 이러한 측면을 무시하는 경향이 있습니다. 이제 사용자는 이 새로운 도구를 사용하여 온도 매개변수를 실시간으로 조정하고(그림 1B) 예측 확실성을 제어하는 데 있어 중요한 역할을 시각화할 수 있습니다(그림 2).
此外,使用者可以從提供的範例中選擇或輸入自己的文字(圖 1A)。支援自訂輸入文字可以讓使用者更深入參與,透過分析模型在不同條件下的行為,並根據不同的文字輸入對自己的假設進行互動式測試,增強了使用者的參與感。 Rousseau 教授正在對自然語言處理課程的課程內容進行現代化改造,以突出生成式 AI 的最新進展。她注意到,一些學生將基於 Transformer 的模型視為捉摸不透的“魔法”,而另一些學生則希望了解這些模型的工作原理,但不確定從何入手。 為了解決這個問題,她引導學生使用 Transformer Explainer,該工具提供了 Transformer 的互動概覽(圖 1),鼓勵學生積極進行實驗和學習。她的班級有 300 多名學生,而 Transformer Explainer 能夠完全在學生的瀏覽器中運行,無需安裝軟體或特殊硬件,這是一個顯著的優勢,消除了學生對管理軟體或硬體設定的擔憂。 該工具透過動畫和互動的可逆抽象(圖 1C),向學生介紹了複雜的數學運算,如註意力計算。這種方法幫助學生既獲得了對操作的高層次理解,又能深入了解產生這些結果的底層細節。 Rousseau 教授也意識到,Transformer 的技術能力和限制有時會被擬人化(例如,將溫度參數視為「創造力」控制)。透過鼓勵學生實驗溫度滑桿(圖1B),她向學生展示了溫度實際上是如何修改下一個詞元的機率分佈(圖2),從而控制預測的隨機性,在確定性和更具創造性的輸出之間取得平衡。 此外,當系統可視化token 處理流程時,學生可以看到這裡並沒有任何所謂的「魔法」— 無論輸入文字是什麼(圖1A),模型都遵循一個定義明確的操作順序,使用Transformer 架構,一次只採樣一個token,然後重複這個過程。 研究者們正在增強工具的互動式解釋來改善學習體驗。同時,他們也正在透過 WebGPU 提升推理速度,並透過壓縮技術來減少模型的大小。他們還計劃進行使用者研究,來評估 Transformer Explainer 的效能和可用性,觀察 AI 新手、學生、教育者和從業者如何使用該工具,並收集他們希望支持的額外功能的回饋意見。 還在等什麼,你也上手體驗一下,打破對 Transformer 的「魔法」幻想,真正了解背後的原理。 위 내용은 블랙박스가 오픈되었습니다! 재생이 가능하고 GPT-2를 로컬에서 실행하며 실시간 추론도 수행할 수 있는 Transformer 시각적 설명 도구의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!