OpenAI가 오픈소스 Transformer Debugger를 공식 발표했습니다! 코드를 작성할 필요 없이 누구나 LLM 블랙박스를 해독할 수 있습니다.-일체 포함-php.cn

AGI가 정말 가까워지고 있어요!

인류가 AI에 의해 죽지 않도록 OpenAI는 신경망/트랜스포머 블랙박스의 해독을 멈추지 않았습니다.

지난해 5월 OpenAI 팀은 충격적인 발견을 발표했습니다. GPT-4는 실제로 GPT-2의 300,000개 뉴런을 설명할 수 있다는 것입니다!

네티즌들은 지혜가 이렇게 됐다고 감탄했습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

방금 OpenAI 슈퍼 정렬 팀장은 내부적으로 사용되는 킬러 도구인 Transformer Debugger를 오픈 소스로 공개할 것이라고 공식적으로 발표했습니다.

간단히 말하면, 연구원들은 TDB 도구를 사용하여 Transformer의 내부 구조를 분석하여 소형 모델의 특정 동작을 조사할 수 있습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

즉, 이 TDB 도구를 사용하면 향후 AGI를 분석하고 분석하는 데 도움이 될 수 있습니다!

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

Transformer 디버거는 희소 자동 인코더와 OpenAI에서 개발한 "자동 해석 가능성"을 결합합니다. 즉, 대형 모델을 사용하여 소형 모델, 기술을 자동으로 설명합니다.

링크: OpenAI의 새로운 작업 폭발: GPT-4가 GPT-2 두뇌를 깨뜨립니다! 300,000개의 뉴런이 모두 확인되었습니다

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

문서 주소: https://openaipublic.blob.core.windows.net/neuron-explainer/paper/index.html#sec-intro

연구자들이 코드를 작성하지 않고도 LLM의 내부 구조를 빠르게 탐색할 수 있다는 점은 언급할 가치가 있습니다.

예를 들어, "모델이 토큰 B 대신 토큰 A를 출력하는 이유는 무엇입니까?", "주의 헤드 H는 왜 토큰 T에 집중합니까?"와 같은 질문에 답할 수 있습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

TDB는 뉴런과 주의력을 지원할 수 있기 때문에 연구자는 개별 뉴런을 제거하여 전달에 개입하고 발생하는 특정 변화를 관찰할 수 있습니다.

그러나 Jan Leike에 따르면 이 도구는 아직 초기 버전입니다. OpenAI는 더 많은 연구자가 이를 사용하고 기존 기반을 더욱 개선할 수 있기를 바라며 출시했습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

프로젝트 주소: https://github.com/openai/transformer-debugger

작동 원리

이 Transformer Debugger의 작동 방식을 이해하려면 다음에서 OpenAI를 검토해야 합니다. 2023년 5월 정렬 관련 연구 결과가 발표되었습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

TDB 도구는 이전에 발표된 두 가지 연구를 기반으로 하며 논문은 게시하지 않습니다.

간단히 말하면 OpenAI는 더 큰 매개변수와 더 강력한 기능을 갖춘 모델(GPT-4)을 사용하여 소규모를 자동으로 분석하기를 희망합니다. 모델(GPT-2)의 작동 방식을 설명하는 동작입니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

당시 OpenAI 연구의 예비 결과는 상대적으로 매개변수가 적은 모델은 이해하기 쉽지만, 모델 매개변수가 커지고 레이어 수가 많아질수록 설명 효과가 커진다는 것이었습니다. 떨어지다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

당시 OpenAI는 연구에서 GPT-4 자체가 작은 모델의 동작을 설명하도록 설계되지 않았기 때문에 GPT-2에 대한 전반적인 해석이 여전히 매우 좋지 않다고 밝혔습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

모델 동작을 더 잘 설명할 수 있는 알고리즘과 도구는 앞으로 개발되어야 합니다.

현재 오픈 소스 Transformer Debugger는 OpenAI가 다음 해에 달성할 단계별 성과입니다.

그리고 이 "더 나은 도구"인 Transformer Debugger는 "희소 자동 인코더"를 "큰 모델을 사용하여 작은 모델을 설명하는" 기술 라인에 결합합니다.

그런 다음 해석 가능성 연구에서 작은 모델을 설명하기 위해 GPT-4를 사용하는 이전 OpenAI 프로세스는 제로 코딩되어 연구자가 시작하기 위한 임계값을 크게 낮췄습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

GPT-2 Small은

GitHub 프로젝트 홈페이지에서 OpenAI 팀원들이 영상을 통해 최신 Transformer 디버거 도구를 소개했습니다.

Python 디버거와 유사하게 TDB를 사용하면 언어 모델 출력을 단계별로 살펴보고, 중요한 활성화를 추적하고, 업스트림 활성화를 분석할 수 있습니다.

TDB 홈페이지에 들어가서 먼저 "Prompt" 열을 입력하세요. - 프롬프트 및 관심 토큰:

Mary와 Johon은 가게에 갔고 Johon은 술을주었습니다....

다음 단계는 "다음 단어" 예측을 수행하는 것입니다. 이를 위해서는 대상 토큰과 간섭 토큰을 입력해야 합니다.

최종 제출 후 시스템에서 제공하는 예상 다음 단어 후보의 로그를 볼 수 있습니다.

아래 "노드 테이블"은 TDB의 핵심 부분입니다. 여기의 각 줄은 모델 구성 요소를 활성화하는 노드에 해당합니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

특정 프롬프트에 매우 중요한 어텐션 헤드의 기능을 알고 싶다면 구성 요소 이름을 클릭하기만 하면 됩니다.

그런 다음 TDB는 "Neuron Browser" 페이지를 열고 이전 프롬프트 단어가 상단에 표시됩니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Picture

여기서 연한 파란색과 분홍색 토큰을 볼 수 있습니다. 해당 색상의 각 토큰 아래에서 이 토큰에 대한 후속 태그의 주의로 인해 큰 표준 벡터가 후속 토큰에 기록됩니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

다른 두 동영상에서 연구원들은 TDB의 개념과 루프 이해에 대한 적용을 소개합니다. 동시에 그는 TDB가 논문의 결과 중 하나를 질적으로 재현할 수 있는 방법도 보여주었습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱

OpenAI 자동 해석 연구

간단히 말하면, OpenAI 자동 해석 연구의 아이디어는 GPT-4가 뉴런의 행동을 자연어로 해석하고, 이 과정을 GPT에 적용하는 것입니다. -2.

이게 어떻게 가능할까요? 먼저 LLM을 "해부"해야 합니다.

뇌와 마찬가지로 텍스트의 특정 패턴을 관찰하는 "뉴런"으로 구성되어 있으며, 이는 전체 모델이 다음에 말할 내용을 결정합니다.

예를 들어 "가장 유용한 초능력을 가진 마블 슈퍼히어로는 누구인가요?"라는 질문을 하면 모델이 마블 영화에서 특정 슈퍼히어로를 명명할 확률이 높아질 수 있습니다.

OpenAI의 도구는 이 설정을 사용하여 모델을 별도의 부분으로 분해합니다.

1단계: GPT-4를 사용하여 설명 생성

먼저 GPT-2의 뉴런을 찾고 관련 텍스트 시퀀스와 GPT-4 활성화를 보여줍니다.

그런 다음 GPT-4가 이러한 행동을 기반으로 가능한 설명을 생성하도록 하세요.

예를 들어 아래 예에서 GPT-4는 이 뉴런이 영화, 캐릭터 및 엔터테인먼트와 관련이 있다고 믿습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

2단계: GPT-4를 사용하여 시뮬레이션

다음으로, 이에 의해 활성화된 뉴런이 생성된 설명을 기반으로 어떤 작업을 수행할지 GPT-4가 시뮬레이션하도록 합니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

3단계: 비교 점수

마지막으로 시뮬레이션된 뉴런(GPT-4)의 동작을 실제 뉴런(GPT-2)의 동작과 비교합니다. 다음을 참조하세요. GPT-4의 추측이 얼마나 정확한지 확인해 보세요.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

또한 제한 사항

점수를 통해 OpenAI 연구원들은 이 기술이 신경망의 여러 부분에서 얼마나 효과적인지 측정했습니다. 이 기술은 더 큰 모델에서는 잘 설명되지 않습니다. 아마도 이후 레이어를 설명하기가 더 어렵기 때문일 것입니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

현재 대다수의 설명 점수는 매우 낮지만, 연구자들은 설명을 반복하고, 더 큰 모델을 사용하고, 설명된 분수의 아키텍처를 변경하여 개선할 수 있다는 사실도 발견했습니다. .

이제 OpenAI는 "GPT-4를 사용하여 GPT-2의 307,200개 뉴런을 모두 설명"한 결과에 대한 데이터 세트 및 시각화 도구를 오픈 소스화하고 있으며, 시장에 있는 기존 모델의 해석 및 채점도 수행하고 있습니다. OpenAI API 코드를 통해 공개하고 학계에 더 높은 점수의 설명을 생성하는 더 나은 기술을 개발하도록 요청합니다.

또한 팀은 모델이 클수록 설명의 일관성 비율이 높아지는 것을 발견했습니다. 그중 GPT-4는 인간과 가장 가깝지만 여전히 격차가 크다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 Pictures

다음은 서로 다른 레이어의 뉴런이 활성화되는 예입니다. 레이어 수가 많을수록 추상적임을 알 수 있습니다.

OpenAI官宣开源Transformer Debugger！不用写代码，人人可以破解LLM黑箱 사진

Sparse Autoencoder Setup

OpenAI에서 사용하는 Sparse Autoencoder는 입력에 바이어스가 있는 모델이며 인코더용 바이어스 및 ReLU가 있는 선형 레이어와 디코더용 또 다른 선형 레이어 및 바이어스도 포함됩니다.

연구원들은 바이어스 항이 오토인코더의 성능에 매우 중요하다는 사실을 발견했습니다. 그들은 입력과 출력에 적용된 바이어스를 연결하고 결과는 모든 활성화에서 고정 바이어스를 빼는 것과 동일합니다.

연구원들은 MSE를 사용하여 Transformer의 MLP 활성화를 재구성하기 위해 자동 인코더를 훈련시키기 위해 Adam 최적화 프로그램을 사용했습니다. MSE 손실을 사용하면 다의미론 문제를 피할 수 있으며 손실과 L1 페널티를 사용하여 희소성을 장려할 수 있습니다.

오토인코더를 훈련할 때 매우 중요한 몇 가지 원칙이 있습니다.

첫번째는 규모입니다. 더 많은 데이터에 대해 자동 인코더를 훈련하면 기능이 주관적으로 "더 선명"해지고 더 해석하기 쉬워집니다. 따라서 OpenAI는 오토인코더에 80억 개의 훈련 포인트를 사용합니다.

둘째, 훈련 중에 데이터 포인트가 아무리 많아도 일부 뉴런의 발사가 중단됩니다.

그런 다음 연구원들은 훈련 중에 이러한 죽은 뉴런을 "리샘플링"하여 모델이 주어진 오토인코더 은닉층 차원에 대해 더 많은 특징을 나타낼 수 있도록 하여 더 나은 결과를 생성했습니다.

판단 지표

당신의 방법이 효과적인지 어떻게 판단하나요? 머신러닝에서는 단순히 loss를 기준으로 삼을 수 있지만 여기서는 비슷한 참고자료를 찾기가 쉽지 않습니다.

예를 들어, 정보 기반 메트릭을 찾으면 어떤 의미에서 최고의 분해는 오토인코더와 데이터의 전체 정보를 최소화하는 분해입니다.

- 그러나 실제로 전체 정보는 주관적인 특징 해석 가능성이나 활성화 희소성과 관련이 없는 경우가 많습니다.

궁극적으로 연구원들은 여러 가지 추가 측정항목의 조합을 사용했습니다.

- 수동 검사: 기능이 설명 가능해 보입니까?

- 기능 밀도: 실시간 기능 수와 이를 트리거하는 토큰 비율은 매우 유용한 가이드입니다.

- 재구성 손실: 오토인코더가 MLP 활성화를 얼마나 잘 재구성하는지 측정합니다. 궁극적인 목표는 MLP 계층의 기능을 설명하는 것이므로 MSE 손실이 낮아야 합니다.

- 장난감 모델: 이미 잘 이해된 모델을 사용하면 오토인코더 성능을 명확하게 평가할 수 있습니다.

그러나 연구원들은 Transformer에서 훈련된 희소 자동 인코더로부터 사전 학습 솔루션에 대한 더 나은 지표를 결정하고 싶다는 희망도 표명했습니다.

참조:

https://www.php.cn/link/133a1d4c028736d9023d335f06594a0e

위 내용은 OpenAI가 오픈소스 Transformer Debugger를 공식 발표했습니다! 코드를 작성할 필요 없이 누구나 LLM 블랙박스를 해독할 수 있습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!