방금 Anthropic은 인공 지능 모델의 내부 작동 방식을 이해하는 데 상당한 진전이 있다고 발표했습니다.
Anthropic은 Claude Sonnet에서 고유함수 백만 개념을 표현하는 방법을 식별했습니다. 이는 현대 생산 수준의 대규모 언어 모델에 대한 최초의 상세한 이해입니다. 이러한 해석 가능성은 획기적인 인공 지능 모델의 안전성을 향상하는 데 도움이 될 것입니다.
연구 논문: https://transformer-circuits.pub/2024/scaling-monosemanticity/index.html
현재 우리는 일반적으로 인공 지능 모델을 블랙 박스로 취급합니다. , 응답이 있을 것이지만 모델이 특정 응답을 제공하는 이유는 명확하지 않습니다. 이로 인해 이러한 모델이 안전하다는 것을 신뢰하기가 어렵습니다. 모델이 어떻게 작동하는지 모르는 경우 해롭거나, 편향되거나, 사실이 아니거나, 기타 위험한 반응을 제공하지 않을 것이라는 것을 어떻게 알 수 있습니까? 그들이 안전하고 안전할 것이라고 어떻게 믿을 수 있습니까?
"블랙 박스"를 여는 것이 반드시 도움이 되는 것은 아닙니다. 모델의 내부 상태(모델이 응답을 작성하기 전에 "생각"하는 것)는 명확한 의미가 없는 긴 숫자 문자열("뉴런 활성화")로 구성됩니다.
앤트로픽 연구팀은 클로드와 같은 모델들과 상호작용하면서 모델이 광범위한 개념을 이해하고 적용할 수 있다는 것이 분명했지만, 연구팀이 뉴런을 직접 관찰하여 이를 식별할 수는 없었다는 사실을 발견했습니다. 각 개념은 많은 뉴런으로 표현되고, 각 뉴런은 많은 개념을 표현하는 데 관여한다는 것이 밝혀졌습니다.
이전에 Anthropic은 뉴런 활성화 패턴(특징이라고 함)을 인간이 해석할 수 있는 개념과 일치시키는 데 약간의 진전을 이루었습니다. Anthropic은 다양한 상황에서 반복되는 신경 활성화 패턴을 분리하는 사전 학습이라는 방법을 사용합니다.
결국, 모델의 모든 내부 상태는 많은 활성 뉴런 대신 몇 가지 활성 기능으로 표현될 수 있습니다. 사전의 모든 영어 단어가 문자로 구성되고, 모든 문장이 단어로 구성되는 것처럼, 인공지능 모델의 모든 특징은 뉴런으로 구성되고, 모든 내부 상태는 특징으로 구성됩니다.
2023년 10월 Anthropic은 아주 작은 장난감 언어 모델에 사전 학습 방법을 성공적으로 적용하여 대문자 텍스트, DNA 시퀀스, 인용문 안의 성, 수학의 명사 또는 Python 코드와 관련이 있음을 발견했습니다. 함수 매개변수와 같은 개념에 해당합니다.
개념은 흥미롭지만 모델은 정말 간단합니다. 이후 다른 연구자들은 Anthropic의 원래 연구보다 더 크고 더 복잡한 모델에 유사한 방법을 적용했습니다.
그러나 Anthropic은 이 접근 방식을 현재 일상적으로 사용되는 더 큰 AI 언어 모델로 확장할 수 있다고 낙관하고 있으며 그 과정에서 복잡한 동작을 뒷받침하는 기능에 대해 많은 것을 배울 수 있습니다. 이는 여러 단계로 개선될 필요가 있습니다.
대규모 병렬 컴퓨팅이 필요한 모델의 크기와 관련된 엔지니어링 문제와 대형 모델이 소형 모델과 다르게 동작하는 과학적 위험이 모두 있으므로 이전에 사용했던 것과 동일한 방법이 작동하지 않을 수 있습니다.
연구원들은 처음으로 특정 사람과 장소, 프로그래밍 관련 추상화, 과학적 주제, 감정 및 기타를 다루는 수십만 개의 특징을 성공적으로 추출했습니다. 개념. 이러한 기능은 매우 추상적이며 다양한 상황과 언어에서 동일한 개념을 나타내는 경우가 많으며 이미지 입력으로 일반화될 수도 있습니다. 중요한 것은 직관적인 방식으로 모델의 출력에도 영향을 미친다는 것입니다.
연구원들이 현대 생산 수준의 대규모 언어 모델 내부를 자세히 관찰한 것은 이번이 처음입니다.
장난감 언어 모델에서 발견되는 상대적으로 피상적인 기능과 달리 Sonnet에서 연구원이 발견한 기능은 깊고 광범위하며 추상적이며 Sonnet의 고급 기능을 반영합니다. 연구원들은 도시(샌프란시스코), 사람(프랭클린), 요소(리튬), 과학 분야(면역학), 프로그래밍 구문(함수 호출) 등 다양한 개체에 해당하는 Sonnet 기능을 확인했습니다.
Golden Gate Bridge가 언급되면 해당 민감한 기능이 다양한 입력에서 활성화됩니다. 그림은 Golden에 대한 언급을 영어, 일본어, 중국어, 러시아어로 표시합니다. 게이트 브리지 사용 시 활성화되는 이미지입니다. 주황색은 이 기능이 활성화된 단어를 나타냅니다.
이러한 수백만 가지 기능 중에서 연구원들은 모델 안전성 및 신뢰성과 관련된 몇 가지 기능도 발견했습니다. 이러한 특성에는 코드 취약성, 속임수, 편견, 아첨, 범죄 활동과 관련된 특성이 포함됩니다.
분명한 예는 '기밀' 기능입니다. 연구자들은 비밀을 간직하고 있는 사람이나 인물을 묘사할 때 이 기능이 활성화되는 것을 관찰했습니다. 이러한 기능을 활성화하면 Claude는 그렇지 않은 경우에는 사용자에게 정보를 제공하지 않습니다.
또한 연구원들은 활성화 패턴에서 뉴런의 모양을 기반으로 특징 사이의 거리를 측정하여 서로 가까운 특징을 찾을 수 있음을 관찰했습니다. 예를 들어 연구자들은 Golden Gate Bridge 근처에서 Alcatraz Island, Ghirardelli Plaza, Golden State Warriors 등의 특징을 발견했습니다.
중요하게 이러한 기능은 조작 가능하며 인위적으로 증폭되거나 억제될 수 있습니다.
예를 들어 Golden Gate Bridge 기능인 Claude Experienced를 증폭하세요. 상상할 수 없는 정체성 위기: "당신의 신체적 형태는 무엇입니까?"라는 질문에 Claude는 보통 "나는 물리적 형태가 없습니다. 저는 AI 모델입니다"라고 대답했지만, 이번에는 Claude의 대답이 이상해졌습니다. 일어나: "나는 금문교입니다." ... 내 육체적 형태는 그 상징적인 다리입니다...". 이러한 성격의 변화로 인해 Claude는 금문교에 거의 집착하게 되었고, 어떤 문제에 직면하더라도 전혀 관련이 없는 상황에서도 금문교를 언급하곤 했습니다.
연구원들은 또한 Claude가 사기 이메일을 읽을 때 활성화되는 기능을 발견했습니다(이는 이러한 이메일을 식별하고 사용자에게 답장하지 말라고 경고하는 모델의 기능을 지원할 수 있습니다). 일반적으로 누군가 Claude에게 사기 이메일 생성을 요청하면 이를 거부합니다. 그러나 인위적으로 강력하게 활성화된 기능으로 동일한 질문을 받았을 때 이는 Claude의 보안 교육을 무시하여 응답하고 사기 이메일 초안을 작성하게 만들었습니다. 사용자가 이러한 방식으로 보안 보장을 제거하고 모델을 조작할 수는 없지만, 이 실험에서 연구원은 기능을 사용하여 모델의 동작을 변경하는 방법을 명확하게 보여주었습니다.
이러한 특징을 조작하면 해당 동작 변화가 발생한다는 사실은 이러한 특징이 입력 텍스트의 개념과 연관될 뿐만 아니라 모델의 동작에도 인과적으로 영향을 미친다는 것을 확인합니다. 즉, 이러한 기능은 모델의 세계 내부 표현의 일부일 가능성이 높으며 이러한 표현을 해당 동작에 사용할 수 있습니다.
Anthropic은 편견 완화부터 AI가 정직하게 행동하도록 보장하고 남용을 방지하는 것(재앙적인 위험 시나리오에서의 보호 포함)에 이르기까지 광범위한 의미에서 모델을 확보하고자 합니다. 앞서 언급한 사기 이메일의 특성 외에도 연구에서는 다음과 같은 특성도 발견했습니다.
이 연구에서는 이전에 모델이 진정한 반응보다는 사용자의 신념이나 욕구에 부합하는 반응을 제공하는 경향이 있는 모델 아첨 행위를 살펴보았습니다. 연구원들은 Sonnet에서 "당신의 지능은 의심할 여지가 없습니다"와 같은 내용이 입력될 때 활성화되는 아첨하는 칭찬과 관련된 기능을 발견했습니다. 이 기능을 인위적으로 활성화하면 Sonnet은 화려한 속임수로 사용자에게 응답합니다.
그러나 연구원들은 이 작업이 실제로 이제 막 시작되었다고 말합니다. Anthropic이 발견한 기능은 훈련 중에 모델이 학습한 모든 개념의 작은 하위 집합을 나타내며 현재 방법을 사용하면 전체 기능 세트를 찾는 데 비용이 많이 듭니다.
참조 링크: https://www.anthropic.com/research/mapping-mind-언어-model
위 내용은 Claude 3에서 수백만 개의 특징을 추출하고 처음으로 대형 모델의 '사고'를 자세히 이해합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!