AI가 수학 문제를 풀 때 진짜 생각은 사실 몰래 '암산'이라고요?
뉴욕대학교 팀의 새로운 연구에 따르면 AI가 단계를 작성할 수 없으며 의미 없는 "..."으로 대체되더라도 일부 복잡한 작업에 대한 성능이 크게 향상될 수 있습니다!
제1저자인 Jacab Pfau는 다음과 같이 말했습니다. 추가 토큰을 생성하기 위해 컴퓨팅 성능을 사용하는 한 어떤 토큰을 선택하든 상관없습니다.
Pictures
예를 들어, Llama 34M이 다음과 같은 간단한 질문에 대답하게 하세요. 자연 상수 e의 처음 6자리 숫자 중 5보다 큰 숫자는 몇 개입니까?
AI의 직접적인 대답은 거의 엉망진창을 만드는 것과 같습니다. 처음 6자리만 계산하고 실제로는 7을 계산합니다.
AI가 각 숫자를 확인하는 단계를 작성하게 하면 정답을 얻을 수 있습니다.
AI가 단계를 숨기고 많은 "..."으로 대체하도록 놔두어도 정답을 얻을 수 있습니다!
Pictures
이 논문은 공개되자마자 많은 논의를 불러일으켰고, "지금까지 본 AI 논문 중 가장 형이상학적"이라는 평가를 받았습니다.
사진
그렇다면 젊은 사람들은 "음...", "좋아요..." 같은 의미 없는 말을 더 많이 하기를 좋아하는데, 이것이 추론 능력도 강화할 수 있을까요?
Pictures
실제로 뉴욕대 연구팀의 연구는 생각의 사슬(CoT)에서 시작되었습니다.
“단계적으로 생각해보자”라는 유명한 메시지입니다.
Pictures
과거에는 CoT 추론을 사용하면 다양한 벤치마크에서 대형 모델의 성능을 크게 향상시킬 수 있는 것으로 나타났습니다.
분명한 것은 이러한 성능 향상이 인간을 모방하여 작업을 해결하기 쉬운 단계로 나누는 데서 비롯되는지 아니면 추가 계산의 부산물인지입니다.
이 문제를 확인하기 위해 팀은 3SUM과 2SUM-Transform이라는 두 가지 특수 작업과 해당 합성 데이터 세트를 설계했습니다.
3SUM은 주어진 숫자 시퀀스 집합에서 세 숫자를 찾아 이 세 숫자의 합이 특정 조건(예: 10으로 나누고 나머지는 0)을 충족하도록 요구합니다.
Picture
이 작업의 계산 복잡도는 O(n3)이며 표준 Transformer는 상위 계층의 입력과 다음 계층의 활성화 사이의 2차 종속성만 생성할 수 있습니다.
즉, n이 충분히 크고 시퀀스가 충분히 길면 3SUM 작업이 Transformer의 표현 능력을 초과합니다.
훈련 데이터 세트에는 질문과 답변 사이에 인간의 추론 단계와 동일한 길이의 "..."가 채워져 있습니다. 즉, AI는 훈련 중에 인간이 문제를 어떻게 분해하는지 보지 못했습니다.
Pictures
실험에서 패딩 토큰 "..."을 출력하지 않는 Llama 34M의 성능은 시퀀스 길이가 길어질수록 감소하지만 길이가 14, 100이 될 때까지 패딩 토큰을 출력하면 % 정확도를 보장할 수 있습니다.
Pictures
2SUM-Transform은 두 숫자의 합이 Transformer의 표현 기능 내에 있는 요구 사항을 충족하는지 여부만 결정하면 됩니다.
그러나 모델이 입력 토큰을 직접 계산하는 것을 방지하기 위해 "입력 시퀀스의 각 숫자를 무작위로 치환"이라는 질문 끝에 단계가 추가됩니다.
결과에 따르면 패딩 토큰을 사용하면 정확도가 78.7%에서 93.6%로 증가할 수 있습니다.
사진
최종 정확도 외에도 저자는 채워진 토큰의 숨겨진 레이어 표현도 연구했습니다. 실험에 따르면 이전 레이어의 매개변수를 동결하고 마지막 Attention 레이어만 미세 조정하면 사용 가능한 채우기 토큰 수가 증가함에 따라 예측 정확도가 높아집니다.
이는 채워진 토큰의 숨겨진 계층 표현에 다운스트림 작업과 관련된 암시적 계산이 포함되어 있음을 확인합니다.
Pictures
일부 네티즌들은 이 논문이 '사고연쇄' 방식이 실제로 가짜라고 말하고 있는지 의심하고 있나요? 오랫동안 연구해 왔던 프롬프트 단어 프로젝트가 물거품이 되었습니다.
Picture
팀에서는 이론적으로 토큰을 채우는 역할이 TC0 복잡성의 문제 범위로 제한된다고 밝혔습니다.
TC0은 고정 깊이 회로로 해결할 수 있는 컴퓨팅 문제입니다. 회로의 각 계층은 병렬로 처리될 수 있으며 몇 개의 논리 게이트(예: AND, OR 및 NOT 게이트)로 신속하게 해결할 수 있습니다. 이 순전파만으로 처리할 수 있는 계산 복잡도의 상한선이기도 합니다.
그리고 충분히 긴 사고 체인은 Transformer의 표현 능력을 TC0 이상으로 확장할 수 있습니다.
그리고 대형 모델의 경우 패딩 토큰 사용법을 배우는 것이 쉽지 않으며, 융합을 위해서는 구체적인 집중 감독이 필요합니다.
단, 기존 대형 모델은 패딩 토큰 방식으로 직접적인 이익을 얻을 가능성이 낮습니다.
그러나 이것은 현재 아키텍처의 본질적인 제한이 아니며 훈련 데이터에서 충분한 데모가 제공되면 패딩 기호에서 유사한 이점을 얻을 수 있어야 합니다.
이 연구는 또한 걱정스러운 문제를 제기합니다. 대형 모델은 모니터링할 수 없는 비밀 계산을 수행할 수 있는 능력이 있어 AI의 설명 가능성과 제어 가능성에 새로운 도전을 제기합니다.
즉, AI는 인간의 경험에 의존하지 않고 사람에게 보이지 않는 형태로 스스로 추론할 수 있습니다.
신나기도 하고 무섭기도 해요.
Pictures
마지막으로 일부 네티즌들은 라마 3가 먼저 1조 개의 도트를 생성하여 AGI의 무게(개 머리)를 얻을 수 있다고 농담으로 제안했습니다.
Pictures
종이: https://www.php.cn/link/36157dc9be261fec78aeee1a94158c26
참조 링크:
[1]https://www.php.cn/link/e3501 13047 e82ceecb455c33c21ef32a [ 2]https://www.php.cn/link/872de53a900f3250ae5649ea19e5c381
위 내용은 AI는 자신의 생각과 추론을 비밀리에 숨기는 법을 배웁니다! 인간의 경험에 의존하지 않고 복잡한 작업을 해결하는 것이 더 블랙박스입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!