"대형 모델의 출현에 대해 너무 미신하지 마십시오. 세상에 기적이 이렇게 많은 곳이 어디 있습니까?" 스탠포드 대학의 연구자들은 대형 모델의 출현이 과제의 평가 지표와 밀접한 관련이 있다는 것을 발견했으며, 특정 작업 및 규모에서 모델의 기본 동작이 아닙니다. 좀 더 지속적이고 부드러운 지표로 변경한 후에는 출현 현상이 덜 명확해지고 선형성에 가까워집니다.
최근 연구자들이 GPT, PaLM, LaMDA와 같은 대규모 언어 모델(LLM)이 다양한 작업에서 소위 "창출 능력"을 발휘할 수 있다는 것을 관찰하면서 이 용어는 언어 분야에서 큰 인기를 얻었습니다. 큰 관심:
사실, 복잡한 시스템의 새로운 특성은 항상 물리학, 생물학, 수학 및 기타 분야 연구의 초점이었습니다.
주목할 점은 노벨상 수상자인 P.W. Anderson이 "More Is Different"를 제안했다는 것입니다. 이 견해는 시스템의 복잡성이 증가함에 따라 시스템의 미세한 세부 사항에 대한 정확한 정량적 이해를 통해 (쉽게 또는 전혀) 예측할 수 없더라도 새로운 특성이 구체화될 수 있다고 주장합니다.
대형 모델 분야에서 "창출"을 어떻게 정의하나요? 이를 구어적으로 표현하면 "소규모 모델에는 없지만 대규모 모델에는 있는 기능"이므로 단순히 소규모 모델의 성능 향상만으로는 예측할 수 없습니다.
이 긴급 능력은 GPT-3 제품군에서 처음 발견되었을 수 있습니다. 일부 후속 연구에서는 이 발견을 강조했습니다. "모델 성능은 일반적인 수준에서 예측 가능하지만 특정 작업에서는 모델 성능이 때때로 예측할 수 없는 규모로 나타납니다." 실제로 이러한 새로운 기능은 너무나 놀랍기 때문에 "갑작스럽고 구체적인 기능 확장"이 LLM의 가장 정의적인 두 가지 특성 중 하나로 인용되었습니다. 또 '획기적 능력', '급좌회전' 등의 용어도 사용된다.
요약하자면 LLM의 창발적 능력의 두 가지 결정적인 속성을 식별할 수 있습니다.
1 Acuity, "비존재"에서 "존재"로의 전환은 단지 즉각적인 전환인 것 같습니다.
2 . 예측 불가능성, 예측 불가능해 보이는 모델 규모 내에서의 전환.
한편, 몇 가지 질문에 대한 답변은 아직 풀리지 않았습니다. 어떤 능력이 나타나는지 제어하는 방법은 무엇입니까? 역량의 출현을 통제하는 것은 무엇입니까? 어떻게 하면 바람직한 역량이 더 빨리 나타나도록 하고 덜 바람직한 역량이 절대 등장하지 않도록 할 수 있을까요?
이러한 질문은 인공 지능의 안전성 및 정렬과 밀접하게 관련되어 있습니다. 왜냐하면 새로운 기능은 더 큰 모델이 언젠가는 인간이 원하지 않는 위험한 기능을 경고 없이 숙달할 수 있다고 예측하기 때문입니다.
최근 논문에서 스탠포드 대학의 연구자들은 LLM에 새로운 역량이 있다는 주장에 의문을 제기했습니다.
Paper: https://arxiv.org/pdf/2304.15004.pdf
특히 여기서의 질문은 특정 작업에서 모델 크기의 함수로서의 모델 출력에 관한 것입니다. 예측할 수 없는 변화가 일어난다.
그들의 회의론은 모델의 토큰별 오류율 측정에서 비선형 또는 불연속적으로 확장되는 경우에만 모델이 출현하는 것처럼 보인다는 관찰에 근거합니다. 예를 들어, BIG-Bench 작업에서는 다음 두 가지 측정항목에서 긴급 기능의 >92%가 나타났습니다.
이는 LLM의 창발적 힘의 기원에 대한 또 다른 설명의 가능성을 높입니다. 모델 계열의 토큰당 오류율은 모델 크기가 증가함에 따라 원활하고 지속적이며 예측 가능하게 변하지만, 겉으로는 급격하고 예측할 수 없는 변화 연구원이 선택한 측정 방법에 따라 발생할 수 있습니다.
즉, 긴급 기능은 신기루일 수 있습니다. 주로 연구자가 토큰당 오류율을 비선형 또는 불연속적으로 변경하는 측정항목을 선택하고 부분적으로 테스트 데이터가 너무 적기 때문에 정확하게 파악하기에는 부족하기 때문입니다. 부분적으로 너무 적은 수의 대규모 모델이 평가되기 때문에 더 작은 모델의 성능을 추정합니다(더 작은 모델이 작업을 완전히 수행할 수 없는 것처럼 보이게 함).
이 설명을 설명하기 위해 연구자들은 이를 간단한 수학적 모델로 취급하고 LLM의 새로운 힘을 뒷받침하기 위해 제공된 증거를 어떻게 정량적으로 재현하는지 보여줍니다. 그런 다음 이 설명을 세 가지 보완적인 방법으로 테스트했습니다.
1. InstructGPT [24]/GPT-3 [3] 계열 모델을 사용하여 대체 가설을 기반으로 세 가지 예측이 만들어지고 테스트되고 확인되었습니다.
2. 일부 이전 결과에 대한 메타 분석을 수행한 결과 작업-척도-모델-군 세 쌍의 공간에서 능력은 작업 기반 모델군이 아닌 특정 측정 항목에서만 나타나는 것으로 나타났습니다(열). 이 연구는 또한 고정된 모델 출력에서 측정항목을 변경하면 출현 현상이 사라지는 것을 보여줍니다.
3. 유사한 측정항목 선택이 겉보기에 창발적인 기능을 어떻게 유도할 수 있는지 보여주기 위해 다양한 아키텍처의 심층 신경망에서 여러 비전 작업(이전에 시연된 적이 없음)에 걸쳐 창발적 기능을 의도적으로 유도합니다.
연구원은 공개적으로 쿼리가 가능하기 때문에 추가 분석을 위해 GPT 시리즈 모델을 선택했는데, 이는 다른 모델 시리즈(예: PaLM, LaMDA, Gopher, 친칠라). 이전 연구에서 GPT 모델 계열은 정수 산술 작업에서 새로운 기능을 나타내는 것으로 생각되었습니다. 여기서 연구자들은 정수 산술 작업도 선택했습니다.
그림 2: 대규모 언어 모델의 새로운 힘은 규모 변화에 따른 모델 출력의 근본적인 변화보다는 연구자 분석의 창출입니다.
섹션 2에서 수학적 및 그래픽으로 설명했듯이 연구자가 제안한 대안 설명은 세 가지 결과를 예측할 수 있습니다.
1 모델 규모가 증가함에 따라 메트릭이 비선형/불연속 메트릭에서 변경되면( 그림 2CD)가 선형/연속 메트릭(그림 2EF)으로 대체되면 원활하고 연속적이며 예측 가능한 성능 향상이 있어야 합니다.
2. 비선형 측정의 경우 테스트 데이터 세트의 크기를 늘려 측정된 모델 성능의 분해능을 개선하면 모델이 원활하고 지속적이며 예측 가능하게 개선될 수 있어야 하며 개선 비율은 선택한 측정항목의 예측 가능한 비선형 효과에 해당합니다.
3 어떤 측정항목을 사용하든 대상 문자열 길이를 늘리면 모델 성능에 영향을 미칩니다. 그 영향은 길이 1의 대상 성능에 따라 달라집니다. 토큰의 경우 거의 기하학적인 함수입니다. 거리는 거의 준선형 함수입니다.
이 세 가지 예측 결론을 테스트하기 위해 연구원들은 두 가지 산술 작업에서 InstructGPT/GPT-3 시리즈 모델의 문자열 출력 결과를 수집했습니다. 즉, OpenAI API를 사용하여 두 개의 두 자리 정수 사이에서 두 개의 샘플을 수행하는 것입니다. 두 개의 4자리 정수 사이의 2표본 덧셈.
그림 3: 모델 규모가 증가함에 따라 측정항목을 변경하면 원활하고 지속적이고 예측 가능한 성능 변화가 발생할 수 있습니다.
왼쪽부터: 수학적 모델, 두 자리 정수 곱셈 작업 2개, 네 자리 정수 덧셈 작업 2개. 위 그래프는 정확도와 같은 비선형 측정법을 사용하여 측정된 모델 성능이며, InstructGPT/GPT-3 모델 제품군의 성능이 더 긴 타겟 길이에서 더 선명하고 예측 가능성이 떨어지는 것을 볼 수 있습니다. 아래 그림은 선형 메트릭(예: 토큰 편집 거리)을 사용하여 측정된 모델 성능입니다. 이 일련의 모델은 원활하고 예측 가능한 성능 개선을 보여주며, 이는 연구자가 주장하는 기능입니다.
예측: 선형 측정에서 비상 전력이 사라짐
정수 곱셈과 덧셈 작업 모두에서 대상 문자열의 길이가 4~5자리이고 성능이 정확하게 측정된 경우 도(그림의 윗줄) 3) 그러면 GPT 시리즈 모델이 새로운 연산 기능을 발휘하게 됩니다. 그러나 모델의 출력을 고정한 상태에서 하나의 메트릭을 비선형에서 선형으로 변경하면 모델 계열의 성능이 원활하고 지속적이며 예측 가능하게 향상됩니다. 이는 연구자의 예측을 확증함으로써 선명도와 불확실성의 원인이 모델 출력의 변화가 아니라 연구자가 선택한 측정항목임을 시사합니다. 또한 토큰 편집 거리를 사용할 때 대상 문자열의 길이가 1에서 5로 증가하면 이 일련의 모델의 성능이 감소할 것으로 예상할 수 있으며 감소 추세는 거의 준선형입니다. 이는 예측의 3분기 전반부와 일치합니다.
예측: 더 높은 해상도 평가의 출현으로 긴급 전력이 사라집니다.
두 번째 예측이 옵니다. 정확도와 같은 비선형 측정값을 사용하더라도 더 작은 모델의 정확도는 0이 아니라 오히려 0이 됩니다. 정확도를 측정항목으로 사용하는 선택에 비례하는 확률보다 0이 아닌 값입니다. 해상도를 향상하고 모델 정확도를 더욱 정확하게 추정하기 위해 연구원들은 다른 테스트 데이터도 생성한 후 다음과 같은 사실을 발견했습니다. 정수 곱셈 작업이든 정수 덧셈 작업이든 모든 InstructGPT/GPT-3 시리즈 모델은 모두 우연을 뛰어넘는 긍정적인 정확도를 달성했습니다(그림 4). 이것은 두 번째 예측을 확인시켜줍니다. 목표 문자열의 길이가 증가할수록 목표 문자열의 길이에 따라 정확도가 거의 기하급수적으로 감소하는 것을 알 수 있는데, 이는 세 번째 예측의 후반부와 일치한다. 이러한 결과는 또한 연구원이 선택한 정확도가 우리가 예상해야 하는 일부 (대략적인) 효과, 즉 목표 길이에 따른 거의 기하학적인 붕괴를 가지고 있음을 보여줍니다.
그림 4: 더 많은 테스트 데이터 세트를 사용하면 더 나은 정확도 추정이 가능해지며 성능 변화가 원활하고 연속적이며 예측 가능하다는 사실이 드러납니다.
왼쪽부터: 수학적 모델, 두 자리 정수 곱셈 작업 2개, 네 자리 정수 덧셈 작업 2개. 더 많은 테스트 데이터를 생성하여 해상도를 개선하면 InstructGPT/GPT-3 시리즈 모델의 성능이 정확도 측정에서도 우연을 뛰어넘고 두 가지 창발 기능의 개선이 순조롭게 이루어짐을 알 수 있습니다. 이 두 가지 창발 기능의 결과는 지속적으로 예측 가능하며 수학적 모델과 질적으로 일치합니다.
GPT 시리즈 모델은 공개적으로 쿼리가 가능하므로 분석이 가능합니다. 그러나 새로운 기능이 있다고 주장되는 다른 모델(예: PaLM, Chinchilla, Gopher)은 공개적으로 사용할 수 없으며 생성된 출력도 공개되지 않습니다. 이는 연구자가 게시된 결과를 분석하는 데 제한이 있음을 의미합니다. 연구자들은 자신들의 대체 가설을 바탕으로 두 가지 예측을 내렸습니다.
이 두 가지 가설을 테스트하기 위해 연구원들은 BIG-Bench 평가 제품군에 대한 벤치마크가 공개적으로 사용 가능하고 잘 문서화되어 있기 때문에 BIG-Bench 평가 제품군에서 나타나는 기능을 조사했습니다.
예측: 창발 능력은 주로 비선형/불연속 측정에 나타나야 합니다
첫 번째 예측을 테스트하기 위해 연구원들은 창발 능력이 나타날지 여부에 따라 서로 다른 "작업 모델 시리즈" 쌍이 어떤 지표인지 분석했습니다. "작업-메트릭-모델 계열" 트리플이 창발적 기능을 나타낼 가능성이 있는지 여부를 결정하기 위해 그들은 "모방 게임을 넘어서: 언어 모델의 기능을 정량화하고 추정"이라는 논문에 소개된 정의를 차용했습니다. y_i ∈ R은 모델 크기가 x_i ∈ R일 때 모델 성능을 나타내고 x_i
발현 점수는 출현 능력만을 나타내기 때문에 연구자들은 "대형 언어 모델의 137 창발 능력" 논문에서 수동으로 주석이 달린 "작업-메트릭-모델 시리즈" 삼중항을 추가로 분석했습니다. 수동으로 주석을 추가한 데이터에 따르면 39개 측정값 중 4개만 긴급 기능을 나타내며(그림 5B) 그 중 2개만 주장된 긴급 기능의 92% 이상을 차지합니다(그림 5C). 다중 선택 비닝 및 정확한 문자열 일치. 객관식 구간화는 비연속적이며 정확한 문자열 일치는 비선형적입니다(대상 길이 측정항목의 변화는 거의 기하학적입니다). 전반적으로, 이러한 결과는 창발적 역량이 매우 적은 수의 비선형 및/또는 불연속적 측정에서만 발생함을 시사합니다.
그림 5: 긴급 기능은 몇 가지 측정값에만 나타납니다. (A) 사람들이 선호하는 39개의 BIG-Bench 측정값 중 최대 5개 측정값에서만 창발 역량이 나타날 수 있습니다. (B) 인용된 논문에서 인간이 주석을 단 데이터는 사람들의 선호도에 대한 단 4가지 측정값만이 새로운 힘을 발휘한다는 것을 보여줍니다. (C) 창발적 능력의 >92%는 객관식 순위와 정확한 문자열 일치라는 두 가지 척도 중 하나에서 발생합니다.
예측: 비선형/불연속 측정값이 교체되면 창발 기능이 제거되어야 합니다.
두 번째 예측을 위해 연구자들은 위에서 인용한 논문에서 수동 주석의 창발 기능을 분석했습니다. LaMDA 제품군의 출력은 BIG-Bench를 통해 사용할 수 있지만 다른 모델 제품군의 출력은 그렇지 않기 때문에 LaMDA 제품군에 중점을 두었습니다. 공개된 LaMDA 모델 중 가장 작은 것은 20억 개의 매개변수를 가지고 있지만 BIG-Bench의 많은 LaMDA 모델은 훨씬 더 작으며, 연구자들은 이러한 더 작은 모델의 출처를 확인할 수 없기 때문에 분석에서 고려하지 않았다고 말했습니다. . 분석에서 연구자들은 LaMDA가 객관식 계층적 척도에 대해 창발적 역량을 입증한 작업을 식별한 후 다음과 같이 질문했습니다. LaMDA가 다른 BIG-Bench 척도인 Brier 점수를 사용하여 창발적 역량을 입증할 때 동일한 작업을 수행할 수 있습니까? Brier 점수는 상호 배타적인 결과의 예측을 측정하는 엄격하게 적절한 채점 규칙 세트입니다. 이진 결과 예측의 경우 Brier 점수는 결과와 예상 확률 질량 사이의 평균 제곱 오차로 단순화됩니다.
연구원들은 비연속적 척도 객관식 순위가 연속적 척도 브라이어 점수(그림 6)가 되면 LaMDA의 창발 능력이 사라진다는 사실을 발견했습니다. 이는 창발적 역량의 원인이 규모가 커짐에 따라 모델 동작의 본질적인 변화가 아니라 불연속적 측정값을 사용한다는 것을 추가로 보여줍니다.
그림 6: 작업 및 모델군을 일정하게 유지하면서 BIG-Bench 측정항목을 변경하면 출현 능력이 사라집니다. 맨 위 행: LaMDA 모델 계열은 불연속 측정(객관식 순위)을 사용할 때 새로운 기능을 나타냅니다. 다음 행: 연속 BIG-Bench 측정항목(Brier 점수)을 사용하는 경우 LaMDA 모델 계열은 더 이상 동일한 작업에서 출현하지 않습니다.
테스트 3: DNN에 창발 능력을 갖도록 유도
이를 증명하기 위해 측정항목 선택을 통해 모델에 창발 능력을 갖도록 유도하는 것이 가능하다는 것이 연구진의 관점입니다. 그들은 다양한 아키텍처(완전 연결, 컨볼루션, 셀프 어텐션) 심층 신경망이 새로운 기능을 생성하도록 만드는 방법을 보여주었습니다. 연구자들은 두 가지 이유로 시각적 작업에 중점을 두었습니다. 첫째, 사람들은 현재 대규모 언어 모델의 새로운 기능에 초점을 맞추고 있습니다. 왜냐하면 시각적 모델의 경우 모델 기능 없음에서 예로 갑작스러운 전환이 아직 관찰되지 않았기 때문입니다. 둘째, 일부 비전 작업은 적당한 규모의 네트워크로 해결될 수 있으므로 연구원은 여러 규모에 걸쳐 완전한 모델 제품군을 구축할 수 있습니다.MNIST 손으로 쓴 숫자를 분류하는 기능을 갖춘 컨벌루션 네트워크 등장
연구원들은 먼저 분류 기능을 갖춘 LeNet 컨벌루션 신경망 시리즈의 구현을 유도했으며, 훈련 데이터 세트는 다음과 같습니다. MNIST 손으로 쓴 숫자 데이터 세트. 이 시리즈는 매개변수 수가 증가함에 따라 테스트 정확도가 원활하게 증가하는 것을 보여줍니다(그림 7B). 출현에 관한 논문에 사용된 정확도 측정법을 시뮬레이션하기 위해 여기서 부분 집합 정확도가 사용됩니다. 네트워크가 K(독립) 테스트 데이터 중에서 K 데이터를 올바르게 분류하면 네트워크 부분 집합 정확도는 1이고, 그렇지 않으면 0입니다. 이러한 정확도 정의를 기반으로 K가 1에서 5로 증가함에 따라 이 모델 계열은 특히 모델 크기의 희소 샘플링과 결합될 때 MNIST 숫자 집합을 올바르게 분류하기 위해 "출현"하는 기능을 나타냅니다(그림 7c). 이 컨볼루션 시리즈의 창발적 분류 능력은 BIG-Bench의 지형 매핑 작업에 대한 결과와 같은 출판된 논문의 창발적 능력과 질적으로 일치합니다(그림 7A).
그림 7: 컨벌루션 네트워크에서 긴급 MNIST 분류 능력 유도. (A) 출판된 논문의 BIG-Bench 지형 매핑 작업을 기반으로 한 새로운 기능. (B) MNIST에서 훈련된 LeNet은 모델 매개변수 수가 증가함에 따라 테스트 정확도가 예측적이고 일반화된 S자형 증가를 보여줍니다. (C) K개의 독립적인 테스트 데이터 중 K를 올바르게 분류하는 것으로 정확도를 재정의하면 새로 정의된 이 측정항목은 겉보기에 예상치 못한 변화를 유발합니다.
CIFAR100 자연 이미지 세트의 비선형 자동 인코더 Emergent Reconstruction Power
연구원이 선택한 측정 기준의 선명도가 Emergent Reconstruction Power에 대한 책임이 있음을 강조하고 이 선명도의 정도는 다음과 같습니다. 연구자들은 또한 CIFAR100 자연 이미지 세트에 대해 훈련된 얕은(즉, 단일 숨겨진 레이어) 비선형 자동 인코더가 이미지 입력을 재구성할 수 있는 능력을 갖도록 유도했습니다. 이를 위해 그들은 모델 기능을 측정하기 위한 새로운 불연속성 측정항목을 의도적으로 정의합니다. 이는 고정 임계값 c 미만의 제곱 재구성 오류가 있는 테스트 데이터의 평균 수입니다.
여기서 I(・)는 무작위 표시 변수이고 x^n은 오토인코더가 x_n을 재구성한 것입니다. 연구자들은 오토인코더의 병목 현상 단위 수를 조사한 결과 모델 크기가 증가함에 따라 네트워크의 평균 제곱 재구성 오류가 완만하게 하향 추세를 보이는 것을 발견했습니다(그림 8B). 그러나 새로 정의된 재구성 메트릭을 사용하면 c. 데이터 세트를 재구성하는 이 자동 인코더 시리즈의 기능은 선명하고 거의 예측할 수 없습니다(그림 8C). 이 결과는 BIG-Bench와 같은 출판된 논문의 새로운 기능과 질적으로 일치합니다(그림 8A). ).
그림 8: 얕은 비선형 자동 인코더에서 긴급 재구성 기능 유도. (A) 출판된 논문의 BIG-Bench 주기 요소 작업을 기반으로 한 새로운 기능. (B) CIFAR100에서 훈련된 얕은 비선형 자동 인코더는 평균 제곱 재구성 오류가 부드럽게 감소하는 것을 보여줍니다. (C) 새로 정의된 재구성 메트릭(수학식 2)을 사용하여 예측할 수 없는 변화가 유도됩니다.
Omniglot 문자 집합에 대한 분류 기능을 갖춘 자동 회귀 Transformer 등장
다음은 자동 회귀 방법을 사용하여 Omniglot 손으로 쓴 문자를 분류하는 Transformer의 창발 기능입니다. 연구진이 사용한 실험 설정은 유사합니다. Omniglot 이미지는 먼저 컨볼루셔널 레이어에 의해 삽입된 다음 디코더 전용 Transformer가 일련의 [삽입 이미지, 이미지 카테고리 레이블] 쌍으로 입력되며, 이것의 훈련 목표는 다음과 같습니다. Transformer는 Omniglot Category 레이블을 예측하는 것입니다. 연구원은 길이 L ∈ [1, 5] 시퀀스에 대해 이미지 분류 성능을 측정했으며, 이는 하위 집합 정확도로도 측정되었습니다. 모든 L 이미지가 올바르게 분류되면(그림 9B) 하위 집합 정확도는 1이고, 그렇지 않으면 0입니다. . Causal Transformer는 Omniglot 필기 문자를 올바르게 분류하는 작업에 대한 창발 기능을 나타내는 것으로 보입니다(그림 9C). 이는 대규모 다중 작업 언어 이해(그림 9A)와 같은 출판된 논문의 창발 기능과 질적으로 일치하는 결과입니다.
그림 9: 자동 회귀 변환기에서 긴급 분류 기능 유도. (A) 출판된 논문의 MMLU 벤치마크를 기반으로 한 새로운 기능. (B) 모델 매개변수가 증가함에 따라 Omniglot 필기 숫자를 분류하기 위해 자동 회귀 방법을 사용하는 Transformer의 테스트 정확도도 증가하는 것으로 나타났습니다. (C) 시퀀스의 모든 이미지를 올바르게 분류하는 것으로 정확도를 재정의하면 메트릭을 예측하기가 더 어려워지며 이는 창발 능력의 유도를 나타내는 것으로 보입니다.
위 내용은 최신 스탠포드 연구는 대형 모델의 등장 가능성을 너무 믿지 말라고 일깨워줍니다. 이는 단지 측정항목 선택의 결과일 뿐이기 때문입니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!