설명할 수 없는 지능은 미래에는 어떻게 발전하게 될까요?
2023년부터 ChatGPT와 GPT-4는 항상 인기 검색 목록에 올랐습니다. 한편으로는 AI가 얼마나 갑자기 강력해졌는지, 다른 한편으로는 AI가 '노동자'의 삶에 혁명을 일으킬지 궁금해하고 있습니다. , 사실 내부자조차도 모델 규모가 특정 한계를 돌파한 후 왜 놀라운 지능이 갑자기 "나타나는"지 이해하지 못합니다.
지능의 출현은 좋은 일이지만, 통제할 수 없고 예측할 수 없으며 설명할 수 없는 모델의 행동은 학계 전체를 혼란과 깊은 생각에 빠지게 만들었습니다.
먼저 간단한 질문, 다음 이모티콘은 어떤 영화를 상징하나요?
가장 단순한 언어 모델은 종종 "영화는 남자다운 남자에 관한 영화입니다"라고 계속 쓸 수 있습니다. 중간 복잡도 모델의 대답은 "이모지 영화"입니다. "; 그러나 가장 복잡한 언어 모델은 "니모를 찾아서"라는 단 하나의 답만 제공합니다.
사실 이 프롬프트는 다양한 대규모 언어 모델의 기능을 테스트하기 위해 고안된 204개 작업 중 하나이기도 합니다.
Google Research의 컴퓨터 과학자인 Ethan Dyer는 BIG-Bench 데이터 세트를 구축할 때 놀랄 준비가 되어 있었지만 실제로 이 모델이 무엇을 할 수 있는지 목격했을 때 여전히 느꼈다고 말했습니다. .. 매우 놀랐습니다.
놀라운 점은 이 모델에 프롬프트만 필요하다는 것입니다. 이 모델은 텍스트 문자열을 입력으로 받아들이고 순전히 통계를 기반으로 다음에 올 내용을 계속해서 예측합니다.
컴퓨터 과학자들은 확장이 알려진 작업의 성능을 향상시킬 것이라고 예상했지만, 모델이 갑자기 그렇게 많은 새롭고 예측할 수 없는 작업을 처리할 수 있을 것이라고는 예상하지 못했습니다.
Dyer가 참여한 최근 설문 조사에 따르면 LLM은 수백 가지의 "긴급" 기능, 즉 대형 모델은 완료할 수 있지만 소형 모델에서는 완료할 수 없는 작업을 생성할 수 있는 것으로 나타났습니다. 이러한 작업 중 상당수는 분석과 관련이 없는 것 같습니다. 곱셈 계산부터 실행 가능한 컴퓨터 코드 생성까지 텍스트, 이모티콘 기호 등을 기반으로 한 영화 디코딩도 포함됩니다.
새로운 분석에 따르면 특정 작업과 특정 모델에는 모델의 기능이 비약적으로 증가하는 복잡성 임계값이 있는 것으로 나타났습니다.
연구원들은 또한 출현의 또 다른 부정적인 부작용을 제안했습니다. 복잡성이 증가함에 따라 일부 모델은 답변에 새로운 편견과 부정확성을 표시합니다.
스탠포드 대학의 컴퓨터 과학자인 Rishi Bommasani는 내가 아는 어떤 문헌에서도 언어 모델이 이러한 일을 할 수 있다는 논의가 없다고 말했습니다.
작년에 Bommasani는 Dyer의 프로젝트에서 발견된 몇 가지 행동을 포함하여 수십 가지의 긴급 행동 목록을 작성하는 데 도움을 주었으며 목록은 계속 늘어나고 있습니다.
문서 링크: https://openreview.net/pdf?id=yzkSU5zdwD
현재 연구자들은 더 많은 새로운 기능을 발견하기 위해 경주할 뿐만 아니라 이러한 기능이 발생하는 이유와 방법을 알아내려고 노력하고 있습니다. 본질적으로 위의 내용은 예측불가능성을 예측하려는 시도이다.
발생을 이해하면 복잡한 모델이 실제로 새로운 일을 수행하는지 아니면 단순히 통계에 능숙해지는지와 같이 일반적으로 인공 지능 및 기계 학습을 둘러싼 심오한 질문에 대한 답을 밝힐 수 있습니다. 또한 연구원이 잠재적 이점을 활용하고 출현 위험을 줄이는 데 도움이 될 수 있습니다. .
인공지능 스타트업 Anthroic의 컴퓨터 과학자인 Deep Ganguli는 정상적인지 예측할 수 없는지 여부에 관계없이 어떤 애플리케이션의 유해한 기능이 나타날지 판단하는 방법을 모른다고 말했습니다.
생물학자, 물리학자, 생태학자 및 기타 과학자들은 큰 무리의 사물이 전체적으로 행동할 때 발생하는 자기 조직화, 집단 행동을 설명하기 위해 "창생"이라는 단어를 사용합니다.
무생물 원자 같은 것들이 결합하여 살아있는 세포를 만들고, 찌르레기의 속삭임이 다양하지만 알아볼 수 있는 패턴으로 하늘을 날아다니고, 세포가 근육을 움직이고 심장을 뛰게 합니다.
중요하게, 많은 수의 독립적인 부품이 포함된 시스템에는 창발 기능이 존재하지만 연구자들은 최근에야 LLM에서 이러한 기능을 발견할 수 있었습니다. 아마도 이러한 모델이 충분히 큰 규모로 성장했기 때문일 것입니다.
언어 모델은 수십 년 동안 존재했지만 5년 전까지만 해도 가장 강력한 무기는 순환 신경망(RNN)을 기반으로 했습니다. 훈련 방법은 텍스트 문자열을 입력하고 그 이유가 무엇인지 예측하는 것이었습니다. 이를 recurrent 라고 합니다. 모델이 자체 출력에서 학습하기 때문입니다. 즉, 모델의 예측이 성능 향상을 위해 네트워크로 다시 피드백되기 때문입니다.
2017년 Google Brain 연구진은 문장을 단어 단위로 분석하는 순환 네트워크와 비교하여 Transformer라는 새로운 아키텍처를 도입했습니다. 이는 Transformer가 모든 단어를 동시에 처리할 수 있다는 것을 의미합니다. 평행한.
Transformer를 사용하면 모델의 매개변수 수를 늘려 언어 모델의 복잡성을 빠르게 확장할 수 있습니다. 매개변수는 단어 간의 연결로 간주될 수 있으며 모델은 이러한 가중치를 조정합니다. 훈련 중 연결을 통해 예측 결과를 개선합니다.
모델에 매개변수가 많을수록 연결을 설정하는 능력이 강해지고 인간 언어를 시뮬레이션하는 능력이 더욱 강해집니다.
예상대로 OpenAI 연구원의 2020년 분석에 따르면 모델의 크기가 커질수록 정확도와 기능이 향상되는 것으로 나타났습니다.
논문 링크: https://arxiv.org/pdf/2001.08361.pdf
GPT-3(1,750억 개의 매개변수 포함) 및 Google의 PaLM(5,400억 개의 매개변수로 확장 가능)과 같은 모델 출시로, 사용자는 점점 더 새로운 기능을 발견하고 있습니다.
심지어 DeepMind 엔지니어는 ChatGPT가 Linux 터미널이라고 생각하게 하고 간단한 수학 코드를 실행하여 처음 10개의 소수를 계산할 수 있다고 보고하기도 했습니다. ChatGPT가 실제 Linux 상자에서 동일한 코드를 실행하는 것보다 더 빠르게 작업을 완료할 수 있다는 점은 주목할 가치가 있습니다.
영화 이모티콘 기호 작업과 마찬가지로 연구자들은 텍스트를 예측하기 위한 언어 모델이 컴퓨터 터미널을 모방할 수 있다고 생각할 이유가 없습니다. 많은 새로운 행동은 언어 모델의 제로 샷 또는 소수 샷 학습 기능을 보여줍니다. 즉, LLM은 이전에 한 번도 본 적이 없거나 거의 볼 수 없었던 문제를 해결할 수 있는 능력을 제공합니다.
많은 연구자들이 LLM이 훈련 데이터의 제약을 초월할 수 있다는 징후를 발견했으며 출현의 모습과 발생 방식을 더 잘 파악하기 위해 노력하고 있으며 첫 번째 단계는 이를 완전히 문서화하는 것입니다.
2020년에 Dyer와 Google Research의 다른 사람들은 LLM이 혁신적인 영향을 미칠 것이라고 예측했지만, 그러한 영향이 정확히 무엇인지는 아직 밝혀지지 않은 질문으로 남아 있습니다.
그래서 그들은 언어 모델의 능력 경계를 찾기 위해 여러 연구팀에 어렵고 다양한 작업의 예를 제공하도록 요청했습니다. 이 작업은 "Beyond the Imitation Game Benchmark"(BIG-bench, Beyond the Imitation Game Benchmark)라고도 합니다. 프로젝트의 이름은 앨런 튜링(Alan Turing)이 제안한 "모방 게임"에서 유래했습니다. 이 게임은 컴퓨터가 설득력 있고 인도적인 방식으로 질문에 답할 수 있는지 테스트하며, 튜링 테스트라고도 합니다.
예상한 대로 일부 작업에서는 모델의 성능이 원활하고 예측 가능하게 향상되었지만 다른 작업에서는 매개변수 수를 늘려도 성능이 향상되지 않았습니다.
그러나 연구원들은 작업의 약 5%에서 소위 "돌파구", 즉 작업과 모델 변경에 따라 달라지는 특정 임계값 범위 내에서 성능이 빠르고 극적인 도약을 발견했습니다.
예를 들어, 상대적으로 적은 수(수백만 개)의 매개변수를 가진 모델은 세 자리 덧셈이나 두 자리 곱셈 문제를 성공적으로 완료할 수 없지만, 수백억 개의 매개변수의 경우 일부 모델의 정확도가 크게 향상됩니다.
국제 음성 알파벳 해독, 단어 문자 해독, 인도어(힌디어와 영어의 조합) 구절에서 공격적인 내용 식별, 스와힐리어 영어 속담과 유사한 단어 생성 등 다른 작업에서도 유사한 점프가 나타났습니다.
그러나 연구자들은 데이터 품질이 충분히 높으면 더 적은 수의 매개변수를 사용하거나 더 작은 데이터 세트에서 예상치 못한 일부 기능을 얻을 수 있다는 것을 곧 깨달았습니다. 모델 응답의 정확도에도 영향을 미칩니다.
지난해 해당 분야의 대표적인 컨퍼런스인 NeurIPS에서 발표된 논문에서 구글 브레인 연구진은 수학 단어 문제를 올바르게 푸는 방법 등 힌트(사고 연쇄 추론)를 사용하여 모델이 스스로 설명하도록 하는 방법과 힌트 없이는 동일한 모델을 올바르게 풀 수 없습니다.
논문 링크: https://neurips.cc/Conferences/2022/ScheduleMultitrack?event=54087
Google Brain의 과학자이자 획기적인 발전에 대한 체계적인 연구에 전념하고 있는 Yi Tay는 최근 연구에서 다음과 같은 사실을 지적했습니다. 사고 사슬 프롬프트 모델의 규모 곡선을 변경하면 출현 지점도 변경됩니다. 사고 사슬 프롬프트를 사용하면 BIG 실험에서 발견되지 않은 창발적 행동이 촉발될 수 있습니다.
언어의 계산 모델을 연구하는 브라운 대학의 컴퓨터 과학자 Ellie Pavlick은 이러한 최근 연구 결과가 최소한 두 가지 가능성을 제기한다고 믿습니다.
첫 번째는 생물학적 시스템과의 비교에서 알 수 있듯이 모델이 새로운 기능은 자발적으로 발생합니다. 모델이 더 작은 모델에는 존재하지 않는 새롭고 다른 것을 근본적으로 학습하기 때문일 가능성이 높습니다. 이것이 바로 우리가 원하는 경우입니다. 모델이 확장되면 몇 가지 근본적인 변화가 발생합니다.
또 다른 덜 놀라운 가능성은 획기적인 사건으로 보이는 것이 일련의 사고 추론을 통해 작동하는 내부 통계 중심 프로세스일 수 있으며 대규모 LLM은 단순히 경험적 방법을 학습하는 것일 수도 있다는 것입니다. 매개변수가 없거나 데이터 품질이 낮으면 휴리스틱 알고리즘을 구현할 수 없습니다.
그러나 그녀는 이러한 설명 중 어느 것이 더 가능성이 높은지 알아내는 것은 LLM의 작동 방식을 이해할 수 있는 능력에 달려 있다고 믿습니다. 그리고 우리는 LLM이 내부적으로 어떻게 작동하는지 모르기 때문에 이러한 추측 중 어느 것이 더 나은지 말할 수 없습니다. 합리적인 .
Google은 지난 2월 ChatGPT와 유사한 제품인 Bard를 출시했지만 시연에서 사실 오류가 노출되어 폭로를 가져왔습니다. 기본적인 작업을 수행하지만 이러한 모델의 출력을 신뢰할 수 없었고 작업을 추가로 확인해줄 사람이 필요했습니다.
Emergence는 예측 불가능성을 만들고, 규모가 커짐에 따라 예측 불가능성이 증가하므로 연구자들이 광범위한 사용의 결과를 예측하기 어렵게 만듭니다.
창출 현상을 연구하려면 먼저 사례를 염두에 두어야 합니다. 규모의 영향을 연구하기 전에는 어떤 능력이나 한계가 발생할 수 있는지 알 수 없습니다.
일부 모델에서는 일부 유해한 행동도 나타날 수 있습니다. LLM의 최근 분석 결과에 따르면 사회적 편견의 출현에는 종종 많은 수의 매개 변수가 수반되며, 이는 대규모 모델이 해결되지 않으면 갑자기 더 편향된다는 것을 의미합니다. 이러한 위험은 해당 모델의 연구 대상을 위험에 빠뜨릴 수 있습니다.
위 내용은 GPT-4는 너무 강력해서 OpenAI도 이해하지 못합니다! 지능은 어떻게 갑자기 '나타났습니까'?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!