AlphaGo가 2016년 바둑에서 인간을 이긴 이후 DeepMind 과학자들은 강력한 일반 인공 지능 알고리즘을 탐구하기 위해 노력해 왔으며 Oriol Vinyals도 그중 하나입니다.
Vinyals는 2016년 DeepMind에 합류하여 현재 딥러닝 그룹을 이끄는 수석 과학자입니다. 이전에는 Google Brain에서 근무했습니다. 그의 박사 학위는 University of California, Berkeley에서 받았으며 2016년 MIT TR35 Innovator Award를 수상했습니다. seq2seq, 지식 증류 및 TensorFlow에 대한 그의 연구 결과는 Google 번역, 텍스트 음성 변환, 음성 인식과 같은 제품에 적용되었습니다. 그의 글은 16만회 이상 인용됐다.
최근 Oriol Vinyals는 Lex Fridman의 팟캐스트에 게스트로 출연하여 딥 러닝, 일반 에이전트 Gato, 메타 학습, 신경 네트워크, AI 의식 및 기타 방향에 대한 그의 견해를 이야기했습니다. Vinyals는 다음과 같이 믿습니다.
1. Universal Algorithm
Fridman: AI 시스템이 우리 생애에 구축되어 이 대화에서 우리를 대체할 수 있을까요? 면접관인가, 면접대상자인가?Vinyals: 제가 묻고 싶은 것은, 우리가 그걸 이루고 싶은 걸까요? 우리가 매우 강력한 모델을 사용하고 있다는 사실을 알게 되어 기쁘고 그들이 우리에게 점점 더 가까워지고 있다는 느낌이 듭니다. 하지만 문제는 대화에서 인간적인 측면이 없어도 여전히 흥미로운 인공물이 될 수 있느냐는 것입니다. 아마도 그렇지 않을 것입니다. 예를 들어, 스타크래프트에서는 에이전트를 만들어 게임을 플레이하고 자신과 경쟁할 수 있지만 궁극적으로 사람들이 관심을 갖는 것은 경쟁자가 인간일 때 에이전트가 어떻게 행동하느냐입니다.
그러므로 AI와 함께라면 우리는 더욱 강해질 것이라는 데에는 의심의 여지가 없습니다. 예를 들어, AI 시스템에서 매우 흥미로운 문제를 필터링할 수 있습니다. 언어 분야에서는 이를 "테리 피킹(Terry Picking)"이라고 부르기도 합니다. 마찬가지로, 지금 이와 같은 도구가 있다면 흥미로운 질문을 하고 특정 시스템이 답변을 구성하기 위해 몇 가지 단어를 선택하겠지만, 그것은 나에게 별로 흥미롭지 않습니다.
Fridman: 사람들을 자극하는 것 자체가 이 시스템의 목적 기능의 일부라면 어떨까요?Vinyals: 게임에서 알고리즘을 설계할 때 보상 함수를 목표로 작성할 수 있습니다. 하지만 이를 측정하고 최적화할 수 있다면 무엇이 흥미로운가요? 이것이 아마도 우리가 비디오 게임을 하고, 온라인으로 교류하고, 고양이 비디오를 보는 이유일 것입니다. 실제로 강화 학습에 사용되는 명백한 보상 기능 이상의 보상을 모델링하는 것은 매우 흥미롭습니다.
또한 AI는 특정 측면에서 몇 가지 중요한 발전을 이루었습니다. 예를 들어 인터넷에서의 수용 여부를 기반으로 대화나 정보를 신뢰할 수 있는지 평가할 수 있습니다. 그런 다음 자동으로 기능을 학습할 수 있다면 더 쉽게 최적화할 수 있으며 흥분과 같은 덜 분명한 정보에 대해 최적화하기 위한 대화를 나눌 수 있습니다. 적어도 하나의 측면이 전적으로 흥분성 보상 기능에 의해 구동되는 시스템을 구축하는 것은 흥미로울 것입니다. 하지만 분명히 시스템에는 여전히 시스템 구축자의 인간적 요소가 많이 포함되어 있고 흥분의 레이블은 우리에게서 오기 때문에 흥분을 계산하기가 어렵습니다. 내가 아는 한 아직까지 이런 일을 한 사람은 없습니다.
Fridman: 어쩌면 시스템에도 강한 정체성이 필요할 것 같아요. 기억이 있고 과거에 대한 이야기를 할 수 있을 것입니다. 사람들이 어떤 의견을 가지고 있는지, 특정 의견과 관련된 흥분에 대한 데이터가 인터넷에 많이 있기 때문에 논쟁의 여지가 있는 의견으로부터 배울 수 있습니다. 시스템은 더 이상 문법과 사실성을 최적화하지 않고 문장의 인간적 일관성을 최적화하는 무언가를 생성할 수 있습니다.Vinyals: 신경망, 인공 지능 개발자의 관점에서 볼 때 일반적으로 이야기한 많은 흥미로운 주제를 벤치마크에 매핑한 다음 이러한 시스템이 현재 어떻게 구축되고 있는지에 대한 질문에 매핑하려고 합니다. 어떻게 학습의 실제 아키텍처에서, 어떤 데이터로부터 학습하고, 무엇을 배울 것인지 여기서 우리가 이야기할 것은 수학적 함수의 무게입니다.
현재 게임 상태에서 두려움과 같은 삶의 경험을 얻으려면 무엇이 필요합니까? 언어 측면에서는 현재 진행 상황이 거의 보이지 않습니다. 왜냐하면 우리가 지금 하고 있는 일은 막대한 양의 온라인 인간 상호 작용을 통해 단어, 문자, 이미지, 소리, 양식 등의 문자열로 구성된 시퀀스를 추출하는 것이기 때문입니다. 이러한 시퀀스를 볼 가능성을 최대화하기 위해 신경망을 통해 함수를 학습하려고 합니다.
현재 이러한 모델을 교육하는 방법 중 일부는 귀하가 말하는 기능을 개발할 수 있기를 바랍니다. 그 중 하나는 에이전트나 모델의 수명주기인데, 모델은 이를 오프라인 데이터로부터 학습하므로 수동적으로 관찰하고 극대화할 뿐입니다. 인간 상호작용 데이터가 도처에 있는 산악 지형과 마찬가지로, 데이터가 없는 곳에서는 가중치를 높이고, 가중치를 낮추십시오. 모델은 일반적으로 스스로를 경험하지 않으며 단지 데이터를 수동적으로 관찰하는 역할을 합니다. 그런 다음 상호 작용하면서 데이터를 생성하게 하지만 이로 인해 가중치를 최적화하거나 추가로 최적화하는 동안 실제로 경험할 수 있는 경험이 크게 제한됩니다. 하지만 우리는 아직 그 단계에도 도달하지 못했습니다.
AlphaGo와 SlphaStar에서는 모델을 배포하고 인간과 경쟁하거나 인간(예: 언어 모델)과 상호 작용하여 모델을 훈련시킵니다. 그들은 지속적으로 훈련받지 않고, 데이터에서 학습된 가중치를 기반으로 학습하지 않으며, 지속적으로 자신을 향상시키지 않습니다.
그러나 신경망에 대해 생각해 보면 엄밀한 의미에서 뉴런이 상호 연결되는 방식 및 우리가 평생 동안 학습하는 방식과 관련된 가중치 변화로부터 학습하지 못할 수도 있다는 것은 이해할 수 있습니다. 그러나 이러한 시스템과 대화할 때 대화의 맥락은 기억 속에 존재합니다. 이는 컴퓨터를 부팅하고 하드 드라이브에 많은 정보가 있으면 모든 정보가 포함된 인터넷에도 접속할 수 있는 것과 같습니다. 우리가 행위자의 희망으로 여기는 기억도 있다.
현재 저장 공간은 매우 제한되어 있습니다. 현재 우리가 가지고 있는 단어는 약 2,000개 정도이며, 그 이상으로 우리는 본 것을 잊어버리기 시작하므로 단기적인 연속성이 있습니다. 에이전트에 일관성이 있는 경우 "이름이 무엇입니까?"라고 묻는 경우 해당 문장은 기억할 수 있지만 2,000단어가 넘는 문맥은 잊어버릴 수 있습니다.
기술적으로 말해서 사람들이 딥러닝에서 기대할 수 있는 것에는 한계가 있습니다. 그러나 우리는 벤치마크와 기술이 지속적으로 메모리 경험을 축적할 수 있기를 바라며 오프라인 학습은 분명히 매우 강력합니다. 우리는 먼 길을 왔고, 이러한 모방의 힘이나 세상에 대한 이러한 기본적인 것들을 가중치로 두는 인터넷 규모를 다시 보았지만 경험이 부족합니다.
사실 우리는 시스템과 대화할 때 기억이 영향을 받지 않는 한 시스템을 훈련시키지도 않습니다. 그것이 역동적인 부분이지만 그들은 여러분과 제가 태어날 때부터 배우는 것과 같은 방식으로 배우지 않습니다. 그래서 귀하의 질문에 대해 제가 여기서 말하고 싶은 점은 기억과 경험이 단지 세상에 대해 관찰하고 배우는 것과는 다르다는 것입니다.
내가 보는 두 번째 문제는 우리가 이 모든 모델을 처음부터 훈련하고 있다는 것입니다. 모델을 처음부터 훈련하지 않고 처음부터 영감을 얻지 못한다면 뭔가가 빠질 것 같습니다. 우주의 다른 많은 요소가 이전 반복을 통해 구축되는 동안 몇 달에 한 번씩 모델을 종처럼 훈련할 수 있는 방법이 있어야 합니다. 순수한 신경망 관점에서 볼 때 이전 가중치를 폐기하지 않는 것은 어렵습니다. 데이터에서 이러한 가중치를 학습하고 업데이트합니다. 그래서 뭔가 빠진 것 같은 느낌이 들고, 결국에는 찾을 수도 있겠지만, 어떤 모습일지는 아직 명확하지 않습니다.
Fridman: 처음부터 훈련하는 것은 낭비처럼 보입니다. 거대하고 새로운 신경망 데이터베이스를 확장하면서 바둑, 체스, 스타크래프트, 단백질 접힘 문제를 해결할 때마다 가중치를 재사용할 수 있는 방법이 있어야 합니다. 그렇다면 가중치를 어떻게 재사용합니까? 일반화할 수 있는 것을 추출하고 나머지를 버리는 방법을 어떻게 배우나요? 가중치를 더 잘 초기화하는 방법은 무엇입니까?
Vinyals: 딥 러닝의 중심에는 단일 알고리즘이 모든 작업을 해결한다는 훌륭한 아이디어가 있습니다. 점점 더 많은 벤치마크가 등장하면서 이 기본 원칙은 불가능하다는 것이 입증되었습니다. 즉, 신경망의 빈 계산 두뇌와 같은 초기화가 있고 지도 학습에서 더 많은 내용을 제공합니다.
이상적인 상황은 입력이 예상되는 대로, 출력도 그대로 되어야 한다는 것입니다. 예를 들어 이미지 분류는 1000개의 카테고리 중 하나를 선택하는 것일 수 있습니다. 이것이 이미지 네트워크입니다. 이런 방식으로 많은 문제를 매핑할 수 있습니다. 또한 주어진 작업에 대해 큰 변화나 생각 없이 사용할 수 있는 일반적인 접근 방식이 있어야 하는데, 이것이 딥러닝 연구의 핵심이라고 생각합니다.
아직 알아내지 못했지만 사람들이 중요한 문제를 해결하기 위해 더 적은 수의 트릭(일반 알고리즘)을 발견할 수 있다면 흥미로울 것입니다. 알고리즘 수준에서 우리는 이미 대량의 데이터에 대해 매우 강력한 신경망 모델을 훈련하기 위한 일반적인 공식을 가지고 있습니다.
그리고 많은 경우에는 일부 실제 문제의 특수성을 고려해야 합니다. 단백질 접힘 문제는 중요하며 Transformer 모델, 그래프 신경망, NLP의 통찰력(예: BERT) 및 지식 증류와 같은 몇 가지 기본 접근 방식이 이미 있습니다. 이 공식에서 우리는 매우 중요해서 이를 해결해야 하는 단백질 접힘 문제에 고유한 것을 찾아야 하며, 잠재적으로 이 문제에서 배운 내용은 딥 러닝 연구자의 다음 반복에 적용될 것입니다.
아마도 지난 23년 동안 메타러닝 분야에서는 일반 알고리즘이 어느 정도 진전을 이루었는데, 주로 언어 분야에서 생산된 GPT-3를 중심으로 합니다. 모델은 한 번만 학습되며 언어를 번역하거나 문장의 기본 감정을 아는 데만 국한되지 않고 힌트를 통해 실제로 가르칠 수 있으며 기본적으로 더 많은 예를 보여줍니다. 우리는 언어를 통해 자극을 받으며, 언어 자체는 우리가 서로에게서 배우는 자연스러운 방법입니다. 아마도 먼저 나에게 몇 가지 질문을 한 다음 나는 이 새로운 작업을 수행해야 한다고 말할 것입니다. 처음부터 다시 학습시킬 필요는 없습니다. 우리는 언어 전용 양식으로 언어를 자극하는 몇 번의 학습을 통해 마법 같은 순간을 보았습니다.
지난 2년 동안 우리는 이것이 언어를 넘어 다른 양식으로 확장되어 시각적, 액션, 게임을 추가하고 큰 진전을 이루는 것을 보았습니다. 이는 단일 모델을 구현하는 방법일 수 있습니다. 문제는 이 모델에 무게나 용량을 추가하기가 어렵다는 점인데, 확실히 강력하다.
현재 텍스트 기반 작업이나 시각적 스타일 분류 작업에서 진전이 있었지만 더 많은 혁신이 있어야 합니다. 우리는 좋은 기준선을 갖고 있고, 그 기준선이 일반 인공지능 쪽으로 나아가기를 원하며, 커뮤니티가 그 방향으로 움직이고 있다는 것은 대단한 일입니다. 저를 흥분시키는 것은 이러한 모델을 더욱 강력하게 만들기 위한 딥 러닝의 다음 단계는 무엇입니까? 어떻게 훈련하나요? 진화해야 한다면 어떻게 "교배"될 수 있습니까? 작업을 가르칠 때 가중치를 변경해야 합니까? 아직 대답해야 할 질문이 많이 있습니다.
Fridman: 트윗에 나오는 "야옹"과 고양이 표현을 설명해 주실 수 있나요? 그리고 가토는 무엇입니까? 어떻게 작동하나요? 어떤 종류의 신경망이 관련되어 있나요? 훈련하는 방법?
Vinyals: 우선 Gato라는 이름은 DeepMind에서 출시한 다른 시리즈와 마찬가지로 동물의 이름을 따서 명명되었습니다. 대규모 시퀀스 모델은 언어로만 시작하지만 다른 양식으로 확장하고 있습니다. 고퍼(Gopher), 친칠라(Chinchilla)는 순수 언어 모델이며, 최근에는 비전을 다루는 플라밍고(Flamingo)도 출시했습니다. Gato는 시각적 및 동작 양식을 추가하여 위, 아래, 왼쪽, 오른쪽과 같은 개별 동작을 단어에서 강력한 언어 시퀀스 모델로 자연스럽게 매핑할 수 있습니다.
가토를 출시하기 전에 어떤 동물의 이름을 선택해야 할지에 대해 논의한 적이 있는데, 가장 고려해야 할 것은 가토의 독특한 속성인 '가토'가 스페인어로 '고양이'라는 뜻인 것 같아요.
가토의 기본은 다른 직업들과 다르지 않습니다. 이는 시각, 언어, 행동을 포함한 다양한 양식을 포괄하는 순환 신경망인 Transformer 모델입니다. 훈련 중 목표는 시퀀스의 다음 동작을 예측할 수 있는 것입니다. 훈련이 동작 시퀀스인 경우 다음 동작이 무엇인지 예측하는 것입니다. 문자 순서와 이미지 순서도 유사합니다. 우리는 그것들을 모두 바이트로 생각하고 모델의 임무는 다음 바이트가 무엇인지 예측하는 것입니다. 그런 다음 이 바이트를 동작으로 이해하고 이 동작을 게임에서 사용할 수도 있습니다. 시스템과 대화하는 동안 아래로 말하세요.
Gato의 입력에는 이미지, 텍스트, 비디오, 동작 및 로봇의 일부 인식 센서가 포함됩니다. 로봇도 훈련 콘텐츠의 일부이기 때문입니다. 텍스트와 액션을 출력하지만 이미지를 출력하지는 않습니다. 현재 이러한 출력 형식을 설계하고 있으므로 해야 할 작업이 더 많기 때문에 Gato가 시작이라고 말합니다. 본질적으로 Gato는 일련의 관찰과 양식을 제공하면 시퀀스의 다음 단계를 출력하는 두뇌입니다. 그런 다음 다음 항목으로 이동을 시작하고 다음 항목을 계속 예측하는 식입니다.
이제는 단순히 Chinchilla나 Flamingo처럼 Gato와 채팅을 할 수 있는 것이 아니라, StarCraft, Atari 게임, 아니면 가세요.
Fridman: 행동 양식 측면에서 "지능형 에이전트"라고 부를 수 있는 모델은 무엇인가요?
Vinyals: 제 생각에는 에이전트는 실제로 환경에서 조치를 취하는 능력입니다. 환경에 작업을 제공하여 반응하고 새로운 관찰을 반환한 후 다음 작업을 생성합니다.
우리가 Gato를 훈련시키는 방식은 데이터 세트의 다음 단어가 무엇인지 예측하도록 훈련시키는 등 대규모 모방 학습 알고리즘인 관찰 데이터 세트를 추출하는 것입니다. 우리는 웹 페이지에서 사람들이 문자 메시지를 보내고 채팅하는 데이터 세트를 가지고 있습니다.
DeepMind는 강화 학습과 다양한 환경에서 작동하는 학습 에이전트에 관심이 있습니다. 우리는 에이전트의 경험 궤적을 기록하는 데이터 세트를 개발했습니다. 우리가 훈련하는 다른 에이전트는 3차원 게임 환경 제어 및 미로 탐색과 같은 단일 목표를 위한 것이며 에이전트와 환경의 상호 작용에서 얻은 경험을 데이터 세트에 추가합니다.
Gato를 훈련할 때 우리는 훈련을 위해 단어, 에이전트와 환경 사이의 상호 작용과 같은 데이터를 혼합합니다. 이것이 Gato의 "보편성"입니다. 다양한 양식과 작업에 대해 하나의 "뇌"만 있습니다. 최근 몇 년간 대부분의 신경망과 비교하면 매개변수가 10억 개에 불과할 정도로 그렇게 크지 않습니다.
작은 크기에도 불구하고 훈련 데이터 세트는 인터넷 데이터뿐만 아니라 에이전트의 다양한 환경과의 상호 작용 경험을 포함하여 매우 까다롭고 다양합니다.
원칙적으로 Gato는 모든 환경, 특히 훈련된 비디오 게임, 다양한 로봇 작업 및 기타 환경을 제어할 수 있습니다. 그러나 그것을 가르친 교사보다 더 잘할 수는 없습니다. Gato는 여전히 상대적으로 작기 때문에 규모를 늘리면 다양한 양식 간의 시너지 효과가 향상될 수 있습니다. 그리고 데이터를 연구하거나 준비하는 몇 가지 새로운 방법이 있을 것이라고 믿습니다. 예를 들어 Atari 게임을 할 때 단순히 위아래 움직임을 고려하는 것이 아니라 에이전트가 데이터를 볼 수 있어야 한다는 점을 모델에 분명히 해야 합니다. 특정 배경에서 텍스트를 사용하여 "전체 시퀀스를 보여주고 있으며 이 게임을 시작하게 됩니다."라고 말할 수 있습니다. 따라서 텍스트는 데이터를 향상시키는 방법이 될 수 있습니다.
Fridman: 텍스트, 이미지, 게임 동작 및 로봇 작업을 토큰화하는 방법은 무엇입니까?
Vinyals: 좋은 질문입니다. 토큰화는 모든 데이터를 시퀀스로 만드는 출발점입니다. 이는 모든 것을 이러한 퍼즐 조각으로 분해한 다음 퍼즐이 어떻게 생겼는지 시뮬레이션할 수 있는 것과 같습니다. 일렬로 늘어놓으면 순서가 됩니다. Gato는 현재 표준 텍스트 토큰화 기술을 사용합니다. 예를 들어 영어에서 "ing"은 일반적으로 사용되는 하위 문자열이므로 토큰으로 사용할 수 있습니다.
Fridman: 한 단어에 몇 개의 토큰이 필요합니까?
Vinyals: 영어 단어의 경우 현재 토큰화 세분성은 일반적으로 2~5개의 기호로, 문자보다 크고 단어보다 작습니다.
Fridman: 이모티콘을 토큰화해 보셨나요?
Vinyals: 이모지는 사실 문자의 연속입니다.
Fridman: 이모티콘은 이미지인가요, 아니면 텍스트인가요?
Vinyals: 실제로 이모티콘을 문자 시퀀스에 매핑할 수 있으므로 모델에 이모티콘을 공급하면 모델이 이모티콘을 출력합니다. Gato에서 이미지를 처리하는 방식은 이미지를 다양한 강도의 픽셀로 압축하여 매우 긴 픽셀 시퀀스를 생성하는 것입니다.
Fridman: 그러면 의미론이 관련되지 않는다는 겁니까? 이미지에 대해 아무것도 이해할 필요가 없나요?
Vinyals: 예, 여기서는 압축이라는 개념만 사용됩니다. 토큰화 수준에서 우리가 하는 일은 이미지를 압축하기 위한 공통 패턴을 찾는 것입니다.
Fridman: 색상과 같은 시각적 정보는 단순한 통계가 아니라 이미지의 의미를 포착합니다.
Vinyals: 머신 러닝에서는 이미지 처리 방법이 데이터 중심적입니다. 우리는 이미지의 통계를 사용한 다음 수량화합니다. 공통 부분 문자열은 토큰으로 배치되며 이미지는 유사하지만 둘 사이에는 연결이 없습니다. 토큰을 정수로 생각하면 텍스트에 1부터 10,000까지의 10,000개의 토큰이 있고 우리가 보게 될 모든 언어와 단어를 나타낸다고 가정해 보겠습니다.
이미지는 10001부터 20000까지의 또 다른 정수 집합이며, 두 집합은 완전히 독립적입니다. 이들을 연결하는 것은 데이터이고, 데이터 세트에서 이미지 제목은 이미지의 내용을 알려줍니다. 모델은 텍스트에서 픽셀까지 예측해야 하며, 알고리즘이 학습하면서 둘 사이의 상관관계가 발생합니다. 단어와 이미지 외에도 작업에 정수를 할당하고, 이를 이산화하고, 유사한 아이디어를 사용하여 작업을 토큰으로 압축할 수도 있습니다.
이제 모든 공간 유형을 정수 시퀀스로 매핑하는 방법입니다. 각 유형은 서로 다른 공간을 차지하며 이를 연결하는 것이 학습 알고리즘입니다.
Fridman: 앞서 확장하기 어렵다고 말씀하셨는데요, 무슨 뜻인가요? 일부 출현에는 규모 임계값이 있습니다. Gato와 같은 네트워크를 확장하는 것이 왜 그렇게 어려운가요?
Vinyals: Gato 네트워크를 재교육하면 확장이 어렵지 않습니다. 요점은 우리가 이제 10억 개의 매개변수를 가지고 있다는 것입니다. 동일한 가중치를 사용하여 이것을 더 큰 뇌로 확장할 수 있습니까? 이것은 매우 어렵습니다. 그래서 소프트웨어 공학에는 모듈화라는 개념이 있고, 모듈화를 활용한 연구가 몇 가지 있었습니다. Flamingo는 작업을 처리하지 않지만 이미지 처리에는 강력하며 이러한 프로젝트 간의 작업은 서로 다르며 모듈화되어 있습니다.
우리는 Flamingo 모델에서 모듈성을 완벽하게 구현했으며 순수 언어 모델 Chinchilla의 가중치를 가져온 다음 해당 가중치를 동결하고 모델의 올바른 위치에 일부 새로운 신경망을 연결했습니다. 다른 기능을 손상시키지 않으면서 추가 기능을 추가하는 방법을 알아내야 합니다.
무작위로 초기화되지 않고 자체 감독을 통해 학습하는 작은 하위 네트워크를 만듭니다. 그런 다음 데이터 세트를 사용하여 시각적 및 언어적 두 가지 양식을 연결했습니다. 우리는 네트워크의 가장 큰 부분을 동결한 다음 훈련 위에 처음부터 몇 가지 매개변수를 추가했습니다. 그런 다음 Flamingo가 나타났고 입력은 텍스트와 이미지였으며 출력은 텍스트였습니다. 새로운 비전 작업을 가르칠 수 있고 데이터 세트 자체가 제공하는 것 이상의 작업을 수행하지만 Chinchilla에서 얻은 많은 언어 지식을 활용합니다.
이 모듈화의 핵심 아이디어는 얼어붙은 두뇌에 새로운 기능을 추가한다는 것입니다. 어느 정도 DeepMind에서도 Flamingo의 절충주의를 볼 수 있으며, 이를 통해 시스템을 처음부터 다시 교육하지 않고도 규모를 보다 합리적으로 활용할 수 있습니다.
Gato도 동일한 데이터 세트를 사용하지만 처음부터 학습됩니다. 그래서 커뮤니티의 가장 큰 질문은 처음부터 훈련해야 하는가, 아니면 모듈성을 수용해야 하는가 하는 것입니다. 모듈화는 확장 방법으로 매우 효과적입니다.
프리드먼: 가토의 등장 이후 '메타러닝'이라는 용어를 재정의할 수 있을까요? 메타러닝이 무엇이라고 생각하시나요? 5년 또는 10년 후에는 메타러닝이 확장된 Gato처럼 보일까요?
Vinyals: 앞을 보는 것보다 뒤를 돌아보는 것이 좋은 시각을 줄 수 있을 것 같아요. 2019년 메타러닝에 관해 이야기할 때, 그 의미는 GPT-3 혁명으로 대부분 바뀌었습니다. 당시 벤치마크는 물체의 정체성을 학습하는 능력에 관한 것이었기 때문에 시각과 물체 분류에 매우 적합했습니다. 우리는 ImageNet이 학습하라고 지시하는 1000가지 범주를 학습할 뿐만 아니라 모델과 상호 작용할 때 정의할 수 있는 개체 범주도 학습합니다.
모델의 진화가 흥미롭습니다. 시작하려면 작은 데이터 세트인 특수 언어가 있고 모델에 새로운 분류 작업이 필요합니다. 기계 학습 데이터세트 형태의 힌트를 통해 우리는 객체를 정의할 때 객체를 예측하거나 분류할 수 있는 시스템을 얻습니다. 마지막으로 언어 모델은 학습자가 됩니다. GPT-3은 객체 분류와 객체 클래스 학습의 맥락에서 메타 학습의 의미에 집중할 수 있음을 보여줍니다.
이제 우리는 더 이상 벤치마크에 얽매이지 않고 자연어를 통해 모델에 몇 가지 논리적 작업을 직접 알릴 수 있습니다. 이들 모델은 완벽하지는 않지만 메타러닝을 통해 새로운 업무를 수행하고 새로운 능력을 얻고 있습니다. Flamingo 모델은 시각적 및 언어 다중 양식으로 확장되지만 기능은 동일합니다. 당신은 그것을 가르칠 수 있습니다. 예를 들어, 한 가지 새로운 기능은 숫자 사진을 찍어 숫자 연산을 가르칠 수 있다는 것입니다. 몇 가지 예를 보여주면 학습하므로 이전 이미지 분류를 훨씬 뛰어넘습니다.
이는 과거에 메타 학습이 의미했던 바를 확장한 것입니다. 메타러닝은 끊임없이 변화하는 용어입니다. 현재 진행 상황을 고려하면 다음에 무슨 일이 일어날지 기대됩니다. 아마도 5년 후에는 또 다른 이야기가 될 것입니다. 우리는 가중치 세트가 있는 시스템을 갖고 있으며 대화형 프롬프트를 통해 스타크래프트 플레이 방법을 가르칠 수 있습니다. 시스템과 대화하고, 새로운 게임을 가르치고, 게임의 예를 보여준다고 상상해 보세요. 어쩌면 시스템은 "방금 이 게임을 했는데 잘 했나? 좀 더 가르쳐 주실 수 있나요? "라고 질문할 수도 있습니다. 따라서 5년 또는 10년 후에는 전문 분야에서 이러한 요소의 학습 기능이 더욱 상호 작용하게 될 것입니다. 그리고 더 부자. 예를 들어, 우리가 스타크래프트용으로 특별히 개발한 AlphaStar는 매우 다릅니다. 알고리즘은 일반적이지만 가중치는 구체적입니다.
메타 학습은 프롬프트를 넘어 더 많은 상호 작용을 포함합니다. 시스템은 실수를 하거나 게임에서 패한 후에 피드백을 제공하라고 지시할 수 있습니다. 실제로 벤치마크는 이미 존재하며 목표를 변경했을 뿐입니다. 그래서 어떤 면에서 저는 일반 인공 지능을 다음과 같이 생각하고 싶습니다. 우리는 이미 체스나 스타크래프트와 같은 특정 작업에서 101%의 성능을 가지고 있으며 다음 반복에서는 모든 작업에서 20%에 도달할 수 있습니다. 차세대 모델의 발전은 확실히 이 방향에 있습니다. 물론 도구가 없거나 Transformer가 충분하지 않은 등 일부 문제에서는 문제가 발생할 수 있습니다. 향후 5~10년 내에 모델의 가중치가 훈련될 가능성이 높으며 모델이 메타 학습을 가르치거나 허용하는 데 더 중점을 둘 것입니다.
이것은 대화형 교육입니다. 기계학습 분야에서는 오랫동안 분류 작업을 처리하는 데 이 방법이 사용되지 않았습니다. 내 생각은 가장 가까운 이웃 알고리즘과 약간 비슷해 보이며 거의 가장 간단한 알고리즘이며 그라디언트를 학습하거나 계산할 필요가 없습니다. 가장 가까운 이웃은 데이터 세트의 점 사이의 거리를 측정한 후 새로운 점을 분류하려면 이 많은 양의 데이터에서 가장 가까운 점이 무엇인지 계산하면 됩니다. 따라서 힌트를 업로드할 때 단순한 포인트를 처리하는 것이 아니라 사전 훈련된 시스템에 지식을 추가하는 것으로 생각할 수 있습니다.
팁은 가장 가까운 지점에서 학습하는 머신러닝의 아주 고전적인 개념을 발전시킨 것입니다. 2016년 우리 연구 중 하나는 컴퓨터 비전 분야에서도 매우 일반적인 최근접 이웃 방법을 사용했습니다. 두 이미지 사이의 거리를 계산하는 방법은 매우 활발한 연구 분야입니다. 좋은 거리 행렬을 얻을 수 있다면 다음과 같은 방법을 사용할 수 있습니다. 또한 좋은 분류자를 얻으십시오.
이러한 거리와 지점은 이미지에만 국한되지 않고 텍스트나 텍스트, 이미지, 동작 시퀀스 및 기타 모델에 학습된 새로운 정보일 수도 있습니다. 우리는 아마도 더 이상 웨이트 트레이닝을 하지 않을 것입니다. 일부 메타 학습 기술은 미세 조정을 수행하며, 새로운 작업을 받으면 가중치를 약간 훈련합니다.
Fridman: Flamingo, Chinchilla, Gopher와 같은 일반, 대규모 모델과 에이전트를 만들었습니다.
Vinyals: 성공의 열쇠는 공학이라고 생각해요. 첫 번째는 데이터 엔지니어링입니다. 왜냐하면 우리가 결국 수집하는 것은 데이터 세트이기 때문입니다. 그런 다음 대규모로 일부 컴퓨팅 클러스터에 모델을 배포하는 배포 프로젝트가 나옵니다. 이 성공 요인은 모든 것에 적용됩니다. 악마는 실제로 세부 사항에 있습니다.
또한, 현재 벤치마크에는 진전이 있습니다. 한 팀이 몇 달간 연구를 하여 성공할 수 있을지 확신할 수 없지만, 위험을 감수하지 않고 불가능해 보이는 일을 한다면 기회는 없을 것입니다. 성공의. 그러나 진행 상황을 측정할 방법이 필요하므로 벤치마크를 설정하는 것이 중요합니다.
우리는 광범위한 벤치마크를 사용하여 AlphaFold를 개발했으며 이 프로젝트의 데이터와 지표는 모두 쉽게 사용할 수 있습니다. 좋은 팀은 점진적인 개선점을 찾고 논문을 출판하는 것이 아니라, 더 높은 목표를 갖고 수년 동안 이를 위해 노력하는 것이어야 합니다.
기계 학습 분야에서 우리는 신경망과 같은 아키텍처를 좋아하는데, Transformer가 등장하기 전에는 이 분야가 매우 빠르게 성장하고 있었습니다. “Attentionis All You Need”는 정말 훌륭한 에세이 주제입니다. 이 아키텍처는 모든 바이트 시퀀스를 모델링하려는 우리의 꿈을 실현합니다. 이러한 아키텍처의 발전은 어느 정도 신경망이 작동하는 방식에 달려 있다고 생각합니다. 5년 전에 발명된 아키텍처는 아직 찾기 어렵고, 여전히 안정적이고 거의 변하지 않았기 때문에 Transformer는 계속해서 많은 프로젝트에 나타날 수 있습니다. .
Fridman: 기술의 철학적 수준에서 주의력의 마법은 어디에 있습니까? 주의는 인간의 마음에서 어떻게 작동합니까?
Vinyals: Transformer와 장단기 기억 인공 신경망 LSTM에는 차이가 있습니다. Transformer 초기에는 LSTM이 여전히 매우 강력한 시퀀스 모델이었습니다. 예를 들어 AlphaStar는 두 가지를 모두 사용했습니다. Transformer의 힘은 유도적 주의 편향이 내장되어 있다는 것입니다. 전체 단락을 번역하거나 이전 10개 단락을 기반으로 다음 단락을 예측하는 등 단어 문자열에 대한 복잡한 작업을 해결한다고 가정해 보겠습니다.
직관적으로 Transformer가 이러한 작업을 수행하는 방식은 인간을 모방하고 복사하는 것입니다. Transformer에서는 텍스트 단락을 읽은 후 다음에 어떤 일이 일어날지 생각해 볼 수 있습니다. 본문에서 이것은 가설 중심 프로세스입니다. 다음 단어가 "고양이"가 될지 "개"가 될지 궁금할 경우 Transformer가 작동하는 방식은 두 가지 가정을 갖는 것입니다. 고양이일까요? 아니면 개? 고양이라면 몇 가지 단어(반드시 "고양이"라는 단어 자체는 아님)를 찾아 역추적하여 "고양이" 또는 "개"가 더 의미가 있는지 확인합니다.
그런 다음 단어에 대해 매우 심층적인 계산을 수행하고 단어를 결합하며 쿼리도 수행할 수 있습니다. 본문을 정말로 생각한다면 위의 본문을 모두 다시 살펴보아야 하는데, 주의를 집중시키는 것은 무엇입니까? 제가 방금 쓴 글도 분명 중요하지만, 10페이지 전에 쓴 글도 중요할 수 있으니, 생각해야 할 것은 배치가 아니라 내용입니다. Transformer는 더 나은 의사결정을 위해 특정 콘텐츠를 쿼리하고 이를 추출할 수 있습니다. 이것이 Transformer를 설명하는 한 가지 방법인데, 저는 이 귀납적 편향이 매우 강력하다고 생각합니다. Transformer는 시간이 지남에 따라 일부 세부적인 변화가 있을 수 있지만 유도 바이어스로 인해 최근 바이어스 기반의 순환 네트워크보다 Transformer가 더 강력해지며 일부 작업에서는 효과적이지만 매우 큰 결함이 있습니다.
Transformer 자체에도 결함이 있습니다. 주요 과제 중 하나는 방금 논의한 프롬프트라고 생각합니다. 프롬프트의 길이는 최대 1000단어일 수 있으며, 게임에 대한 비디오 및 Wikipedia 기사를 시스템에 표시해야 할 수도 있습니다. 또한 게임을 플레이하고 나에게 질문을 하는 동안 시스템과 상호작용해야 했습니다. 나는 모델이 현재 능력 이상의 것을 달성하도록 가르치는 훌륭한 교사가 되어야 합니다. 그렇다면 문제는 이러한 작업을 어떻게 벤치마킹할 것인가입니다. 아키텍처의 구조를 어떻게 변경합니까? 이것은 논란의 여지가 있습니다.
Fridman: 이 모든 연구 진행에서 개인이 얼마나 중요한가요? 분야가 어느 정도 바뀌었나요? 당신은 현재 DeepMind에서 딥러닝 연구를 이끌고 있습니다. 당신은 많은 프로젝트와 뛰어난 연구자들을 보유하고 있습니다. 이 모든 인간이 얼마나 많은 변화를 가져올 수 있습니까?
Vinyals: 저는 사람이 큰 역할을 한다고 믿습니다. 어떤 사람들은 효과가 있는 아이디어를 얻고 이를 고수하기를 원하지만, 다른 사람들은 더 실용적일 수 있으며 단백질 접힘을 깨뜨릴 수 있는 한 어떤 아이디어가 효과가 있는지 상관하지 않습니다. 우리에게는 겉보기에 상반되는 것처럼 보이는 이 두 가지 아이디어가 모두 필요합니다. 역사적으로 둘 다 조만간 무언가를 생산했습니다. 둘 사이의 차이는 강화 학습 분야에서 탐색-이용 트레이드오프(Exploration-Exploitation Tradeoff)라고 불리는 것과 유사할 수도 있습니다. 팀이나 회의에서 사람들과 상호 작용할 때 무언가를 탐색하거나 악용할 수 있다는 사실을 빨리 알게 될 것입니다.
어떤 연구 스타일을 부정하는 것은 잘못된 것입니다. 저는 업계 출신이므로 대규모 컴퓨팅 능력을 사용할 수 있으며 이에 상응하는 특정 유형의 연구도 있을 것입니다. 과학적 진보를 위해서는 지금 답해야 할 질문에 답해야 합니다.
동시에 많은 진전도 보입니다. Attention 메커니즘은 원래 Google Brain에서 친구들과 시퀀스-투-시퀀스 모델을 연구하던 중 컴퓨팅 성능이 부족하여 캐나다 몬트리올에서 발견되었습니다. 우리는 8개의 GPU(당시에는 실제로 많은 양)를 사용했는데, 몬트리올은 아직 컴퓨팅 규모 측면에서 상대적으로 제한적이었다고 생각합니다. 그러나 그들은 컨텐츠 기반 관심의 개념을 발견했고 이것이 Transformer로 이어졌습니다.
Fridman: 많은 사람들은 천재성이 그 원대한 아이디어에 있다고 생각하는 경향이 있지만, 엔지니어링의 천재성은 종종 세부 사항에 있다고 생각합니다. 때로는 한 명의 엔지니어 또는 몇 명의 엔지니어가 우리가 하는 일, 특히 엔지니어링 작업을 변경할 수 있습니다. 대규모 컴퓨터에서 내린 결정은 연쇄 반응을 유발할 수 있습니다.
Vinyals: 딥러닝과 신경망 발전의 역사를 되돌아보면 우연한 요소가 있다는 것을 알게 될 것입니다. 비디오 게임에도 불구하고 GPU가 적절한 시기에 등장했기 때문입니다. 따라서 하드웨어 엔지니어링도 시간 요인의 영향을 받습니다. 데이터 센터가 설립된 것도 이러한 하드웨어 혁명 때문이었습니다. 예를 들어 Google의 데이터 센터가 있습니다. 이러한 데이터 센터를 통해 모델을 교육할 수 있습니다. 소프트웨어 역시 중요한 요소로, 이 분야에 진출하는 사람들이 점점 늘어나고 있습니다. 시스템이 모든 벤치마크를 갖기를 기대할 수도 있습니다.
Fridman: Jeff Dean, Percy Liang 등과 공동으로 작성한 "대형 언어 모델의 출현 능력"이라는 제목의 논문이 있습니다. 신경망의 출현은 어떻게 직관적으로 설명됩니까? 마법의 전환점이 있습니까? 이게 작업마다 다른가요?
Vinyals: 벤치마킹을 예로 들어보세요. 시스템을 훈련하면서 데이터 세트 크기가 성능에 얼마나 영향을 미치는지, 모델 크기가 성능에 어떤 영향을 미치는지, 시스템을 훈련시켜 성능에 영향을 미치는 데 걸리는 시간 등을 분석하면 곡선이 매우 매끄러워집니다. ImageNet을 매우 부드럽고 예측 가능한 훈련 곡선으로 보면 어떤 면에서는 꽤 부드럽고 예측 가능해 보입니다.
언어 측면에서 벤치마크에는 더 많은 사고가 필요합니다. 입력이 수학적 문제를 설명하는 문장이라 하더라도 더 많은 처리와 성찰이 필요합니다. Transformer의 쿼리 시스템이나 Transformer와 같은 언어 모델이 올바른 질문을 할 때까지 모델의 성능은 무작위가 될 수 있으며, 성능은 무작위에서 비무작위로 변경되기 시작합니다. 이는 매우 경험적이며 이론 뒤에는 형식화가 없습니다. .
Fridman: 최근 Google 엔지니어는 Lambda 언어 모델이 의식적이라고 주장했습니다. 이 사례는 인간적 측면, 머신러닝의 기술적 측면, 인간 세계에서 AI 시스템의 역할에 대한 철학적 측면을 다룹니다. 머신러닝 엔지니어로서 그리고 인간으로서 당신의 관점은 무엇입니까?
Vinyals: 현재 모델들 중 아직 의식이 부족한 사람이 없는 것 같아요. 나는 약간 실패한 과학자인 것 같은 느낌이 들고, 항상 머신러닝을 다른 과학에 도움이 될 수 있는 과학으로 보고 싶다는 생각이 듭니다. 저는 천문학, 생물학을 좋아하지만 그 분야의 전문가는 아니기 때문에 머신러닝을 공부하기로 결정했습니다.
하지만 알파폴드에 대해 더 많이 배우고 단백질, 생물학, 생명과학에 대해 조금 배우면서 원자 수준에서 무슨 일이 일어나고 있는지 관찰하기 시작했습니다. 우리는 신경망을 두뇌로 생각하는 경향이 있는데 전문가가 아닌 이상 복잡하고 마술처럼 보이지만 생물학적 시스템은 계산 두뇌보다 훨씬 더 복잡하고 기존 모델은 아직 생물학적 두뇌 수준에 도달하지 못했습니다.
이 Google 엔지니어에 대해서는 그다지 놀랍지 않습니다. 아마도 시간 곡선이 점점 더 매끄러워지는 것을 보고 있기 때문에 언어 모델은 50년대 Shannon의 작업 이후 그렇게 빠르게 발전하지 않았고, 100년 전에 우리가 가지고 있던 아이디어는 지금 우리가 가지고 있는 아이디어와 크게 다르지 않습니다. 그러나 누구도 다른 사람에게 자신의 생각을 말해선 안 됩니다.
창조 초기부터 인류의 복잡성과 우주 전체의 진화의 복잡성은 나에게 훨씬 더 매력적입니다. 자신이 하는 일에 집착하는 것은 좋지만 생물학 전문가가 그것이 그다지 마법적이지 않다고 말해줬으면 좋겠다. 커뮤니티에서의 상호 작용을 통해 우리는 무엇이 정상이 아닌지, 무엇이 안전하지 않은지 등을 이해하는 데 도움이 되는 교육 수준을 얻습니다. 그렇지 않으면 기술이 올바르게 사용될 수 없습니다.
Fridman: 지능 문제를 해결하려면 시스템이 의식을 얻어야 하나요? AI 시스템을 만드는 데 인간 정신의 어떤 부분이 도움이 됩니까?
Vinyals: 저는 시스템의 지능이 여러분에게 도전하고 안내할 수 있는 매우 유용한 두뇌를 갖는 수준에 도달해야 한다고 생각하지 않습니다. 대신, 일을 하는 방법을 가르쳐야 합니다. 개인적으로 저는 의식이 필요한지 잘 모르겠습니다. 어쩌면 의식이나 다른 생물학적, 진화적 관점이 차세대 알고리즘에 영향을 미칠 수도 있습니다.
인간의 뇌와 신경망이 수행하는 계산의 세부 사항은 다릅니다. 물론 둘 사이에는 몇 가지 유사점이 있지만 우리는 뇌의 세부 사항에 대해 충분히 알지 못합니다. 하지만 우리의 사고 과정, 기억이 어떻게 작동하는지, 심지어 지금의 우리가 어떻게 진화했는지, 탐구와 개발이 무엇인지 등 범위를 조금 좁히면 알고리즘 수준의 연구에 영감을 줄 수 있습니다.
Fridman: The Bitter Lesson의 Richard Sutton의 70년 AI 연구에서 얻은 가장 큰 교훈은 컴퓨팅 성능을 활용하는 일반적인 방법이 궁극적으로 효과가 있다는 점에 동의하십니까?
Vinyals: 더 이상 동의할 수 없습니다. 신뢰할 수 있고 복잡한 시스템을 구축하려면 규모가 필요합니다. 이것만으로는 충분하지 않을 수 있으며 획기적인 발전이 필요합니다. Sutton은 검색은 규모를 확장하는 방법이며 Go와 같은 분야에서는 명확한 보상 기능이 있기 때문에 검색이 유용하다고 언급했습니다. 하지만 일부 다른 임무에서는 무엇을 해야 할지 확신할 수 없었습니다.
프리드먼: 우리가 평생 동안 인간 지능에 도달하거나 심지어 능가하는 일반적인 인공 지능 시스템을 구축할 수 있다고 생각하시나요?
Vinyals: 나는 그것이 인간 수준의 지능을 가질 것이라고 절대적으로 믿습니다. “초월”이라는 단어는 정의하기 어렵습니다. 특히 모방 학습 관점에서 현재 표준을 살펴보면 AI가 인간을 모방하고 언어를 능가할 수 있다는 것은 분명합니다. 따라서 모방을 통해 인간 수준에 도달하려면 강화 학습 등이 필요합니다. 일부 지역에서는 이미 성과를 거두고 있습니다.
인간의 능력을 뛰어 넘는다는 점에서 제가 가장 좋아하는 예는 알파고입니다. 그리고 일반적인 의미에서 인간 지능을 모방하는 방식으로 보상 기능을 정의할 수 있을지 확신할 수 없습니다. 초월에 관해서는 아직은 잘 모르겠지만, 분명 인간 수준에 이를 것입니다. 분명히 우리는 초월하려고 노력하지 않을 것입니다. 그렇게 한다면 초인적인 과학자와 발견을 통해 세상을 발전시킬 수 있을 것입니다. 그러나 적어도 인간 수준의 시스템은 매우 강력할 것입니다.
Fridman: 인간 수준에 도달하거나 이를 초과하는 수십억 개의 지능 에이전트가 인간 사회와 깊이 통합되는 특이점의 순간이 있을 것이라고 생각하십니까? 세상에 대해 두려울까요, 아니면 신날까요?
Vinyals: 우리가 실제로 이 목표에 도달할 수 있을지 생각해 봐야 할 것 같아요. 제한된 자원으로 너무 많은 사람이 공존하면 문제가 발생할 수 있습니다. 디지털 엔터티에도 수량 제한이 있어야 합니다. 이는 에너지를 소비하기 때문에 에너지 가용성 때문입니다.
실제로 에너지 요구 사항에 있어서 대부분의 시스템은 우리보다 효율성이 떨어집니다. 하지만 저는 사회로서 우리가 성장할 수 있는 합리적인 방법과 공존할 수 있는 방법을 찾기 위해 함께 노력해야 한다고 생각합니다. 분명히 접근할 수 없는 사람들에게 특정 리소스나 지식에 대한 접근을 제공하는 자동화 측면이 있다면 정말 기쁠 것입니다. 이것이 제가 가장 기대하는 애플리케이션입니다.
Fridman: 마지막 질문입니다. 인간이 태양계를 벗어나면 미래 세계에는 인간이나 로봇이 더 많아질까요?
Vinyals: 인간과 AI가 혼합되어 공존할 수도 있습니다. 이것은 단지 추측일 뿐이지만 이미 이런 방식으로 우리를 더 좋게 만들려고 노력하는 회사가 있습니다. 비율은 최대한 1:1이었으면 좋겠는데, 1:1은 가능할 수도 있지만 균형을 잃는 것은 좋지 않습니다.
원본 영상링크 : https://youtu.be/aGBLRlLe7X8
위 내용은 DeepMind 수석 과학자 Oriol Vinyals와의 최신 인터뷰: 일반 AI의 미래는 강력한 대화형 메타 학습입니다의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!