놀랍게도 AI 모델을 훈련시키기 위해 뉴욕 주립대학교 교수가 GoPro 같은 카메라를 딸의 머리에 묶어두었습니다!
믿을 수 없을 것 같지만 이 교수의 행동은 실제로 근거가 충분합니다.
LLM 뒤에 있는 복잡한 신경망을 훈련하려면 대규모 데이터가 필요합니다.
현재 LLM 교육 프로세스가 반드시 가장 간단하고 효율적인 방법인가요?
절대 그렇지 않습니다! 과학자들은 유아기의 뇌가 스펀지처럼 물을 흡수하여 빠르게 일관된 세계관을 형성한다는 사실을 발견했습니다.
LLM은 때때로 놀라운 성능을 발휘하지만 시간이 지나면 인간 아이들은 모델보다 더 똑똑하고 창의적이 될 것입니다!
LLM을 더 나은 방법으로 훈련시키는 방법은 무엇일까요?
과학자들이 당황했을 때, 새끼 인간들은 눈을 반짝반짝 빛나게 했어요 -
언어를 배우는 방식은 언어 습득의 대가라고 할 수 있습니다.
우리 모두는 이 이야기를 알고 있습니다. 어린 아이를 완전히 다른 언어와 문화를 가진 나라로 보내면, 그의 현지 언어 숙달은 모국어 수준에 가까워질 수 있습니다.
그리고 대규모 언어 모델은 그에 비해 창백합니다.
우선, 너무 데이터 집약적입니다!
요즘 모델을 훈련시키는 대기업들은 세상의 모든 데이터를 거의 다 써버렸습니다. LLM 학습에는 인터넷과 다양한 곳에서 채굴된 천문학적인 양의 텍스트가 필요하기 때문입니다.
언어를 마스터하려면 수조 개의 단어를 먹여야 합니다.
Brenden Lake와 이번 연구에 참여한 NYU 학자들
둘째, LLM은 엄청난 노력을 기울여 많은 데이터를 쏟아부어도 정확하게 학습하지 못할 수도 있습니다.
많은 LLM의 결과는 특정 정확도로 다음 단어를 예측하는 것입니다. 그리고 이러한 정확성은 점점 더 불안해지고 있습니다.
완전히 대조적으로, 아이들은 언어를 유창하게 말하는 법을 배우는 데 그렇게 많은 경험이 필요하지 않습니다.
인간과 AI를 연구하는 뉴욕주립대학교 심리학자 브렌든 레이크(Brenden Lake)는 이에 주목했습니다.
1살, 9개월 된 딸 루나를 대상으로 실험을 하기로 했어요.
Lake는 지난 11개월 동안 딸에게 매주 한 시간씩 카메라를 착용하고 자신의 관점에서 놀이 시간을 동영상으로 녹화하도록 했습니다.
Lake는 Luna의 카메라로 촬영한 동영상을 통해 어린이에게 노출되는 것과 동일한 데이터를 사용하여 모델을 훈련시키기를 희망합니다.
현재 언어학자와 아동 전문가는 아이들이 언어를 습득하는 방법에 대해 의견이 일치하지 않지만 Lake는 LLM을 더 많이 만든다고 확신합니다. 효율성의 비결은 아이들의 학습 패턴에 있습니다. !
따라서 Lake는 LLM 교육의 효율성을 높이기 위해 아이들이 첫 문장을 배울 때 경험하는 자극을 연구하는 연구 프로젝트를 시작했습니다.
이를 위해 Lake 팀은 미국 전역의 어린이 25명으로부터 비디오 및 오디오 데이터를 수집해야 했습니다.
기사 시작 부분의 장면입니다. GoPro 같은 카메라를 Lake의 딸 Luna를 포함한 아이들의 머리에 묶었습니다.
Lake는 OpenAI의 Clip 모델이 주석과 이미지를 연결하는 방식과 유사하게 그들의 모델이 비디오 클립과 어린이의 보호자가 어린이의 관점에서 말하는 내용을 연결하려고 시도한다고 설명했습니다.
Clip은 이미지를 입력으로 사용하고 이미지-주석 쌍의 학습 데이터를 기반으로 설명 주석을 제안으로 출력할 수 있습니다.
문서 주소: https://openai.com/index/clip/
또한 Lake 팀의 모델은 GoPro 영상의 훈련 데이터와 간병인의 오디오를 기반으로 장면 이미지를 결합할 수도 있습니다. 그런 다음 입력으로 장면을 설명하는 언어를 출력합니다.
또한 모델은 설명을 이전에 훈련에서 본 프레임으로 변환할 수도 있습니다.
얼핏 보면 꽤 간단해 보이죠? 즉, 모델은 인간 어린이처럼 음성 단어를 비디오 프레임에서 관찰된 개체와 일치시키는 방법을 학습합니다.
그러나 실제 구현에서는 여전히 많은 복잡한 상황에 직면하게 됩니다.
예를 들어, 아이들은 설명되는 사물이나 행동을 항상 보지는 않습니다.
아이들에게 우유를 주는데 우유가 불투명한 컵에 담겨 있어 연결이 매우 느슨해지는 등 훨씬 더 추상적인 상황도 있습니다.
Lake는 다음과 같이 설명했습니다. 이 실험은 이미지의 개체를 해당 단어와 일치시키도록 모델을 훈련할 수 있는지 여부를 증명하기 위한 것이 아닙니다(OpenAI는 이미 이를 시연했습니다).
대신 팀이 원했던 것은 모델이 어린이가 사용할 수 있는 희박한 수준의 데이터(엄청나게 희박함)만을 사용하여 실제로 객체를 인식하는 방법을 학습할 수 있는지 확인하는 것이었습니다.
보시다시피 이는 OpenAI, Google, Meta 등 대기업이 모델을 구축하려는 아이디어와 완전히 반대입니다.
메타는 라마 3를 훈련시키기 위해 15조 개의 토큰을 사용했습니다.
Lake 팀의 실험이 성공한다면 아마도 전 세계가 직면한 LLM 데이터 부족이 해결될 것입니다. 그렇게 되면 LLM 교육에 그렇게 많은 데이터가 전혀 필요하지 않기 때문입니다!
즉, AI 모델이 제한된 입력으로부터 학습한 다음 우리가 보는 데이터를 일반화하도록 하는 것이 새로운 아이디어입니다.
저는 우리의 초점이 점점 더 많은 데이터를 통해 점점 더 큰 LLM을 교육하는 데 국한되어서는 안 된다고 생각합니다. 네, 이런 식으로 LLM에서 놀라운 성과를 얻을 수 있지만, 우리가 알고 있는 인간 지능의 경이로움과는 점점 더 멀어지고 있습니다...
초기 실험 결과가 입증되었습니다 Lake 팀의 생각이 맞을 수도 있습니다.
올해 2월, 그들은 어린 아이의 경험을 기록하기 위해 신경망을 훈련시키기 위해 61시간의 비디오 영상을 사용했습니다.
연구에 따르면 모델은 피험자가 말하는 다양한 단어와 문구를 비디오 프레임에 포착된 경험에 연결할 수 있었습니다. 단어나 문구가 제시되는 한 모델은 관련 이미지를 기억할 수 있었습니다. . 이 논문은 사이언스(Science)지에 게재되었습니다.
논문 주소: https://www.science.org/doi/10.1126/science.adi1374
Lake는 가장 놀라운 점은 모델이 훈련되지 않은 이미지에 있는 물체의 이름을 일반화할 수 있다는 것이라고 말했습니다!
물론 정확도가 좋지 않을 수도 있습니다. 하지만 이 모델은 원래 개념을 검증하기 위한 것이었습니다.
모델이 어린이가 알 수 있는 모든 것을 배우지 않았기 때문에 프로젝트가 아직 완료되지 않았습니다.
결국 주석이 달린 연설은 약 60시간에 불과합니다. 이는 아이가 2년 동안 얻는 경험의 1%에 불과합니다. 그리고 팀에서는 학습 가능한 것이 무엇인지 파악하기 위해 더 많은 데이터가 필요합니다.
그리고 Lake도 첫 번째 모델이 사용한 방식에는 아직 한계가 있음을 인정했습니다. -
간병인의 말과 관련된 영상만을 분석하여 초당 5프레임의 속도로 영상만을 이미지로 변환하였으며, 이것만으로는 AI가 동사가 무엇인지, 추상적 단어가 무엇인지 실제로 학습하지 못했습니다. 세상이 어떻게 생겼는지에 대한 정적 조각만 얻을 뿐입니다.
이전에 무슨 일이 일어났는지, 이후에 무슨 일이 일어났는지, 대화의 맥락에 대해 아무것도 모르기 때문에 '걷기', '달리기', '점프하기'가 무엇인지 배우기가 어렵습니다.
그러나 앞으로 모델링 비디오의 기술이 더욱 성숙해짐에 따라 Lake는 팀이 더욱 효과적인 모델을 구축할 것이라고 믿습니다.
언어 습득이 실제로 어떻게 시작되는지에 대한 모델을 구축할 수 있다면 인간 학습 및 발달을 이해하는 데 중요한 응용 프로그램을 열 수 있으며 아마도 발달 장애 또는 어린이가 언어를 배우는 방법을 이해하는 데 도움이 될 것입니다.
결국 이러한 모델은 수백만 가지의 다양한 언어 치료를 테스트하는 데 사용될 수도 있습니다.
그런데, 아이들은 어떻게 자신의 눈과 귀를 통해 언어를 확고히 익히나요?
사이언스에 Lake 팀이 게시한 이 글을 자세히 살펴보겠습니다.
인간 아이들은 어떻게 세상에 대한 무지를 버리고 지식을 습득할까요? 이 '블랙박스'의 미스터리는 교육학자들의 끊임없는 관심을 끌 뿐만 아니라, 개인의 지혜의 기원에 대해 우리 각자의 마음속에 갇혀 있는 질문이기도 합니다.
한국 공상과학 작가 김초예는 '공생 가설'에서 다음과 같은 가정을 썼습니다. 인간 아이들이 어린 시절 보여준 지혜는 실제로 잃어버린 외계 문명을 담고 있으며 인간과 소통하기 위해 이 방법을 선택합니다. 그러나 그것은 5년이라는 짧은 기간 동안만 지속되었습니다. 인간이 성장하여 정말 견고한 기억을 갖게 된 이후, 어린 시절의 멋진 기억은 지워졌습니다.
네티즌들은 "맹포국 마시는 것을 잊은" 인간 새끼들에 대한 이야기를 온라인에서 자주 공유합니다.
신비한 어린 시절에 관해서는 설명하기 어렵고 돌아가기 어려운 신비한 장소입니다. 일종의 "그리움"입니다. 금빛 풀잎에 "떠나지 말라"고 쓰여 있듯이. 그 아름다운 세상을 빼앗지 마세요. 내가 자랄 때, 나와 함께 있어 주세요.
어린 아이들은 새로운 단어를 특정 사물이나 시각적 개념과 어떻게 연결하나요?
예를 들어, 아이들은 "공"이라는 단어를 들으면 탄력 있고 둥근 물체를 어떻게 생각할까요?
이를 위해 Lake 팀은 어린이에게 머리 장착형 카메라를 장착하고 그의 모습을 추적했습니다. 6개월에서 25개월로 성장하고, 61시간의 시각언어 데이터 스트림을 기록했습니다.
이 1.5년간의 어린이용 클립 데이터 세트(600,000개의 비디오 프레임과 37,500개의 전사된 발화 쌍 포함)에서 연구원들은 어린이 관점 대조 학습 모델 CVCL이라는 모델을 훈련했습니다.
이 모델은 상황 전반에 걸쳐 연관 학습 형태를 인스턴스화하여 단어와 가능한 시각적 지시 대상 간의 매핑을 식별합니다.
이 모델은 두 가지 신경망인 시각적 인코더와 언어 인코더의 비교 목표를 조정하고 자체 감독 방식(예: 외부 레이블 없이 아동 관점 녹음만 사용)으로 훈련됩니다. 목표는 비디오 프레임의 임베딩(벡터)과 시간적으로 동시에 발생하는 언어 발화를 결합하는 것입니다(동시 비디오 프레임 및 언어 발화의 임베딩 처리)
물론 SAYCam-S라는 이 데이터 세트는 제한적입니다. 아이가 깨어 있는 시간의 1%로 많은 경험을 놓치게 됩니다.
그러나 그럼에도 불구하고 CVCL은 어린이의 제한된 경험을 통해 여전히 강력한 다중 모드 표현을 배울 수 있습니다!
팀은 모델이 어린이의 일상 경험에 존재하는 많은 참조 매핑을 획득하여 샘플이 없는 새로운 시각적 지시 대상을 일반화하고 그 안의 시각적 및 언어적 개념 시스템을 조정할 수 있음을 성공적으로 시연했습니다.
구체적으로, 훈련이 완료된 후 팀은 CVCL 및 다양한 대체 모델에서 학습한 단어 참조 매핑의 품질을 평가했습니다.
결과에 따르면 CVCL의 분류 정확도는 61.6%입니다.
그리고 그림 2D는 22개 개념 중 11개 개념에 대해 CVCL의 성능이 CLIP 오류의 5% 이내이지만 CLIP의 훈련 데이터는 몇 배 더 크다는 것을 보여줍니다(이미지 네트워크에서 4억- 텍스트 쌍).
연구 결과에 따르면 최초의 단어 참조 매핑 중 다수는 자연적으로 발생하는 최소 10~100개의 단어 참조 쌍에서 얻을 수 있습니다.
또한 연구원들은 CVCL에서 학습한 단어가 배포판 외부의 시각적 자극으로 일반화될 수 있는지도 평가했습니다.
그림 3A는 CVCL이 34.7%의 전체 정확도로 이러한 시각적 개념을 어느 정도 이해하고 있음을 보여줍니다.
분명히 이 작업에는 더 큰 개념 세트가 필요하고 배포 외 일반화에는 추가적인 어려움이 필요합니다.
왼쪽에는 무작위로 선택된 2개의 훈련 사례가 있고 오른쪽에는 4개의 테스트 사례가 있습니다. 아래 백분율은 이 이미지를 인식하는 모델의 정확도와 성능을 나타냅니다. 왼쪽에서 오른쪽으로 선택한 사례는 다음과 같습니다. 두 개의 가장 높은 값인 중앙값과 최소값입니다. 테스트 케이스와 트레이닝 케이스의 색상과 형태가 유사할수록 모델 인식의 정확도도 높아지는 것을 알 수 있습니다
마지막으로 연구원이 테스트한 결과 CVCL의 시각 및 언어 개념 시스템의 일관성.
예를 들어, "car"의 시각적 임베딩과 단어 임베딩이 모두 "ball"보다 "road"에 더 유사하다면 이는 다중 모달 정렬이 잘 작동함을 나타냅니다.
아래 그림은 CVCL의 시각 시스템과 언어 시스템의 높은 정렬을 보여줍니다.
이미지와 텍스트의 관계, 점선은 각 컨셉에 해당하는 시각적 중심과 단어 임베딩 사이의 거리를 나타냅니다.
다양한 시각적 개념은 예시가 얼마나 긴밀하게 클러스터되어 있는지에 따라 다릅니다. 아기의 시선은 매우 가까운 물체 사이를 헤매기 때문에 모델은 "손"과 "장난감"을 구별할 때 명확한 참조 매핑을 형성하지 않습니다. "자동차"와 "침대"는 각각 더 나은 성능을 발휘합니다
그림에서는 t-SNE를 사용하여 CVCL 예측과 레이블이 지정된 예제를 비교하는 방법을 시각적으로 보여줍니다.
왼쪽의 파란색 점은 특정 카테고리에 속하는 100개의 프레임에 해당하고, 오른쪽의 녹색 점은 가장 많이 활성화된 100개의 프레임에 해당합니다(각 개념에 대한 단어 임베딩에 대한 코사인 유사도 기준). CVCL에서) . 각 그림 아래에는 각 개념 내의 하나 이상의 하위 클러스터에 속하는 여러 예제 프레임이 있으며, 결합 임베딩 공간에서 단어 임베딩이 이미지 임베딩과 상호 작용하는 방식을 포착합니다. 예를 들어 "계단"이라는 단어의 경우 하나의 클러스터는 실내 나무 계단의 이미지를 나타내고 다른 주요 클러스터는 야외의 파란색 계단 이미지를 나타냅니다. 이 그림의 모든 t-SNE 그래프는 동일한 공동 이미지 및 텍스트 임베딩 세트에서 파생됩니다.
아래 그림은 모델이 다양한 시점에서 타겟을 찾을 수 있음을 보여줍니다.
정규화된 주의 지도에서 노란색은 주의가 가장 높은 영역을 나타냅니다. 처음 두 범주(공 및 루크)에서는 모델이 서로 다른 뷰에서 대상을 찾을 수 있음을 알 수 있습니다. 그러나 하위 두 범주(고양이와 종이)에서는 주의 지도가 지시 대상과 잘못 정렬되는 경우가 있었는데, 이는 지시 대상을 찾는 능력이 범주 전체에서 일관되지 않음을 시사합니다.
물론 어린이의 학습 모델과 머신러닝 모델에는 여전히 많은 차이가 있습니다.
하지만 Lake 팀의 연구는 의심할 여지 없이 우리에게 많은 영감을 주었습니다.
위 내용은 미국 교수가 2살 딸을 이용해 사이언스에 등장할 AI 모델을 훈련시켰다! 새끼 인간은 머리에 장착된 카메라를 사용하여 새로운 AI를 훈련시킵니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!