LeCun의 Meta AI는 자기 감독에 베팅합니다.
자기 지도 학습이 정말 AGI를 향한 핵심 단계인가요?
Meta의 AI 수석과학자 Yann LeCun은 “현시점에서 취해야 할 구체적인 조치”를 언급하며 장기적인 목표를 잊지 않았습니다. 그는 인터뷰에서 "우리는 동물이나 인간처럼 학습하는 지능형 기계를 만들고 싶다"고 말했다. 최근 몇 년 동안 메타는 AI 시스템의 자기 지도 학습(SSL)에 관한 일련의 논문을 발표했다. LeCun은 SSL이 AI 시스템의 필수 전제 조건이라고 굳게 믿습니다. SSL은 AI 시스템이 합리성, 상식, 기술과 지식을 한 환경에서 다른 환경으로 이전하는 능력과 같은 인간과 유사한 기능을 얻기 위한 세계 모델을 구축하는 데 도움이 될 수 있습니다.
새로운 논문에서는 MAE(Masked Autoencoder)라는 자체 감독 시스템이 매우 단편적이고 불완전한 데이터에서 이미지, 비디오, 심지어 오디오까지 재구성하는 방법을 학습할 수 있는 방법을 보여줍니다. MAE는 새로운 아이디어는 아니지만 Meta는 이 작업을 새로운 영역으로 확장했습니다.
LeCun은 정지 이미지, 비디오, 오디오 시퀀스 등 누락된 데이터를 예측하는 방법을 연구함으로써 MAE 시스템이 세계의 모델을 구축하고 있다고 말했습니다. 그는 "영상에서 앞으로 무슨 일이 일어날지 예측할 수 있다면 세상이 3차원이라는 점, 일부 물체는 무생물이어서 스스로 움직이지 않는다는 점, 다른 물체는 살아 있어 예측하기 어렵다는 점을 이해해야 한다"고 말했다. , 생명체의 복잡한 행동을 예측할 때까지." AI 시스템이 세상에 대한 정확한 모델을 갖게 되면 이 모델을 사용하여 행동을 계획할 수 있습니다.
르쿤은 "지능의 본질은 예측하는 법을 배우는 것"이라고 말했습니다. 그는 Meta의 MAE 시스템이 일반 인공 지능에 가깝다고 주장하지는 않았지만 일반 인공 지능을 향한 중요한 단계라고 믿습니다.
하지만 메타 연구자들이 일반 인공지능을 향한 올바른 길을 가고 있다는 데 모두가 동의하는 것은 아닙니다. 요슈아 벤지오(Yoshua Bengio)는 AI의 큰 아이디어에 관해 르쿤과 우호적인 토론을 벌이기도 합니다. IEEE Spectrum에 보낸 이메일에서 Bengio는 목표의 몇 가지 차이점과 유사점을 설명했습니다.
Bengio는 다음과 같이 썼습니다. "저는 현재의 방법(자가 감독 여부에 관계없이)이 인공 지능 수준과 인간 지능 수준 사이의 격차를 해소하는 데 충분하지 않다고 생각합니다." 기술이 인간 수준의 인공 지능에 더 가까워지도록 진심으로 홍보합니다.
Bengio는 “세상에 대해 추론하는 능력이 지능의 핵심 요소”라는 LeCun의 견해에 동의합니다. 그러나 그의 팀은 예측할 수 있는 모델이 아니라 자연어로 세상을 예측할 수 있는 모델에 중점을 둡니다. 지식을 형태로 표현하는 모델. 그는 이러한 모델을 통해 이러한 지식 조각을 결합하여 새로운 문제를 해결하고, 반사실적 시뮬레이션을 수행하거나, 가능한 미래를 연구할 수 있다고 언급했습니다. Bengio 팀은 엔드투엔드 학습을 담당하는 LeCun이 선호하는 것보다 더 모듈화된 새로운 신경망 프레임워크를 개발했습니다.
인기 있는 Transformer
Meta의 MAE는 Transformer라는 신경망 아키텍처를 기반으로 구축되었습니다. 이 아키텍처는 처음에는 자연어 처리 분야에서 인기를 얻었고 나중에 컴퓨터 비전과 같은 다양한 분야로 확장되었습니다.
물론, 비전 작업에 Transformer를 성공적으로 사용한 첫 번째 팀은 Meta가 아닙니다. Meta AI의 연구원인 Ross Girshick은 Google의 ViT(Visual Transformer) 연구가 Meta 팀에 영감을 주었다고 말했습니다. "ViT 아키텍처의 채택은 실험 중에 직면했던 몇 가지 장애물을 제거하는 데 도움이 되었습니다."
Girshick은 Meta의 첫 번째 MAE 시스템 논문의 저자 중 한 명입니다. 이 논문의 저자 중 한 명은 He Kaiming입니다. 그들은 입력 이미지의 무작위 블록을 마스크하고 누락된 픽셀을 재구성하는 매우 간단한 방법에 대해 논의합니다.
이 모델의 훈련은 BERT 및 기타 Transformer 기반 언어 모델과 유사합니다. 연구원들은 거대한 텍스트 데이터베이스를 보여줄 것이지만 일부 단어가 누락되었거나 "마스크 처리되어 있습니다". 모델은 누락된 단어를 스스로 예측해야 하며, 모델이 작업을 확인하고 매개변수를 업데이트할 수 있도록 마스킹된 단어가 공개됩니다. 이 과정이 계속 반복됩니다. 시각적으로 유사한 작업을 수행하기 위해 팀은 이미지를 패치로 나눈 다음 일부 패치를 마스킹하고 MAE 시스템에 이미지에서 누락된 부분을 예측하도록 요청했다고 Girshick은 설명했습니다.
팀의 획기적인 성과 중 하나는 대부분의 이미지를 마스킹하면 최상의 결과를 얻을 수 있다는 사실을 깨달은 것입니다. 이는 단어의 15%만 마스킹할 수 있는 언어 변환기와의 주요 차이점입니다. Girshick은 "언어는 매우 조밀하고 효율적인 의사소통 시스템이며 각 기호는 많은 의미를 담고 있습니다."라고 Girshick은 말했습니다. "그러나 자연 세계의 신호인 이미지는 중복성을 제거하기 위해 만들어지지 않았습니다. JPG 이미지를 만들 때 내용을 잘 압축하세요."
Meta AI의 연구원들은 최상의 결과를 얻기 위해 얼마나 많은 이미지를 마스크해야 하는지 실험했습니다.
Girshick은 이미지에 있는 패치의 75% 이상을 마스킹함으로써 학습하기에는 작업을 너무 사소하게 만드는 이미지의 중복성을 제거했다고 설명했습니다. 두 부분으로 구성된 MAE 시스템은 먼저 인코더를 사용하여 훈련 데이터 세트의 픽셀 간의 관계를 학습한 다음 디코더가 마스크된 이미지에서 원본 이미지를 재구성하기 위해 최선을 다합니다. 이 훈련 계획이 완료된 후에 분류 및 객체 감지와 같은 비전 작업에 맞게 인코더를 미세 조정할 수도 있습니다.
Girshick은 "궁극적으로 흥미로운 점은 다운스트림 작업에서 이 모델의 결과를 볼 수 있다는 것입니다."라고 말했습니다. 그는 인코더를 사용하여 객체 인식과 같은 작업을 완료할 때 "우리가 보는 이득은 매우 상당합니다"라고 지적했습니다. , 모델을 계속 늘리면 성능이 향상될 수 있으며, 이는 SSL이 "수동 주석 없이도 대량의 데이터를 사용할 수 있는 잠재력을 갖고 있기 때문에" 미래 모델의 잠재적인 방향입니다.
필터링되지 않은 대규모 데이터 세트에서 배우기 위해 최선을 다하는 것은 SSL 결과를 개선하기 위한 Meta의 전략일 수 있지만 점점 더 논란이 되고 있는 접근 방식이기도 합니다. Timnit Gebru과 같은 AI 윤리 연구자들은 대규모 언어 모델이 학습하는 선별되지 않은 데이터 세트에 내재된 편견이 때로는 비참한 결과를 초래할 수 있다는 점에 주목했습니다.
비디오 및 오디오에 대한 자기 지도 학습
비디오 MAE 시스템에서 마스크는 각 비디오 프레임의 95%를 가립니다. 프레임 간의 유사성은 비디오 신호가 정적 이미지보다 중복성이 더 많다는 것을 의미하기 때문입니다. 메타 연구원인 Christoph Feichtenhofer는 비디오의 경우 MAE 접근 방식의 가장 큰 장점은 비디오가 종종 계산 집약적이며 MAE는 각 프레임 콘텐츠의 최대 95%를 마스킹하여 계산 비용을 최대 95% 절감한다는 것입니다. .
이 실험에 사용된 영상 클립은 불과 몇 초 길이지만, Feichtenhofer는 더 긴 영상으로 인공 지능 시스템을 훈련시키는 것이 매우 활발한 연구 주제라고 말했습니다. 집의 비디오를 가지고 있고 한 시간 전에 열쇠를 어디에 두었는지 알려줄 수 있는 가상 비서가 있다고 상상해 보십시오.
보다 직접적으로 우리는 이미지와 비디오 시스템이 모두 Facebook과 Instagram의 콘텐츠 조정에 필요한 분류 작업에 유용하다고 상상할 수 있습니다. Feichtenhofer는 "무결성"이 가능한 응용 프로그램 중 하나라고 말했습니다. "우리는 제품 팀 커뮤니케이션, 하지만 이것은 매우 새로운 것이고 아직 구체적인 프로젝트가 없습니다.”
오디오 MAE 작업에 대해 Meta AI 팀은 연구 결과를 곧 arXiv에 게시할 것이라고 말했습니다. 그들은 마스킹 기술을 적용하는 영리한 방법을 찾았습니다. 그들은 사운드 파일을 신호의 주파수 스펙트럼을 시각적으로 표현하는 스펙트로그램으로 변환한 다음 훈련을 위해 이미지의 일부를 마스킹했습니다. 모델이 현재 몇 초 분량의 클립만 처리할 수 있지만 재구성된 오디오는 인상적입니다. 오디오 시스템 연구원인 Bernie Huang은 이 연구의 잠재적인 응용 분야에는 분류 작업, 패킷이 삭제될 때 손실된 오디오를 채워 VoIP(Voice over IP) 전송을 지원하거나 보다 효율적인 오디오 파일 방법을 찾는 것이 포함된다고 말했습니다.
Meta는 이러한 MAE 모델과 같은 오픈 소스 AI 연구를 수행해 왔으며 사전 훈련된 대규모 언어 모델도 인공 지능 커뮤니티에 제공합니다. 그러나 비평가들은 메타가 연구에 너무 개방적임에도 불구하고 핵심 비즈니스 알고리즘, 즉 뉴스피드, 추천, 광고 배치를 제어하는 알고리즘을 연구할 수 있도록 만들지 않았다고 지적합니다.
위 내용은 LeCun의 Meta AI는 자기 감독에 베팅합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제









메타커넥트 2024 행사는 9월 25일부터 26일까지 진행되며, 이번 행사에서 회사는 새로운 저가형 가상현실 헤드셋을 선보일 것으로 예상된다. Meta Quest 3S라는 소문이 있는 이 VR 헤드셋은 FCC 목록에 등장한 것으로 보입니다. 이 제안

GPU를 준비하세요! Llama3.1이 드디어 등장했지만, 출처는 Meta 공식이 아닙니다. 오늘 레딧에서는 라마의 대형 모델 새 버전 유출 소식이 입소문을 냈습니다. 기본 모델 외에도 벤치마크 결과인 8B, 70B, 최대 매개변수인 405B도 포함되어 있습니다. 아래 그림은 Llama3.1의 각 버전과 OpenAIGPT-4o, Llama38B/70B의 비교 결과를 보여줍니다. 여러 벤치마크에서 70B 버전조차 GPT-4o를 능가하는 것을 볼 수 있습니다. 이미지 출처: https://x.com/mattshumer_/status/1815444612414087294 분명히 8B 및 70 버전 3.1입니다.

어제 밤 Meta는 Llama38B 및 70B 모델을 출시했습니다. Llama3 명령 조정 모델은 대화/채팅 사용 사례에 맞게 미세 조정 및 최적화되었으며 일반 벤치마크에서 기존의 많은 오픈 소스 채팅 모델보다 성능이 뛰어납니다. 예를 들어 Gemma7B 및 Mistral7B입니다. Llama+3 모델은 데이터와 규모를 개선하고 새로운 차원에 도달했습니다. 최근 Meta에서 출시한 2개의 맞춤형 24K GPU 클러스터에서 15T 이상의 데이터 토큰에 대해 교육을 받았습니다. 이 교육 데이터 세트는 Llama2보다 7배 더 크고 4배 더 많은 코드를 포함합니다. 이를 통해 Llama 모델의 기능을 현재 최고 수준으로 끌어올려 Llama2의 두 배인 8K 이상의 텍스트 길이를 지원합니다. 아래에

META는 일반적으로 Metaverse라는 가상 세계 또는 플랫폼을 나타냅니다. 메타버스는 현실 세계를 반영하거나 초월하고, 현실 세계와 상호작용할 수 있는 디지털 기술을 이용해 인간이 구축한 가상 세계로, 새로운 사회 시스템을 갖춘 디지털 생활 공간이다.

이제 오랫동안 기다려온 Llama 3.1이 공식 출시되었습니다! 메타는 “오픈소스가 새로운 시대를 선도한다”는 목소리를 공식적으로 내놨다. 메타는 공식 블로그를 통해 “지금까지 오픈소스 대형 언어 모델은 기능이나 성능 면에서 대부분 폐쇄형 모델에 뒤처져 있었다. 이제 오픈소스가 이끄는 새로운 시대를 열고 있다”며 “MetaLlama3.1405B를 공개 출시했다”고 밝혔다. , 우리는 그것이 세계에서 가장 크고 가장 강력한 오픈 소스 기본 모델이라고 믿습니다. 현재까지 모든 Llama 버전의 총 다운로드는 3억 회를 초과했으며 Meta 창립자이자 CEO인 Zuckerberg도 이제 막 시작했습니다. 기사. 긴 기사 "OpenSourceAIisthePathForward",

라마3가 왔습니다! 방금 Meta의 공식 웹사이트가 업데이트되어 공식적으로 Llama의 380억 및 700억 매개변수 버전이 발표되었습니다. 그리고 출시 이후에는 오픈 소스 SOTA입니다. Meta 공식 데이터에 따르면 Llama38B 및 70B 버전은 각각의 매개변수 규모에서 모든 상대를 능가합니다. 8B 모델은 MMLU, GPQA 및 HumanEval과 같은 많은 벤치마크에서 Gemma7B 및 Mistral7BInstruct보다 성능이 뛰어납니다. 70B 모델은 인기 비공개 소스 프라이드치킨 Claude3Sonnet을 능가하고 Google의 GeminiPro1.5와 함께 왔다 갔다 했습니다. Huggingface 링크가 나오자마자 오픈소스 커뮤니티는 다시 열광했습니다. 눈이 예리한 시각장애인 학생들도 즉시 발견했습니다.

24일 뉴스에 따르면 소셜미디어 업계에서 막강한 영향력을 갖고 있는 기술기업 메타가 차세대 컴퓨팅 플랫폼으로 꼽히는 기술인 증강현실(AR) 글래스에 큰 기대를 걸고 있다. 최근 메타의 기술 이사인 Andrew Bosworth는 인터뷰에서 회사가 2024년에 코드명 "Orion"이라는 고급 AR 안경 프로토타입을 출시할 것으로 예상된다고 밝혔습니다. 메타는 오랫동안 AR 기술에 다른 분야 못지않게 투자해 왔으며, 아이폰에 버금가는 획기적인 제품을 만들기 위해 수십억 달러에 달하는 막대한 투자를 해왔습니다. 지난해 오리온 안경 양산 계획 종료를 발표했지만,

Meta의 Quest 3 최초 출시(Amazon에서 현재 $499.99)로부터 1년 이상이 지났습니다. 그 이후로 Apple은 훨씬 더 비싼 Vision Pro를 출시했으며 Byte Dance는 이제 중국에서 Pico 4 Ultra를 공개했습니다. 그러나
