울어죽겠어요. 세상은 큰 모델을 만드는 데 열광하고 있고, 인터넷의 데이터는 충분하지 않습니다. 전혀 충분하지 않습니다.
훈련 모델은 "헝거게임"과 같으며, 전 세계 AI 연구자들은 이러한 빅데이터 먹는 사람들에게 어떻게 먹이를 줄지 고민하고 있습니다.
특히 다중 모드 작업에서 이 문제는 특히 두드러집니다.
이 당황했을 때 인민대학교 학과의 스타트업 팀은 자체 새로운 모델을 사용하여 중국 최초로 "모델 생성 데이터 피드 자체"를 현실화했습니다.
또한 이해 측면과 생성 측면의 두 가지 접근 방식입니다. 양쪽 측면 모두 고품질의 다중 모드 새로운 데이터를 생성하고 모델 자체에 데이터 피드백을 제공할 수 있습니다.
모델이 뭔가요?
멀티모달 대형 모델 Awaker 1.0이 방금 Zhongguancun 포럼에 등장했습니다. 팀은 누구인가요?
소폰 엔진. 중국 인민대학교 Hillhouse 인공지능 학교의 박사 과정 학생인 Gao Yizhao가 설립했으며 Hillhouse 인공 지능 학교의 Lu Zhiwu 교수가 컨설턴트로 활동하고 있습니다. 2021년 회사가 설립되었을 때 일찍부터 다중 모드의 "무인 토지" 트랙에 진입했습니다. MOE 아키텍처는 다중 모드 및 다중 작업 훈련의 충돌 문제를 해결합니다.
지난해 3월 8일, 2년간의 연구개발 끝에 자체 개발한 최초의 멀티모달 모델, 수백억 개의 매개변수를 갖춘 ChatImg 시퀀스 모델을 출시했고, 이를 기반으로 세계 최초로 출시한 공개 평가 다중 모달 대화 ChatImg
(元 Multiply xiang)을 적용하세요. 이후 ChatImg는 계속해서 반복 작업을 이어갔고, 새로운 모델 Awaker의 연구 개발도 병행하여 진행되었습니다. 후자는 또한 이전 모델의 기본 기능을 상속받습니다.
이전 세대 ChatImg 시퀀스 모델과 비교하여 Awaker 1.0
은 MoE 모델 아키텍처를 채택합니다. 그 이유는 다중 모드 및 다중 작업 훈련에서 심각한 갈등 문제를 해결하고 싶기 때문입니다.
MoE 모델 아키텍처를 사용하면 다중 모드 일반 기능과 각 작업에 필요한 고유 기능을 더 잘 학습할 수 있으므로 여러 작업에서 전체 Awaker 1.0의 기능이 더욱 향상됩니다.
데이터는 천 단어의 가치가 있습니다:
주류 다중 모드 평가 목록의 평가 데이터 유출 문제를 고려하여 Tomoko 팀은 자체 평가 세트를 엄격하게 구성했으며 대부분의 테스트 사진은 개인 사진에서 나왔습니다. 휴대폰 앨범.
표에는 Awaker 1.0과 국내외 최첨단 멀티모달 대형 모델 3종을 평가한 결과가 나와 있습니다.
한 가지 더 언급할 점은 GPT-4V와 Intern-VL은 감지 작업을 직접 지원하지 않기 때문에 모델이 객체 방향을 설명하기 위해 언어를 사용하도록 요구하여 감지 결과를 얻습니다.
시각적 질문 답변 및 비즈니스 응용 작업에서 Awaker 1.0의 기본 모델이 GPT-4V, Qwen-VL-Max 및 Intern-VL을 능가하는 것을 볼 수 있습니다.
Awaker 1.0의 기본 모델은 설명, 추론 및 탐지 작업에서 두 번째로 좋은 결과를 달성합니다.
마지막으로 평균점수를 보면 Awaker 1.0이 그 중 가장 높은 값을 가지고 있습니다.
따라서 위의 결과는 MoE 아키텍처를 사용한 다중 작업 다중 모드 모델의 유효성도 확인합니다.
데이터셋 평가 결과는 나와 있지만 실제 효과는 좀 더 경험해 보아야 합니다.
여기에서는 주로 중국어 OCR
(그림 텍스트 인식)과 비교 대형 모델과의 계산 문제, 세부 설명 작업 등에 대한 질문을 합니다. 주로
테스트 계산: Awaker 1.0은 정답을 제공할 수 있지만 다른 세 가지 모델은 모두 오답을 제공합니다.
이 메인 테스트는
중국어 OCR입니다: 정답을 맞춘 플레이어는 Qwen-VL-Max와 Awaker 1.0입니다.
마지막 질문은
그림 내용 이해를 테스트합니다. GPT-4V와 Awaker 1.0은 사진의 내용을 자세하게 기술할 수 있을 뿐만 아니라, 사진에 보이는 코카콜라처럼 사진 속의 세부사항까지 정확하게 식별할 수 있습니다.
Awaker 1.0은 Sophon 팀이 이전에 많은 관심을 받았던 연구 결과 중 일부를 계승했다는 점을 언급해야 합니다.
Awaker 1.0의
생성된 측면인 당신에 대해 이야기하고 있습니다. Awaker 1.0의 세대 측면은 Sophon Engine이 독자적으로 개발한 Sora와 유사한 비디오 생성 기반인 VDT
(Video Diffusion Transformer)입니다. VDT의 학술 논문은 OpenAI Sora
(지난 5월) 출시에 앞서 최고 컨퍼런스 ICLR 2024에서 승인되었습니다.
VDT의 독특한 혁신은 크게 두 가지입니다. 먼저 기술 아키텍처에 Diffusion Transformer가 채택되었습니다. OpenAI 이전에는 비디오 생성 분야에서 Transformer의 엄청난 잠재력을 보여주었습니다. 장점은 시간에 따른 3차원 물체의 물리적 역학 시뮬레이션을 포함하여 시간적으로 일관된 비디오 프레임을 생성할 수 있는 탁월한 시간 종속 캡처 기능에 있습니다. 두 번째는 VDT가 다양한 비디오 생성 작업을 처리할 수 있도록 통합된 시공간 마스크 모델링 메커니즘을 제안하는 것입니다. 단순 토큰 공간 접합과 같은 VDT의 유연한 조건부 정보 처리 방법은 다양한 길이와 양식의 정보를 효과적으로 통합합니다. 동시에 VDT는 본 연구에서 제안한 시공간 마스크 모델링 메커니즘과 결합하여 무조건 생성, 비디오 후속 프레임 예측, 프레임 삽입 등에 적용할 수 있는 범용 비디오 확산 도구가 되었습니다. 모델 구조 영상 그리기, 영상 화면 완성 등 다양한 영상 생성 작업을 수행합니다. Sophon 엔진 팀은 VDT의 단순한 물리 법칙 시뮬레이션을 탐구했을 뿐만 아니라 물리적 과정을 시뮬레이션할 수 있다는 사실도 발견했습니다: 이 또한 hyper- 실감나는 인물 사진 영상 생성 작업 자세히 살펴보세요. 육안은 얼굴과 사람의 역동적인 변화에 매우 민감하기 때문에 이 작업은 비디오 생성 품질에 대한 요구 사항이 매우 높습니다. 그러나 Sophon 엔진은 초현실적인 인물 영상 생성을 위한 대부분의 핵심 기술을 돌파했으며 Sora만큼 인상적입니다. 네 말에는 근거가 없다. VDT와 제어 가능 생성을 결합한 Sophon 엔진이 인물 영상 생성 품질을 향상시키는 효과는 다음과 같습니다. 소폰 엔진은 앞으로도 캐릭터의 제어 가능 생성 알고리즘을 최적화하고 상용화를 적극적으로 모색할 것으로 알려졌습니다. 새로운 대화형 데이터의 꾸준한 스트림 생성 Awaker 1.0은 독립적으로 업데이트할 수 있는 세계 최초의 다중 모드 대형 모델입니다. 즉, Awaker 1.0은 "실시간"이며 매개변수가 실시간으로 지속적으로 업데이트될 수 있습니다. 이는 Awaker 1.0이 다른 모든 대형 다중 모드 모델과 다른 점입니다. Awaker 1.0의 자동 업데이트 메커니즘에는 세 가지 핵심이 포함됩니다. 기술은 다음과 같습니다. 이를 바탕으로 Awaker 1.0은 이해 측면과 생성 측면 모두에서 새로운 대화형 데이터의 꾸준한 흐름을 생성할 수 있습니다. 어떻게 하나요? 이해 측면에서 Awaker 1.0은 디지털 및 현실 세계와 상호 작용합니다. 작업을 실행하는 과정에서 Awaker 1.0은 장면 행동 데이터를 모델에 다시 공급하여 지속적인 업데이트와 훈련을 달성합니다. 세대 측면에서 Awaker 1.0은 고품질 다중 모드 콘텐츠 생성을 수행하여 측면 모델 이해를 위한 더 많은 교육 데이터를 제공할 수 있습니다. 이해 측면과 생성 측면의 두 루프에서 Awaker 1.0은 시각적 이해와 시각적 생성의 통합을 실제로 구현합니다. 소라가 나온 이후 AGI를 이루기 위해서는 '이해와 세대의 통일'이 이루어져야 한다는 목소리가 점점 더 많아졌습니다. 새로운 지식의 주입을 예로 들어, 런스루의 구체적인 예를 살펴보겠습니다. Awaker 1.0은 인터넷에서 실시간 뉴스 정보를 지속적으로 학습하는 동시에 새로 학습된 뉴스 정보를 결합하여 다양하고 복잡한 질문에 답합니다. 이것은 현재 두 가지 주류 방법, 즉 RAG 및 전통적인 긴 컨텍스트 방법과 다릅니다. Awaker 1.0은 실제로 자체 모델의 매개변수에 새로운 지식을 "기억"합니다. Awaker 1.0은 3일 연속 자동 업데이트를 통해 매일 그 날의 뉴스 정보를 학습하고 설명에 해당 정보를 정확하게 기재하는 것을 볼 수 있습니다. 그리고 Awaker 1.0은 학습을 했지만 배운 내용을 빨리 잊지 않습니다. 예를 들어, 4월 16일에 배운 Zhijie S7과 관련된 지식은 2일 후에도 Awaker 1.0에서 여전히 기억되거나 이해되었습니다. 그러니, 데이터가 금인 이 시대, “데이터가 부족하다”고 한탄하지 마세요. 데이터 병목 현상에 직면한 팀의 경우 Awaker 1.0이 실현 가능하고 사용 가능한 새로운 옵션이 아닌가요? 즉, "다중 모드 대형 모델을 체화된 지능에 적용"이라는 문제에 직면했을 때 시각적 이해와 시각적 생성의 통합 때문입니다. Awaker 1.0이 명확하게 공개되었습니다. 요점은 이렇습니다. 대형 멀티모달 모델인 Awaker 1.0은 구현된 지능의 '눈'과 자연스럽게 결합될 수 있는 시각적 이해 기능을 갖추고 있습니다. 또한 주류 목소리에서는 "다중 모드 대형 모델 + 구체화된 지능"이 구현된 지능의 적응성과 창의성을 크게 향상할 수 있으며 AGI를 실현하는 실현 가능한 경로일 수도 있다고 믿습니다. 이유는 두 가지에 불과합니다. 먼저, 사람들은 체화된 지능이 적응 가능하기를 기대합니다. 즉, 에이전트는 지속적인 학습을 통해 변화하는 응용 환경에 적응할 수 있습니다. 이러한 방식으로 구체화된 지능은 알려진 다중 모드 작업에서 점점 더 나은 작업을 수행할 수 있을 뿐만 아니라 알려지지 않은 다중 모드 작업에도 빠르게 적응할 수 있습니다. 둘째, 사람들은 또한 체화된 지능이 진정으로 창의적이기를 기대하며, 환경의 자율적 탐색을 통해 새로운 전략과 솔루션을 발견하고 AI 역량의 경계를 탐색할 수 있기를 바랍니다. 그러나 둘의 적응은 단순히 대형 멀티모달 모델을 신체에 연결하거나, 뇌를 체화된 지능에 직접 설치하는 것만큼 간단하지 않습니다. 다중 모드 대형 모델을 예로 들면, 우리가 직면한 적어도 두 가지 명백한 문제가 있습니다. 첫째, 모델의 반복 업데이트 주기가 길기 때문에, 이는 많은 인력 투자를 필요로 합니다. 둘째, 모델의 훈련 데이터는 모두 기존 데이터에서 파생되며, 모델을 지속적으로 수행할 수 없습니다. 많은 양의 새로운 지식을 얻으세요. RAG를 통해 지속적으로 새로운 지식을 주입하고 컨텍스트 창을 확장하는 것도 가능하지만 모델이 이를 기억하지 못하며 교정 방법에 따라 추가적인 문제가 발생합니다. 간단히 말하면, 현재의 대형 멀티모달 모델은 창의성은커녕 실제 적용 시나리오에 적응력이 좋지 않아 업계에서 구현 시 여러 가지 어려움을 겪고 있습니다. 훌륭함 - 앞서 언급한 내용을 기억하세요. Awaker 1.0은 새로운 지식을 배울 수 있을 뿐만 아니라 새로운 지식도 기억할 수 있으며, 이러한 종류의 학습은 매일 지속적이며 시의적절합니다. 이 프레임 다이어그램에서 볼 수 있듯이 Awaker 1.0은 다양한 스마트 기기와 결합하여 스마트 기기를 통해 세상을 관찰하고 행동 의도를 생성하며 스마트 기기를 제어하는 명령을 자동으로 구성하여 다양한 행동을 완료할 수 있습니다. 다양한 작업을 완료한 후 스마트 장치는 자동으로 다양한 피드백을 생성합니다. Awaker 1.0은 이러한 작업과 피드백으로부터 효과적인 훈련 데이터를 획득하여 지속적으로 업데이트하고 모델의 다양한 기능을 지속적으로 강화할 수 있습니다. 이것은 살아있는 두뇌를 가진 구체화된 지능과 동일합니다. How pay(개머리)~ 특히 중요한 점은 Awaker 1.0은 독립적인 업데이트가 가능하기 때문에 체화된 지능뿐만 아니라 더 넓은 영역에 적용할 수 있다는 것입니다. 다양한 응용 산업 시나리오를 제공하며 보다 복잡한 실제 작업을 해결할 수 있습니다. 예를 들어 Awaker 1.0은 다양한 스마트 장치와 통합되어 클라우드 에지 협업을 달성합니다. 현재 Awaker 1.0은 클라우드에 배포된 "두뇌"로서 다양한 엣지 스마트 기기를 관찰하고 명령하고 제어하여 다양한 작업을 수행합니다. 엣지 스마트 기기가 다양한 작업을 수행할 때 얻은 피드백은 Awaker 1.0으로 지속적으로 전송되어 지속적으로 훈련 데이터를 얻고 자체 업데이트됩니다. 이것은 단지 종이에 나온 이야기가 아닙니다. Awaker 1.0의 기술 경로와 스마트 장치와의 클라우드 엣지 협업은 스마트 그리드 검사 및 스마트 시티와 같은 응용 시나리오에 적용되었으며 그보다 훨씬 더 나은 인식 결과를 달성했습니다. 전통적인 작은 모델의. 대형 멀티모달 모델은 듣고, 보고, 말할 수 있으며 음성인식, 이미지 처리, 자연어 이해 등 다양한 분야에서 큰 잠재력과 활용 가치를 보여주고 있습니다. 하지만 문제는 분명합니다. 어떻게 지속적으로 새로운 지식을 흡수하고 새로운 변화에 적응할 수 있을까요? 내면의 힘을 키우고 무술을 향상시키는 것이 다중 모드 대형 모델이 직면한 중요한 문제가 되었다고 할 수 있습니다. 소폰 엔진 Awaker 1.0의 등장은 멀티모달 대형 모델의 자기초월의 열쇠를 제공합니다. 독립적인 업데이트 메커니즘을 통해 데이터 부족의 병목 현상을 해결하고 다중 모드 대형 모델의 지속적인 학습 및 자체 진화 가능성을 제공한 다음 클라우드를 사용하여 별을 유치하는 방법을 마스터한 것 같습니다. 구체화된 지능과 같은 지능형 장치의 구체적인 응용 시나리오를 통해 용감하게 세계로 나아갈 수 있는 엣지 협업 기술. 이것은 AGI를 향한 작은 발걸음일 수도 있지만, 다중 모드 대형 모델을 위한 자기 초월 여정의 시작이기도 합니다. 길고 어려운 여정을 위해서는 Sophon Engine과 같은 팀이 지속적으로 기술의 정점에 도달해야 합니다. 더 주목할만한 점은 Sophon 엔진 팀이 다음과 같이 강조했다는 점입니다.
체화된 지능의 "살아있는" 뇌
위 내용은 초지능의 생명력이 깨어난다! 하지만 자동 업데이트 AI가 등장하면서 엄마들은 더 이상 데이터 병목 현상을 걱정할 필요가 없습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!