멀티모달 AI 시스템은 행동 결정을 안내하기 위해 자연어, 시각, 오디오 등 다양한 유형의 데이터를 처리하고 학습하는 능력이 특징입니다. 최근 시각적 데이터를 대규모 언어 모델(예: GPT-4V)에 통합하는 방법에 대한 연구가 중요한 진전을 이루었지만 이미지 정보를 AI 시스템의 실행 가능한 작업으로 효과적으로 변환하는 방법은 여전히 과제에 직면해 있습니다. 이미지 정보의 변환을 달성하기 위해 일반적인 방법은 이미지 데이터를 해당 텍스트 설명으로 변환한 후 AI 시스템이 해당 설명을 기반으로 작동하는 것입니다. 이는 기존 이미지 데이터 세트에 대해 지도 학습을 수행하여 AI 시스템이 이미지-텍스트 매핑 관계를 자동으로 학습할 수 있도록 함으로써 가능합니다. 또한 강화학습 방법을 활용하면 환경과 상호작용하여 이미지 정보를 기반으로 의사결정을 내리는 방법을 학습할 수도 있습니다. 또 다른 방법은 이미지 정보를 언어 모델과 직접 결합해 구성하는 것이다
최근 논문에서 연구진은 '기능형 토큰' 개념을 도입해 AI 애플리케이션을 위해 특별히 설계된 다중 모드 모델을 제안했다.
논문 제목: Octopus v3: 온디바이스 십억 단위 다중 모달 AI 에이전트에 대한 기술 보고서
논문 링크: https://arxiv.org/pdf/2404.11459.pdf
모델 가중치 및 추론 코드: https://www.nexa4ai.com/apply
이 모델은 엣지 디바이스를 완벽하게 지원할 수 있으며, 연구원들은 매개변수 양을 10억 이내로 최적화했습니다. GPT-4와 유사하게 이 모델은 영어와 중국어를 모두 처리할 수 있습니다. 실험을 통해 모델이 Raspberry Pi를 비롯한 리소스가 제한된 다양한 단말 장치에서 효율적으로 실행될 수 있음이 입증되었습니다.
연구 배경
인공지능 기술의 급속한 발전은 인간과 컴퓨터의 상호작용 방식을 완전히 바꿔 복잡한 작업을 수행하고 자연어, 시각 등 다양한 형태의 입력을 기반으로 의사결정을 내릴 수 있는 수많은 지능형 AI 시스템을 탄생시켰습니다. 이러한 시스템은 이미지 인식, 언어 번역 등 단순한 작업부터 의료 진단, 자율주행 등 복잡한 애플리케이션까지 모든 것을 자동화할 것으로 예상된다. 다중 모드 언어 모델은 이러한 지능형 시스템의 핵심으로, 텍스트, 이미지, 오디오 및 비디오와 같은 다중 모드 데이터를 처리하고 통합하여 인간에 가까운 응답을 이해하고 생성할 수 있습니다. 주로 텍스트 처리 및 생성에 초점을 맞춘 기존 언어 모델과 비교할 때 다중 모드 언어 모델은 큰 도약입니다. 시각적 정보를 통합함으로써 이러한 모델은 입력 데이터의 컨텍스트와 의미를 더 잘 이해할 수 있으므로 더 정확하고 관련성이 높은 출력을 얻을 수 있습니다. 멀티모달 데이터를 처리하고 통합하는 능력은 시각적 질문 답변, 이미지 탐색, 멀티모달 감정 분석 등과 같은 언어 및 시각적 정보와 같은 작업을 동시에 이해할 수 있는 멀티모달 AI 시스템을 개발하는 데 매우 중요합니다.
다중 모드 언어 모델을 개발할 때의 과제 중 하나는 시각적 정보를 모델이 처리할 수 있는 형식으로 효과적으로 인코딩하는 방법입니다. 이는 일반적으로 시각적 변환기(ViT) 및 CNN(컨볼루션 신경망)과 같은 신경망 아키텍처의 도움으로 수행됩니다. 이미지에서 계층적 특징을 추출하는 기능은 컴퓨터 비전 작업에 널리 사용됩니다. 이러한 아키텍처를 모델로 사용하면 입력 데이터에서 더 복잡한 표현을 추출하는 방법을 배울 수 있습니다. 또한 변환기 기반 아키텍처는 장거리 종속성을 캡처할 수 있을 뿐만 아니라 이미지의 개체 간의 관계를 이해하는 데도 효과적입니다. 최근 몇 년 동안 매우 인기가 있습니다. 이러한 아키텍처를 통해 모델은 입력 이미지에서 의미 있는 특징을 추출하고 이를 텍스트 입력과 결합할 수 있는 벡터 표현으로 변환할 수 있습니다.
시각적 정보를 인코딩하는 또 다른 방법은 이미지 토큰화입니다. 이는 이미지를 더 작은 개별 단위 또는 토큰으로 나누는 것입니다. 이 접근 방식을 사용하면 모델이 텍스트와 유사한 방식으로 이미지를 처리할 수 있어 두 가지 양식을 보다 원활하게 통합할 수 있습니다. 이미지 토큰 정보는 텍스트 입력과 함께 모델에 공급될 수 있으므로 두 양식 모두에 집중하고 보다 정확하고 상황에 맞는 출력을 생성할 수 있습니다. 예를 들어, OpenAI가 개발한 DALL-E 모델은 VQ-VAE(Vector Quantized Variational Autoencoder)의 변형을 사용하여 이미지를 기호화하므로 모델이 텍스트 설명을 기반으로 새로운 이미지를 생성할 수 있습니다. 사용자가 제공한 쿼리와 이미지에 따라 작동할 수 있는 작고 효율적인 모델을 개발하는 것은 AI 시스템의 향후 개발에 깊은 영향을 미칠 것입니다. 이러한 모델은 스마트폰, IoT 장치 등 리소스가 제한된 장치에 배포하여 적용 범위와 시나리오를 확장할 수 있습니다. 다중 모드 언어 모델의 기능을 활용하는 이러한 소규모 시스템은 사용자가 제공하는 시각적 컨텍스트를 고려하면서 보다 자연스럽고 직관적인 방식으로 사용자 쿼리를 이해하고 응답할 수 있습니다. 이는 사용자 선호도에 따라 시각적 추천을 제공하는 가상 비서나 사용자의 얼굴 표정에 따라 설정을 조정하는 스마트 홈 장치와 같이 더욱 매력적이고 개인화된 인간-컴퓨터 상호 작용의 가능성을 열어줍니다.
또한, 멀티모달 AI 시스템의 개발은 인공지능 기술을 민주화하여 더 넓은 범위의 사용자와 산업에 혜택을 줄 것으로 예상됩니다. 컴퓨팅 성능이 약한 하드웨어에서 더 작고 효율적인 모델을 훈련할 수 있으므로 배포에 필요한 컴퓨팅 리소스와 에너지 소비가 줄어듭니다. 이는 의료, 교육, 엔터테인먼트, 전자상거래 등 다양한 분야에 AI 시스템이 광범위하게 적용되어 궁극적으로 사람들이 살고 일하는 방식을 변화시킬 수 있습니다.
관련 연구
멀티모달 모델은 텍스트, 이미지, 오디오 등 다양한 데이터 유형을 처리하고 학습하는 능력으로 인해 많은 주목을 받았습니다. 이러한 유형의 모델은 다양한 양식 간의 복잡한 상호 작용을 포착하고 상호 보완적인 정보를 사용하여 다양한 작업의 성능을 향상시킬 수 있습니다. ViLBERT, LXMERT, VisualBERT 등과 같은 VLP(Vision-Language Pre-trained) 모델은 교차 모드 주의를 통해 시각적 및 텍스트 기능의 정렬을 학습하여 풍부한 다중 모드 표현을 생성합니다. MMT, ViLT 등과 같은 다중 모드 변환기 아키텍처는 다중 모드를 효율적으로 처리할 수 있도록 변환기를 개선했습니다. 연구원들은 또한 다중 모드 감정 분석(MSA) 모델, 다중 모드 감정 인식(MER) 모델 등과 같은 모델에 오디오 및 얼굴 표정과 같은 다른 양식을 통합하려고 시도했습니다. 다양한 양식의 보완적인 정보를 활용함으로써 다중 모드 모델은 단일 모드 방법보다 더 나은 성능과 일반화 기능을 달성합니다.
터미널 언어 모델은 70억 개 미만의 매개변수를 가진 모델로 정의됩니다. 연구자들은 양자화를 사용하더라도 에지 장치에서 130억 개의 매개변수 모델을 실행하는 것이 매우 어렵다는 것을 발견했기 때문입니다. 이 분야의 최근 발전에는 Google의 Gemma 2B 및 7B, Stable Diffusion의 Stable Code 3B, Meta의 Llama 7B가 포함됩니다. 흥미롭게도 Meta의 연구에 따르면 대규모 언어 모델과 달리 소규모 언어 모델은 깊고 좁은 아키텍처에서 더 나은 성능을 발휘합니다. 터미널 모델에 유용한 다른 기술로는 MobileLLM에서 제안하는 임베딩 공유, 그룹화된 쿼리 주의 및 즉각적인 블록 가중치 공유가 있습니다. 이러한 결과는 대규모 모델보다 최종 응용 프로그램을 위한 작은 언어 모델을 개발할 때 다양한 최적화 방법과 설계 전략을 고려해야 할 필요성을 강조합니다.
Octopus Method
Octopus v3 모델 개발에 사용된 주요 기술입니다. 다중 모드 모델 개발의 두 가지 주요 측면은 이미지 정보를 텍스트 입력과 통합하고 모델의 동작 예측 기능을 최적화하는 것입니다.
시각 정보 인코딩
이미지 처리에는 다양한 시각적 정보 인코딩 방법이 있으며, 일반적으로 히든 레이어 임베딩이 사용됩니다. 예를 들어 VGG-16 모델의 숨겨진 레이어 임베딩은 스타일 전송 작업에 사용됩니다. OpenAI의 CLIP 모델은 이미지 인코더를 활용하여 이미지를 삽입하여 텍스트와 이미지 삽입을 정렬하는 기능을 보여줍니다. ViT와 같은 방법은 이미지 토큰화와 같은 고급 기술을 사용합니다. 연구진은 다양한 이미지 코딩 기법을 평가한 결과 CLIP 모델 방식이 가장 효과적이라는 사실을 확인했습니다. 따라서 본 논문에서는 영상 코딩을 위해 CLIP 기반 모델을 사용한다.
기능 토큰
자연어, 이미지에 적용되는 토큰화와 마찬가지로 특정 기능도 기능 토큰으로 캡슐화할 수 있습니다. 연구원들은 보이지 않는 단어를 처리하기 위해 자연어 모델 기술을 활용하여 이러한 토큰에 대한 훈련 전략을 도입했습니다. 이 방법은 word2vec과 유사하며 컨텍스트를 통해 토큰의 의미를 풍부하게 합니다. 예를 들어, 고급 언어 모델은 처음에는 PEGylation 및 Endosomal Escape와 같은 복잡한 화학 용어로 인해 어려움을 겪을 수 있습니다. 그러나 인과 언어 모델링을 통해, 특히 이러한 용어가 포함된 데이터 세트에 대한 교육을 통해 모델은 이러한 용어를 학습할 수 있습니다. 마찬가지로 기능 토큰은 병렬 전략을 통해 학습할 수도 있으며, Octopus v2 모델은 이러한 학습 프로세스를 위한 강력한 플랫폼을 제공합니다. 연구에 따르면 기능 토큰의 정의 공간은 무한하여 특정 기능을 토큰으로 표시할 수 있습니다.
다단계 훈련
고성능 멀티모달 AI 시스템을 개발하기 위해 연구원들은 인과 언어 모델과 이미지 인코더를 통합한 모델 아키텍처를 채택했습니다. 이 모델의 훈련 과정은 여러 단계로 나누어집니다. 먼저, 인과언어 모델과 이미지 인코더를 별도로 학습시켜 기본 모델을 구축한다. 그 후, 두 구성 요소가 병합 및 정렬되어 이미지와 텍스트 처리 기능을 동기화하도록 학습됩니다. 이를 기반으로 기능 토큰의 학습을 촉진하기 위해 Octopus v2의 방법을 사용합니다. 최종 훈련 단계에서 환경과 상호 작용하는 이러한 기능 토큰은 모델의 추가 최적화를 위한 피드백을 제공합니다. 따라서 마지막 단계에서 연구자들은 강화 학습을 채택하고 또 다른 대형 언어 모델을 보상 모델로 선택했습니다. 이 반복적인 훈련 방법은 다중 모드 정보를 처리하고 통합하는 모델의 능력을 향상시킵니다.
모델 평가
이 섹션에서는 모델의 실험 결과를 소개하고 이를 GPT-4V와 GPT-4 모델을 통합한 효과와 비교합니다. 비교 실험에서 연구진은 영상 정보 처리를 위해 먼저 GPT-4V(gpt-4-turbo)를 사용했다. 그런 다음 추출된 데이터는 GPT-4 프레임워크(gpt-4-turbo-preview)에 공급되어 모든 기능 설명을 맥락화하고 퓨샷 학습을 적용하여 성능을 향상시킵니다. 시연에서 연구원들은 일반적으로 사용되는 10개의 스마트폰 API를 기능 토큰으로 변환하고 성능을 평가했습니다. 자세한 내용은 다음 섹션에서 설명합니다.
이 기사에서는 10개의 기능 토큰만 보여주지만 모델은 더 많은 토큰을 훈련하여 보다 일반적인 AI 시스템을 만들 수 있다는 점에 주목할 가치가 있습니다. 연구원들은 선택된 API의 경우 10억 개 미만의 매개변수를 가진 모델이 GPT-4V 및 GPT-4의 조합에 필적하는 다중 모드 AI로 수행된다는 것을 발견했습니다.
또한 이 기사에 있는 모델의 확장성을 통해 광범위한 기능 토큰을 포함할 수 있어 특정 분야 또는 시나리오에 적합한 고도로 전문화된 AI 시스템을 생성할 수 있습니다. 이러한 적응성은 AI 기반 솔루션이 효율성과 사용자 경험을 크게 향상시킬 수 있는 의료, 금융, 고객 서비스와 같은 산업에서 우리의 접근 방식을 특히 중요하게 만듭니다.
아래의 모든 함수 이름 중에서 Octopus는 ,...,
이메일 보내기
SMS 보내기
Google 검색
쇼핑
스마트 재활용
분실 및 발견
인테리어 디자인
Instacart 쇼핑
DoorDash Delivery
애완동물 관리
사회적 영향
Octopus v2를 기반으로 업데이트된 모델은 텍스트 및 시각적 정보를 통합합니다. 는 이전 버전인 텍스트 전용 접근 방식보다 중요한 진전입니다. 이러한 획기적인 발전을 통해 시각적 데이터와 자연어 데이터를 동시에 처리할 수 있어 더 넓은 응용 분야에 대한 기반이 마련되었습니다. Octopus v2에 도입된 기능 토큰은 의료, 자동차 산업 등 다양한 분야에 적용할 수 있습니다. 시각적 데이터까지 더해지면서 기능성 토큰의 잠재력은 자율주행, 로봇공학 등 분야로 더욱 확장된다. 또한 이 기사의 다중 모드 모델을 사용하면 클라우드 기반 솔루션이 아닌 엔드포인트 모델을 사용하여 Raspberry Pi와 같은 장치를 Rabbit R1 및 Humane AI Pin과 같은 지능형 하드웨어로 실제로 변환할 수 있습니다.
기능 토큰은 현재 승인되었습니다. 연구원은 개발자가 라이선스 계약을 준수한다는 전제 하에 이 문서의 프레임워크에 참여하고 자유롭게 혁신할 것을 권장합니다. 향후 연구에서 연구원들은 오디오 및 비디오와 같은 추가 데이터 형식을 수용할 수 있는 교육 프레임워크를 개발하는 것을 목표로 하고 있습니다. 또한 연구원들은 시각적 입력이 상당한 지연을 유발할 수 있다는 사실을 발견했으며 현재 추론 속도를 최적화하고 있습니다.
위 내용은 10억 개 미만의 매개변수를 가진 OctopusV3를 GPT-4V 및 GPT-4와 어떻게 비교할 수 있습니까?의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!