위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접
시각 명령 미세 조정이 인기입니다.
이 문서는 Visual Instruction Tuning이라고 하며 University of Wisconsin-Madison, Microsoft Research 및 Columbia University가 공동으로 제작했습니다.
저자에는 Haotian Liu, Chunyuan Li, Qingyang Wu 및 Yong Jae Lee가 포함됩니다.
동시에 연구원들은 GitHub에서 코드, 모델 및 데이터 세트를 오픈 소스로 공개했습니다. 이 논문은 Arxiv에도 게재되었습니다.
설명
그럼 LLaVA의 기능은 정확히 무엇인가요? 신문 속으로 들어가 보면, 신문에 익숙하지 않은 사람들에게는 다소 낯설게 느껴질 수도 있습니다.
먼저 LLaVA님의 말씀을 살펴보겠습니다.
위 답변은 LLaVA의 Chatbot에서 생성된 것입니다. 제가 입력한 질문은 LLaVA의 기능은 무엇이며 사용자는 이를 어떻게 활용할 수 있습니까?
답은 다음과 같습니다.
LLaVA는 UW Madison WAIV 연구소에서 교육을 받은 대규모 언어 및 시각 보조원입니다. LLaVA는 자연어 이해 기능과 시각적 콘텐츠 분석 기능을 활용하여 사용자가 다양한 작업을 처리할 수 있도록 설계되었습니다.
LLaVA의 주요 기능은 다음과 같습니다:
· 텍스트 기반 작업: LLaVA는 텍스트를 처리 및 분석하여 사용자가 질문할 수 있고, LLaVA는 사용자와 대화하거나 사용자가 입력한 작업을 완료할 수 있습니다. 문서 요약 개선, 감정 분석, 엔터티 인식 등에 대해 이야기해 보세요.
· 이미지 기반 작업: LLaVA는 이미지를 분석하고, 이미지를 설명하고, 개체 인식을 수행하고, 장면을 분석하고 이해할 수 있습니다.
사용자가 LLaVA를 더 잘 사용하고 싶다면 인간과 대화하는 것처럼 LLaVA와 직접 대화할 수 있습니다. 가능한 한 많은 세부정보를 제공하시면 LLaVA가 보다 완전한 답변을 생성해 드립니다.
동시에 결국 LLaVA는 기계 학습 모델이자 AI 도구라는 점을 기억해야 합니다. 도구라면 한계가 있습니다. LLaVA는 사용자가 매번 입력하는 질문에 완벽하게 대답하지 못할 수도 있습니다.
물론 LLaVA도 끊임없이 학습하고 개선하고 있으며 그 기능은 점점 더 강력해질 것입니다.
일반적으로 LLaVA의 답변을 보면 챗봇의 기능은 GPT와 크게 다르지 않다는 것을 알 수 있습니다. 그러나 LLaVA는 이미지와 관련된 일부 작업을 처리할 수 있습니다.
색상 전시
연구원들은 Arxiv의 논문에서 LLaVA의 기술적 세부 사항을 자세히 설명했습니다.
기계 생성 지침을 사용하여 데이터를 따라가며 LLM(대형 언어 모델)에 대한 지침을 미세 조정하면 새로운 작업에 대한 영점 기능이 향상된다는 점을 아는 것이 중요하지만 이 아이디어는 다중 언어 모델에서는 덜 탐구되었습니다. 모달 필드.
논문에서 연구원들은 먼저 언어 전용 GPT-4를 사용하여 다중 모달 언어 이미지에 대한 지시 따르기 데이터를 생성하려고 시도했습니다.
이 생성된 데이터에 대한 조건 지정 지침을 통해 연구원들은 LLaVA를 소개합니다. LLaVA는 대규모 언어 및 시각 보조자이며, 일반 시각 및 시력을 위한 시각적 인코더와 LLM을 연결하는 엔드투엔드 훈련된 대규모 다중 모드 모델입니다. 언어 이해.
초기 실험에서 LLaVA는 인상적인 다중 모드 채팅 기능을 보여주었으며 때로는 보이지 않는 이미지/지침에 다중 모드 GPT-4 성능을 출력하고 합성 다중 모드 지침을 따르는 것으로 나타났습니다. 데이터 세트의 GPT-4와 비교하여 상대점수는 85.1%이다.
사이언스 매거진에 맞춰 미세 조정했을 때 LLaVA와 GPT-4의 시너지 효과로 92.53%라는 새로운 최첨단 정확도를 달성했습니다.
연구원들은 GPT-4에서 생성된 시각적 명령 조정을 위한 데이터, 모델 및 코드 베이스를 공개했습니다.
Multimodal model
먼저 정의를 명확히 하세요.
대규모 멀티모달 모델은 텍스트, 이미지 등 다양한 입력 유형을 처리하고 분석할 수 있는 머신러닝 기술 기반 모델을 말합니다.
이러한 모델은 더 넓은 범위의 작업을 처리하도록 설계되었으며 다양한 형태의 데이터를 이해할 수 있습니다. 텍스트와 이미지를 입력으로 사용함으로써 이러한 모델은 설명을 이해하고 컴파일하는 능력을 향상시켜 보다 정확하고 관련성 있는 답변을 생성합니다.
인간은 시각, 언어 등 다양한 채널을 통해 세계와 상호 작용합니다. 각 채널은 특정 세계 개념을 표현하고 전달하는 데 고유한 장점이 있어 세계를 더 잘 이해하는 데 도움이 됩니다.
인공 지능의 핵심 목표 중 하나는 인간의 의도와 일치하면서 다중 모드의 시각적 및 언어 지침을 효과적으로 따르고 다양한 실제 작업을 완료할 수 있는 보편적인 보조 장치를 개발하는 것입니다.
결과적으로 개발자 커뮤니티는 분류, 감지, 분할, 설명, 비전 생성 및 편집과 같은 개방형 시각적 이해의 강력한 기능을 갖춘 언어 강화 기본 비전 모델 개발에 대한 새로운 관심을 목격하고 있습니다.
이러한 기능에서 각 작업은 단일 대형 시각적 모델에 의해 독립적으로 해결되며 작업 지침은 모델 디자인에서 암시적으로 고려됩니다.
게다가 언어는 이미지 내용을 설명하는 데에만 사용됩니다. 이를 통해 언어는 시각적 신호를 인간 의사소통의 공통 채널인 언어 의미론으로 매핑하는 데 중요한 역할을 할 수 있습니다. 그러나 이로 인해 상호 작용이 제한되고 사용자 지침에 대한 적응성이 제한된 고정 인터페이스가 있는 모델이 발생하는 경우가 많습니다. 메이 관심 있는 작업을 수행하고 해결합니다.
예를 들어 최근 ChatGPT 및 GPT-4의 성공은 이 LLM이 인간의 지시를 따르는 능력을 입증했으며 오픈 소스 LLM 개발에 대한 큰 관심을 불러일으켰습니다.
LLaMA는 GPT-3와 성능이 동등한 오픈 소스 LLM입니다. 지속적인 작업에서는 샘플에 따라 다양한 기계 생성 고품질 지침을 활용하여 LLM의 정렬 기능을 개선하고 독점 LLM에 비해 인상적인 성능을 보고합니다. 중요한 것은 이 작업 라인이 텍스트 전용이라는 것입니다.
본 논문에서 연구자들은 명령 튜닝을 다중 모달 공간으로 확장하고 범용 시각 보조 장치를 구축하기 위한 길을 닦는 최초의 시도인 시각적 명령 튜닝을 제안합니다. 구체적으로 논문의 주요 내용은 다음과 같습니다.
데이터를 따르는 다중 모드 명령. 주요 과제는 데이터를 따라가기 위한 시각적 언어 지침이 부족하다는 것입니다. ChatGPT/GPT-4를 사용하여 이미지-텍스트 쌍을 적절한 명령 따르기 형식으로 변환하는 데이터 개혁 관점과 파이프라인을 제시합니다.
대형 멀티모달 모델. 연구진은 CLIP의 개방형 시각 인코더와 언어 디코더 LaMA를 연결하여 LMM(Large Multimodal Model)을 개발하고 생성된 교육용 시각-언어 데이터에 대해 엔드투엔드(End-to-End)를 미세 조정했습니다. 경험적 연구는 생성된 데이터를 사용하여 LMM 명령 튜닝의 효율성을 검증하고 일반적인 명령을 따르는 시각적 에이전트를 구축하기 위한 실용적인 제안을 제공합니다. GPT 4를 통해 연구팀은 Science QA 다중 모드 추론 데이터 세트에서 최고 수준의 성능을 달성했습니다.
오픈 소스. 연구팀은 생성된 다중 모드 명령 데이터, 데이터 생성 및 모델 훈련을 위한 코드 라이브러리, 모델 체크포인트, 시각적 채팅 시연 등을 대중에게 공개했습니다.
결과 표시
LLaVA가 모든 종류의 문제를 처리할 수 있으며 생성된 답변은 포괄적이고 논리적이라는 것을 알 수 있습니다.
LLaVA는 시각적 채팅 측면에서 GPT-4 상대 점수가 85%로 GPT-4 수준에 가까운 일부 다중 모드 기능을 보여줍니다.
논리적 질문과 답변 측면에서 LLaVA는 심지어 새로운 SoTA-92.53%에 도달하여 다중 모드 사고 체인을 물리쳤습니다.
위 내용은 위스콘신대학교-매디슨대학교 등이 공동으로 게시글을 발행했습니다! 최신 멀티모달 대형 모델 LLaVA 출시, GPT-4 수준에 근접의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

Video Face Swap
완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











기존 컴퓨팅을 능가할 뿐만 아니라 더 낮은 비용으로 더 효율적인 성능을 달성하는 인공 지능 모델을 상상해 보세요. 이것은 공상과학 소설이 아닙니다. DeepSeek-V2[1], 세계에서 가장 강력한 오픈 소스 MoE 모델이 여기에 있습니다. DeepSeek-V2는 경제적인 훈련과 효율적인 추론이라는 특징을 지닌 전문가(MoE) 언어 모델의 강력한 혼합입니다. 이는 236B 매개변수로 구성되며, 그 중 21B는 각 마커를 활성화하는 데 사용됩니다. DeepSeek67B와 비교하여 DeepSeek-V2는 더 강력한 성능을 제공하는 동시에 훈련 비용을 42.5% 절감하고 KV 캐시를 93.3% 줄이며 최대 생성 처리량을 5.76배로 늘립니다. DeepSeek은 일반 인공지능을 연구하는 회사입니다.

이달 초 MIT와 기타 기관의 연구자들은 MLP에 대한 매우 유망한 대안인 KAN을 제안했습니다. KAN은 정확성과 해석성 측면에서 MLP보다 뛰어납니다. 그리고 매우 적은 수의 매개변수로 더 많은 수의 매개변수를 사용하여 실행되는 MLP보다 성능이 뛰어날 수 있습니다. 예를 들어 저자는 KAN을 사용하여 더 작은 네트워크와 더 높은 수준의 자동화로 DeepMind의 결과를 재현했다고 밝혔습니다. 구체적으로 DeepMind의 MLP에는 약 300,000개의 매개변수가 있는 반면 KAN에는 약 200개의 매개변수만 있습니다. KAN은 MLP와 같이 강력한 수학적 기반을 가지고 있으며, KAN은 Kolmogorov-Arnold 표현 정리를 기반으로 합니다. 아래 그림과 같이 KAN은

테슬라의 로봇 옵티머스(Optimus)의 최신 영상이 공개됐는데, 이미 공장에서 작동이 가능한 상태다. 정상 속도에서는 배터리(테슬라의 4680 배터리)를 다음과 같이 분류합니다. 공식은 또한 20배 속도로 보이는 모습을 공개했습니다. 작은 "워크스테이션"에서 따고 따고 따고 : 이번에 출시됩니다. 영상에는 옵티머스가 공장에서 이 작업을 전 과정에 걸쳐 사람의 개입 없이 완전히 자율적으로 완료하는 모습이 담겨 있습니다. 그리고 Optimus의 관점에서 보면 자동 오류 수정에 중점을 두고 구부러진 배터리를 집어 넣을 수도 있습니다. NVIDIA 과학자 Jim Fan은 Optimus의 손에 대해 높은 평가를 했습니다. Optimus의 손은 세계의 다섯 손가락 로봇 중 하나입니다. 가장 능숙합니다. 손은 촉각적일 뿐만 아니라

8월 14일 이 사이트의 소식에 따르면 오늘 8월 패치 화요일 이벤트 당일 마이크로소프트는 22H2와 23H2용 KB5041585 업데이트, 21H2용 KB5041592 업데이트를 포함해 윈도우 11 시스템용 누적 업데이트를 출시했다. 위 장비가 8월 누적 업데이트로 설치된 후, 본 사이트에 첨부된 버전번호 변경 사항은 다음과 같습니다. 21H2 장비 설치 후, 장비 설치 후 버전번호가 Build22000.314722H2로 증가되었습니다. Windows 1121H2용 KB5041585 업데이트의 주요 내용은 다음과 같습니다.

6월 3일자 뉴스에 따르면, 마이크로소프트는 모든 윈도우 10 사용자에게 적극적으로 전체 화면 알림을 보내 윈도우 11 운영체제로의 업그레이드를 독려하고 있다. 이 이동에는 하드웨어 구성이 새 시스템을 지원하지 않는 장치가 포함됩니다. 2015년부터 Windows 10은 거의 70%의 시장 점유율을 차지하며 Windows 운영 체제로서의 지배력을 확고히 자리 잡았습니다. 하지만 시장점유율은 82%를 훨씬 웃돌며, 2021년 출시 예정인 윈도우 11보다 시장점유율이 훨씬 높다. Windows 11이 출시된 지 거의 3년이 지났지만 시장 침투 속도는 여전히 느립니다. Microsoft는 Windows 10에 대한 기술 지원을 2025년 10월 14일 이후 종료한다고 발표했습니다.

대규모 언어 모델(LLM)을 인간의 가치와 의도에 맞추려면 인간의 피드백을 학습하여 유용하고 정직하며 무해한지 확인하는 것이 중요합니다. LLM 정렬 측면에서 효과적인 방법은 인간 피드백 기반 강화 학습(RLHF)입니다. RLHF 방법의 결과는 훌륭하지만 몇 가지 최적화 문제가 있습니다. 여기에는 보상 모델을 훈련한 다음 해당 보상을 극대화하기 위해 정책 모델을 최적화하는 것이 포함됩니다. 최근 일부 연구자들은 더 간단한 오프라인 알고리즘을 탐구했는데, 그 중 하나가 직접 선호 최적화(DPO)입니다. DPO는 RLHF의 보상 기능을 매개변수화하여 선호도 데이터를 기반으로 직접 정책 모델을 학습하므로 명시적인 보상 모델이 필요하지 않습니다. 이 방법은 간단하고 안정적입니다.

소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

위에 작성됨 및 저자의 개인적 이해: 이 문서는 자율 주행 애플리케이션에서 현재 다중 모드 대형 언어 모델(MLLM)의 주요 과제를 해결하는 데 전념하고 있습니다. 이는 MLLM을 2D 이해에서 3D 공간으로 확장하는 문제입니다. 자율주행차(AV)가 3D 환경에 대해 정확한 결정을 내려야 하기 때문에 이러한 확장은 특히 중요합니다. 3D 공간 이해는 정보에 입각한 결정을 내리고 미래 상태를 예측하며 환경과 안전하게 상호 작용하는 차량의 능력에 직접적인 영향을 미치기 때문에 AV에 매우 중요합니다. 현재 다중 모드 대형 언어 모델(예: LLaVA-1.5)은 시각적 인코더의 해상도 제한, LLM 시퀀스 길이 제한으로 인해 저해상도 이미지 입력(예:)만 처리할 수 있는 경우가 많습니다. 하지만 자율주행 애플리케이션에는
