감각으로 AI 권한 부여 : 멀티 모달 LLMS 로의 여행 1 부-일체 포함-php.cn

집

기술 주변기기

일체 포함

감각으로 AI 권한 부여 : 멀티 모달 LLMS 로의 여행 1 부

Lisa Kudrow

Mar 08, 2025 am 10:05 AM

멀티 모달 대형 언어 모델 (LLMS) : 텍스트와 비전 사이의 간격을 연결 우리의 세계는 언어, 시력, 냄새 및 터치 등 여러 가지 감각을 통해 경험을 통해 주변 환경을 이해할 수 있습니다. 인간은 특히 언어 적 추론과 시각적 기억에 능숙합니다. 생성 AI (Genai) 모델이 발전함에 따라 연구원들은 기능을 확장하기 위해 다중 분위기를 통합하는 데 집중하고 있습니다. 전통적인 대형 언어 모델 (LLM)은 텍스트 입력 및 출력으로 제한되며 이미지, 비디오 또는 오디오와 같은 다른 양식을 무시합니다. LLM은 질문 답변, 요약, 번역 및 코드 생성과 같은 작업에 뛰어나는 반면, 다른 양식 (멀티 모달 LLM 생성)을 통합하면 상당한 잠재력을 발휘할 수 있습니다. 예를 들어, 텍스트와 이미지 데이터를 결합하면 시각적 질문 응답, 이미지 세분화 및 객체 감지와 같은 응용 프로그램이 가능합니다. 비디오 추가는 고급 미디어 분석을위한 기능을 더욱 향상시킵니다 목차

멀티 모달 llms 소개 데이터 세트 및 전처리 다중 모드 llms의 응용 이미지 캡션 정보 추출

시각적 해석 및 추론 광학 문자 인식 (OCR) 객체 감지 및 분할

대형 시력 모델 (LVLMS)의 아키텍처 2 타워 vlms 2 leg vlms 이미지 인코더, 텍스트 인코더 및 디코더가있는 vlms 인코더 디코더 아키텍처가있는 VLMS

결론

멀티 모달 llms 소개 Genai는 새로운 컨텐츠를 생성 할 수있는 머신 러닝 모델을 포함합니다. 예를 들어 텍스트-텍스트 모델은 텍스트 입력에서 텍스트를 생성합니다. 그러나 다른 양식으로 LLM을 확장하면 텍스트-이미지, 텍스트-비디오, 텍스트 음성 연설, 이미지 투 이미지 및 이미지-비디오 응용 프로그램에 대한 문이 열립니다. 이것들은 큰 멀티 모달 모델 (멀티 모달 LLM)으로 알려져 있습니다. 이러한 모델 교육에는 텍스트 및 기타 양식이 포함 된 대규모 데이터 세트가 포함되어 알고리즘이 모든 입력 유형 간의 관계를 배울 수 있습니다. 결정적 으로이 모델은 단일 입력/출력 유형으로 제한되지 않습니다. 그들은 다양한 양식에 적응합니다. 이것은 시스템에 감각 입력에 대한 풍부한 이해를 제공합니다.

이 기사는 두 부분으로 나뉩니다. 첫 번째는 멀티 모달 LLM의 응용 프로그램과 아키텍처를 탐색하고 두 번째 (여기에는 포함되지 않음)는 작은 비전 모델의 훈련을 자세히 설명합니다. 데이터 세트 및 전처리 다른 데이터 유형을 결합하여 멀티 모달 LLM을 생성하면 특히 1D, 2D 및 3D 데이터를 동시에 처리 할 때 문제가 발생합니다. 이를 위해서는 모델 성능을 최적화하기 위해 신중한 데이터 큐 레이션을 통해 순차적 인 단계별 방식이 필요합니다.이 토론은 텍스트와 이미지에 중점을 둡니다. 텍스트와 달리 이미지 및 비디오는 크기와 해상도가 다양하므로 입력을 표준화하려면 강력한 전처리가 필요합니다. 이미지, 비디오, 프롬프트 및 메타 데이터는 추론 중 일관된 사고 과정과 논리적 일관성을 촉진하기 위해 준비되어야합니다. 텍스트, 이미지 및 비디오 데이터에 대해 교육을받은 모델은 LVLMS (Largin Vision-Language Models)라고합니다. 다중 모드 llms의 응용 다음 이미지 (QWEN2-VL 용지에서)는 다양한 시각적 작업을 처리 할 수있는 QWEN2 LLM을 기반으로 한 비전 모델을 보여줍니다.

아래 다이어그램은 MMLM (Multimodal Language Model)이 다양한 목표를 달성하기 위해 이미지, 텍스트, 오디오 및 비디오 데이터를 처리하는 방법을 보여줍니다. 핵심 MMLM은 이러한 양식을 결합 된 처리를 위해 통합합니다

~~다음 섹션에서는 특정 응용 프로그램에 대해 자세히 설명합니다 (Brevity에 대한 코드 예제) :~~

1. 이미지 캡션 : 이미지의 텍스트 설명 생성

2. 정보 추출 : 이미지에서 특정 기능 또는 데이터 포인트 검색 (예 : 객체 색상, 텍스트). Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 3. 시각적 해석 및 추론 : 시각 정보를 기반으로 이미지 분석 및 추론 작업 수행.

4. 광학 문자 인식 (OCR) : 이미지에서 텍스트를 추출합니다

5. 객체 감지 및 분할 : 이미지 내에서 물체를 식별하고 분류하여 잠재적으로 별개의 영역으로 분류합니다. 대형 시력 모델 (LVLMS)의 아키텍처 LVLM의 목표는 이미지, 비디오 및 텍스트에서 기능을 통합하는 것입니다. 사전 훈련을 위해 몇몇 아키텍처가 탐색되고 있습니다 :

1. 2 타워 VLMS : 이미지와 텍스트는 별도로 인코딩되어 공유 목표로 두 가지 양식에서 정보를 정렬하기 위해 훈련됩니다. Empowering AI with Senses: A Journey into Multimodal LLMs Part 1

2. 2 레그 VLMS : 2 타워와 유사하지만 공유 목표 전에 이미지 및 텍스트 기능을 병합하기위한 퓨전 레이어를 포함합니다.

3. 이미지 인코더가있는 VLM - 텍스트 인코더 및 디코더 : 이미지 인코더는 이미지를 처리하는 반면 텍스트 데이터는 별도의 인코더와 디코더로 처리되므로보다 복잡한 상호 작용이 가능합니다.

4. 인코더 디코더 아키텍처가있는 VLMS : 이미지는 디코딩하기 전에 (연결 또는 교차 변호를 통해) 기능을 결합한 디코더에 의해 인코더, 텍스트로 처리됩니다.

Empowering AI with Senses: A Journey into Multimodal LLMs Part 1 결론 멀티 모달 LLM, 특히 VLM은 시각적 데이터와 텍스트 데이터 사이의 간격을 연결하기 위해 이미지 텍스트 데이터 세트에서 교육을받습니다. 시각적 작업에 탁월하지만 고성능을 달성하려면 상당한 데이터 세트와 계산 리소스가 필요합니다. 많은 시각적 작업을 수행 할 수는 있지만 한계는 복잡한 추론 및 데이터 추출으로 남아 있습니다. 이러한 한계를 극복하고 멀티 모달 LLM의 잠재력을 최대한 활용하려면 추가 연구 및 개발이 중요합니다. 참조 (원본 텍스트로 제공된 목록)