AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
현재 주류 시각적 언어 모델(VLM)은 주로 추가 미세 조정을 위한 LLM(대형 언어 모델)을 기반으로 합니다. 따라서 다양한 방법으로 이미지를 LLM의 임베딩 공간에 매핑한 후 자동 회귀 방법을 사용하여 이미지 토큰을 기반으로 답을 예측하는 것이 필요합니다. 이 과정에서 모달 정렬은 텍스트 토큰을 통해 암묵적으로 구현됩니다. 이 단계를 어떻게 정렬하는 것이 매우 중요합니다. 이 문제에 대응하여 우한대학교, ByteDance Beanbao 대형 모델팀, 중국과학원의 연구원들은 대조 학습을 기반으로 한 텍스트 토큰 스크리닝 방법(CAL)을 제안했습니다. 이미지와 관련성이 높은 이미지에는 손실 함수의 가중치가 증가하여 보다 정확한 다중 모드 정렬을 달성합니다.
- 문서 링크: https://arxiv.org/pdf/2405.17871
- 코드 링크: https://github.com/foundation-multimodal-models/CAL
CAL의 주요 특징은 다음과 같습니다.
- 은 추가 사전 교육 단계 없이 교육 프로세스에 직접 중첩될 수 있습니다.
- 시각화를 통해 CAL이 이미지 모달 정렬을 향상시키는 것을 확인할 수 있습니다.
- CAL을 사용하면 학습 프로세스가 시끄러운 데이터에 대한 저항력을 더욱 높일 수 있습니다.
현재 시각적 언어 모델은 이미지 양식의 정렬에 의존하며 정렬을 수행하는 방법은 매우 중요합니다. 현재 주류 방법은 텍스트 자동 회귀를 통해 암시적 정렬을 수행하는 것이지만, 이미지 정렬에 대한 각 텍스트 토큰의 기여도는 일관되지 않습니다. 이러한 텍스트 토큰을 구별하는 것이 매우 필요합니다.
CAL은 기존 시각적 언어 모델(VLM) 훈련 데이터에서 텍스트 토큰을 세 가지 범주로 나눌 수 있다고 제안했습니다. 사람, 동물, 사물), 수량, 색상, 텍스트 등 이러한 토큰은 이미지 정보에 직접적으로 해당하며 다중 모드 정렬에 중요합니다.
그림과 상관관계가 낮은 텍스트
: 다음 단어나 이전 텍스트에서 유추할 수 있는 내용 등. 이러한 토큰은 실제로 VLM의 일반 텍스트 기능을 교육하는 데 주로 사용됩니다. -
이미지 내용과 모순되는 텍스트
: 이러한 토큰은 이미지 정보와 일치하지 않으며 오해의 소지가 있는 정보를 제공하여 다중 모드 정렬 프로세스에 부정적인 영향을 미칠 수도 있습니다.
- 标 그림 1: 녹색 표시는 관련성이 높은 토큰과 관련이 있고 빨간색은 내용과 반대이며 무색은 중립 토큰입니다. 토큰은 실제로 더 큰 비율을 차지하지만 이미지에 크게 의존하지 않기 때문에 이미지의 모달 정렬에 거의 영향을 미치지 않습니다. 따라서 더 나은 정렬을 위해서는 첫 번째 유형의 텍스트 토큰, 즉 이미지와 관련성이 높은 토큰의 가중치를 높일 필요가 있습니다. 이 토큰 부분을 어떻게 찾는지가 이 문제를 해결하는 열쇠가 되었습니다. 이미지와 관련성이 높은 토큰 찾기 이 문제는 조건 대조를 통해 해결할 수 있습니다. 학습 데이터의 각 이미지-텍스트 쌍에 대해 이미지 입력이 없는 경우 각 텍스트 토큰의 로짓은 컨텍스트 및 기존 지식 값을 기반으로 이 상황 발생에 대한 LLM의 추정치를 나타냅니다.
앞에 이미지 입력을 추가하면 추가 상황 정보를 제공하는 것과 같습니다. 이 경우 각 텍스트 토큰의 로짓은 새로운 상황에 따라 조정됩니다. 이 두 경우의 로짓 변경은 각 텍스트 토큰에 대한 그림의 새로운 조건의 영향을 나타냅니다. 특히 훈련 과정에서 CAL은 이미지와 텍스트 시퀀스, 개별 텍스트 시퀀스를 각각 LLM(대형 언어 모델)에 입력하여 각 텍스트 토큰의 로짓을 얻습니다. 두 경우의 로짓 차이를 계산함으로써 이미지가 각 토큰에 미치는 영향을 측정할 수 있습니다. 로짓 차이가 클수록 이미지가 토큰에 미치는 영향이 커지므로 토큰이 이미지와 더 관련성이 높습니다. 아래 그림은 텍스트 토큰에 대한 로짓 차이 및 CAL 방법의 흐름도를 보여줍니다.对 그림 2: 왼쪽 그림은 두 가지 상황에서의 토큰 로짓 차이의 시각화입니다. 오른쪽 그림은 CAL 방법 프로세스의 시각화입니다. 주류 모델: MGM, MGM, 다양한 크기의 모델에서 성능 향상이 이루어졌습니다.
- 다음 네 가지 검증 부분이 포함되어 있습니다.
(1) CAL을 사용하는 모델은 다양한 벤치마크 지표에서 더 나은 성능을 발휘합니다.
(2) 두 이미지-텍스트 쌍의 텍스트를 비율에 맞게 무작위로 교환하여 노이즈 데이터(이미지-텍스트 불일치) 배치를 생성하고 이를 모델 훈련에 사용합니다. 훈련 과정을 만듭니다. 더 강력한 데이터 소음 방지 성능을 갖습니다. 도 그림 3: 다양한 강도의 소음 훈련의 경우 CAL의 성능과 기준선 (3) QA 사례의 답변 부분에서 그림 토큰의 주의 점수를 계산하고 이를 플롯팅합니다. 원본 이미지에서 CAL 훈련 모델은 더 명확한 주의 분포 맵을 갖습니다. C 그림 4: 기준선과 CAL의 Attention Map을 시각화할 수 있습니다. 각 쌍의 오른쪽은 CAL(4)과 가장 유사한 LLM 어휘의 텍스트 토큰입니다. 원본 이미지에서는 CAL로 훈련된 모델 매핑 콘텐츠가 이미지 콘텐츠에 더 가깝습니다. ㅋㅋ ~ > Doubao Big Model 팀은 AI 분야에 대한 장기적인 비전과 의지를 가지고 있으며 연구 방향은 NLP, CV, 연설 등을 포함하며 중국에 실험실과 연구직이 있습니다. 싱가포르, 미국 및 기타 장소. 플랫폼의 충분한 데이터, 컴퓨팅 및 기타 리소스를 기반으로 팀은 자체 개발한 일반 대형 모델을 출시하여 다중 모드 기능을 제공하고 있으며 Doubao, Buttons 등 50개 이상의 비즈니스를 지원합니다. 및 Jimeng이며 Volcano Engine 고객을 통해 대중에게 공개됩니다. 현재 Doubao APP는 중국 시장에서 가장 많은 사용자를 보유한 AIGC 애플리케이션이 되었습니다. ByteDance Beanbao 모델 팀에 합류하신 것을 환영합니다.
위 내용은 Bytedance Doubao와 무한 대학은 CAL을 제안했습니다: 시각적으로 관련된 토큰을 통해 다중 모드 정렬 효과를 향상합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!