AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
다중 모드 융합은 다중 모드 지능의 기본 작업 중 하나입니다. 다중 모드 융합의 동기는 다양한 모드의 효과적인 정보를 공동으로 활용하여 다운스트림 작업의 정확성과 안정성을 향상시키는 것입니다. 기존의 다중 모드 융합 방법은 고품질 데이터에 의존하는 경우가 많으며 실제 응용 프로그램에서 복잡하고 품질이 낮은 다중 모드 데이터에 적응하기 어렵습니다. 천진대학교, 중국 인민대학교, 싱가포르 과학기술연구청, 쓰촨대학교, 시안대학교가 공동 발표한 저품질 멀티모달 데이터 융합 "Multimodal Fusion on Low-quality" 리뷰 전자과학기술과 하얼빈 공과대학(심천) 데이터: 종합 조사'는 통일된 관점에서 다중 모드 데이터의 융합 과제를 소개하고 기존의 저품질 다중 모드 데이터 융합 방법과 잠재적인 개발을 정리합니다. 이 분야의 방향. http://arxiv.org/abs/2404.18947https://github.com/QingyangZhang/awesome-low-quality-multimodal-learning 인간은 여러 양식의 정보를 융합하여 세상을 인식합니다. 일부 양상의 신호를 신뢰할 수 없는 경우에도 인간은 이러한 저품질 다중 모드 데이터 신호를 처리하고 환경을 인식할 수 있는 능력을 가지고 있습니다. 다중 모드 학습이 큰 발전을 이루었음에도 불구하고 다중 모드 기계 학습 모델은 현실 세계에서 저품질 다중 모드 데이터를 효과적으로 융합하는 능력이 여전히 부족합니다. 실제 경험에서 전통적인 다중 모드 융합 모델의 성능은 다음 시나리오에서 크게 저하됩니다. (1) 노이즈 다중 모드 데이터: 일부 모드의 일부 기능은 노이즈로 인해 방해를 받고 원본 정보가 손실됩니다. . 현실 세계에서는 알 수 없는 환경 요인, 센서 고장, 전송 중 신호 손실로 인해 잡음 간섭이 발생하여 다중 모드 융합 모델의 신뢰성이 손상될 수 있습니다. (2)다중 모드 데이터 누락: 다양한 실제 요인으로 인해 실제 수집된 다중 모드 데이터 샘플의 일부 모드가 누락될 수 있습니다. 예를 들어, 의료 분야에서는 환자의 다양한 생리학적 검사 결과로 구성된 다중 모드 데이터가 심각하게 누락될 수 있으며, 일부 환자는 특정 검사를 받은 적이 없을 수도 있습니다. (3) 불균형 다중 모드 데이터: 이질적인 인코딩 속성과 양식 간 정보 품질 차이의 불일치 현상으로 인해 양식 간의 불균형 학습 문제가 발생합니다. 다중 모드 융합 과정에서 모델은 특정 양식에 너무 많이 의존하고 다른 양식에 포함된 잠재적으로 효과적인 정보를 무시할 수 있습니다. (4) 동적 저품질 다중 모달 데이터: 응용 프로그램 환경, 다양한 샘플, 다양한 시간과 공간의 복잡성과 변화로 인해 모달 품질은 동적으로 변화하는 특성을 갖습니다. 품질이 낮은 모달 데이터의 발생은 사전에 예측하기 어려운 경우가 많아 다중 모달 융합에 어려움을 겪습니다. 저품질 멀티모달 데이터의 성격과 처리 방법을 완벽하게 파악하기 위해 이 글에서는 저품질 멀티모달 융합 분야의 현재 머신러닝 방법을 요약하고, 개발 프로세스를 체계적으로 검토합니다. 이 분야 및 추가 연구가 필요한 문제는 추가로 전망됩니다. 多 그림 1. 저품질 다중 모드 데이터 분류 도식 다이어그램, 노란색과 파란색은 두 가지 모드를 나타내며, 색상이 어두울수록 품질이 높다는 것을 나타냅니다. 노이즈는 다중 모드 데이터 품질 저하의 가장 일반적인 원인 중 하나입니다. 이 기사에서는 주로 두 가지 유형의 소음에 중점을 둡니다. 모드 관련 다중 모달 소음
. 이러한 유형의 소음은 센서 오류(예: 의료 진단의 기기 오류), 환경적 요인(예: 자율주행의 비, 안개) 등의 요인에 의해 발생할 수 있으며, 소음은 특정 모드 내에서 특정 기능 수준으로 제한됩니다.
(2) 의미 수준의 교차 모달 노이즈. 이러한 유형의 노이즈는 양식 간의 상위 수준 의미 체계의 불일치로 인해 발생하며 피처 레이어에서 다중 모드 노이즈보다 처리하기가 더 어렵습니다. 다행스럽게도 다중 모드 데이터 모드와 정보 중복성으로 인해 잡음 제거를 위해 여러 양식의 정보를 결합하는 것이 다중 모드 융합 프로세스에서 효과적인 전략임이 입증되었습니다. 방법 분류:
기능 수준 다중 모드 노이즈 제거 방법은 실제 작업과 관련된 특정 양식에 크게 의존합니다. 이 문서에서는 주로 다중 모달 이미지 융합 작업을 예로 들어 설명합니다. 다중 모드 이미지 융합에서 주류 잡음 제거 방법에는 가중치 융합 및 관절 변형이 포함됩니다. 가중 융합 방법특징 노이즈가 무작위이고 실제 데이터가 특정 분포를 따른다는 점을 고려하여 가중 합산을 통해 노이즈의 영향을 제거합니다. 결합 변형 방법
은 -모달 이미지 변형 노이즈 제거는 노이즈 제거 프로세스를 최적화 문제 해결 프로세스로 변환하고 여러 양식의 보완 정보를 사용하여 노이즈 제거 효과를 향상시킬 수 있습니다. 의미 수준 교차 모달 노이즈는 약하게 정렬되거나 잘못 정렬된 다중 모달 샘플 쌍으로 인해 발생합니다. 예를 들어, RGB와 열화상을 결합하는 다중 모드 표적 탐지 작업에서는 센서의 차이로 인해 두 양식 모두 동일한 표적이 나타나더라도 정확한 위치와 자세가 약간 다를 수 있습니다( 약한 정렬) 다양한 양식으로 인해 위치 정보를 정확하게 추정하는 데 어려움이 있습니다. 소셜 미디어의 콘텐츠 이해 작업에서 샘플(예: Weibo)의 이미지 및 텍스트 형식에 포함된 의미 정보는 매우 다르거나 심지어 관련이 없을 수도 있습니다(완전히 잘못 정렬됨). 다중 모드 융합에. 교차 모달 의미론적 노이즈를 처리하는 방법에는 규칙 필터링, 모델 필터링, 노이즈에 강한 모델 정규화 및 기타 방법이 포함됩니다. 미래 전망:
오랫동안 데이터 노이즈 처리가 고전적인 기계 학습 작업에서 광범위하게 연구되었지만, 다중 모달 시나리오에서 양식 간의 차이를 공동으로 활용하는 방법 소음의 영향을 약화시키는 것은 여전히 해결해야 할 시급한 연구 과제이다.
또한 기존의 특징 수준 잡음 제거와 달리 다중 모드 대형 모델의 사전 학습 및 추론 과정에서 의미 수준 잡음을 해결하는 방법은 흥미롭고 매우 어려운 문제입니다.
ㅋㅋ 표 1. 소음에 대한 다중 모드 융합 방법의 분류 실제 시나리오 수집된 다중 모드 데이터는 저장 장치 손상 및 신뢰할 수 없는 데이터 전송 프로세스와 같은 다양한 요인으로 인해 불완전한 경우가 많으며, 다중 모드 데이터는 필연적으로 모달 정보의 일부를 손실합니다.
예를 들어 추천 시스템에서는 사용자의 검색 기록과 신용 등급이 다중 모달 데이터로 구성되지만 권한 및 개인 정보 보호 문제로 인해 사용자의 모든 모달 정보를 완전히 수집하여 구축하는 것이 불가능한 경우가 많습니다. 다중 모달 데이터.
의료 진단에서는 일부 병원의 제한된 장비와 높은 특정 검사 비용으로 인해 다양한 환자의 다중 모드 진단 데이터가 매우 불완전한 경우가 많습니다.
"누락된 다중 모드 데이터의 명시적 완료가 필요한지 여부"라는 분류 원칙에 따라 누락된 다중 모드 데이터 융합 방법은 다음과 같이 나눌 수 있습니다.
(1) 완성 기반 다중 모드 융합 방법
완성 기반 다중 모드 융합 방법에는 모델 독립적인 완성 방법이 포함됩니다. 예를 들어 누락된 모드를 0 값으로 직접 채우거나 잔여 모드의 완성 방법
그래프 또는 커널 기반 완성 방법: 이 유형의 방법은 원본 다중 모드 데이터를 완성하는 방법을 직접 학습하지 않고 각 양식에 대한 그래프 또는 커널을 구성한 후 유사성 또는 상관성을 학습합니다.
원래 기능 수준을 직접 완성합니다. 일부 방법은 생성적 적대 네트워크 GAN 및 그 변형과 같은 생성 모델을 사용하여 누락된 기능을 직접 완성합니다.
(2) 완성되지 않은 다중모달 융합방식.
완성 기반 방법과 달리 비완결 방법은 누락되지 않은 양식에 포함된 유용한 정보를 사용하여 가능한 최상의 표현을 융합하는 방법에 중점을 둡니다. 예상 학습 통합 표현은 제약 조건을 추가하여
이 표현이 관찰 가능한 모달 데이터의 전체 정보를 반영하여 다중 모달 융합의 완성 프로세스를 우회할 수 있도록 합니다. ㅋㅋ
클러스터링, 분류 및 기타 고전적인 기계 학습 작업을 해결하기 위해 국내외에서 많은 방법이 제안되었지만 여전히 몇 가지 더 깊은 과제가 있습니다.
예: 누락된 모달 완성 구성표의 완료 데이터에 대한 품질 평가를 간과하는 경우가 많습니다.
또한 누락된 양식 자체를 마스킹하기 위해 선험적으로 누락된 데이터 위치 정보를 사용하는 전략은 누락된 양식으로 인한 정보 격차와 정보 불균형을 보완하기 어렵습니다. 표 2. 누락된 다중 모달 데이터에 대한 융합 방법 분류 많은 모달 학습에서 공동 훈련은 일반적으로 다양한 양식의 데이터를 통합하여 전반적인 성능과 일반화 성능을 향상시키는 데 사용됩니다. 모델. 그러나 통합 학습 목표를 사용하는 이러한 유형의 널리 채택된 공동 훈련 패러다임은 다양한 양식에서 데이터의 이질성을 무시합니다.
데이터 소스와 형태 측면에서 서로 다른 양식의 이질성
으로 인해 수렴 속도 등의 측면에서 서로 다른 특성을 갖게 되어 모든 양식이 잘 처리되고 학습되기 어렵습니다. 동시에, 다중 모드 공동 학습에 어려움을 가져옵니다.
단일 모드 데이터
의 품질에도 반영됩니다. 모든 양식은 동일한 개념을 설명하지만 대상 이벤트 또는 대상 객체와 관련된 정보의 양이 다릅니다. 최대 우도 학습 목표를 기반으로 하는 심층 신경망은 탐욕적인 학습 특성을 가지므로 식별력이 높은 고품질 양식에 의존하고 학습하기 쉬운 다중 모드 모델이 생성되는 반면 다른 모달 정보는 불충분하게 모델링됩니다.
이러한 과제를 해결하고 다중 모드 모델의 학습 품질을 향상시키기 위해 최근 균형 다중 모드 학습
에 대한 관련 연구가 큰 주목을 받고 있습니다.
공법 분류:
특성 차이에 따른 방법
으로 나눌 수 있습니다.
(1) 널리 사용되는 다중 모드 공동 훈련 프레임워크는 모델 성능에 부정적인 영향을 미칠 수 있는 단일 모드 데이터의 학습 속성에 내재된 차이를
무시하는 경우가 많습니다 . 특성 차이 기반 방법은 각 양식의 학습 특성 차이에서 출발하여 학습 목표, 최적화, 아키텍처 측면에서 이를 해결하려고 한다.
(2) 최근 연구에 따르면 다중 모드 모델은 종종
특정 고품질 정보 형식에 크게 의존하고 다른 형식은 무시하여 모든 형식에 대한 학습이 부족한 것으로 나타났습니다. 품질 차이에 기반한 방법은 이러한 관점에서 시작하여 이 문제를 해결하고 학습 목표, 최적화 방법, 모델 아키텍처 및 데이터 향상의 관점에서 다중 모드 모델의 다양한 양식의 균형 잡힌 활용을 촉진하려고 노력합니다.
표 3. 균형 잡힌 다중 모드 데이터 융합 방법의 분류 학습 방법은 주로 다중 모드 데이터의 이질성을 대상으로 하며, 서로 다른 양식 간의 학습 특성이나 데이터 품질의 차이가 있습니다. 이러한 방법은 학습 목표, 최적화 방법, 모델 아키텍처, 데이터 향상 등 다양한 관점에서 솔루션을 제안합니다. 균형 다중 모드 학습은 아직 완전히 탐구되지 않은 많은 이론 및 적용 방향이 있는 현재 급성장하는 분야입니다. 예를 들어, 현재 방법은 주로 판별 작업과 몇 가지 생성 작업인 전형적인 다중 모드 작업으로 제한됩니다. 또한 다중 모드 대형 모델은 서로 다른 품질의 모달 데이터를 결합해야 합니다. 또한 이러한 객관적인 불균형 문제도 있으며 이를 기반으로 다중 모드 대형 모델 시나리오에서 기존 모델이 확장될 것으로 예상됩니다. 새로운 솔루션을 연구하거나 설계합니다.
동적 다중 모드 데이터
는 입력 샘플에 따라 양식의 품질이 달라진다는 사실을 나타냅니다. 및 시나리오 동적 변경. 예를 들어, 자율 주행 시나리오에서 시스템은 RGB 및 적외선 센서를 통해 노면 및 대상 정보를 얻습니다. 좋은 조명 조건에서 RGB 카메라는 풍부한 질감과 색상을 캡처할 수 있기 때문에 지능형 시스템의 의사 결정을 더 잘 지원할 수 있습니다. 그러나 빛이 부족한 밤에는 적외선 센서가 제공하는 인식 정보가 더 안정적입니다. 정확하고 안정적인 융합을 수행하기 위해 모델이 다양한 양식의 품질 변화를 자동으로 인식할 수 있도록 하는 것이 동적 다중 모드 융합 방법의 핵심 작업입니다. 표 4. 동적 다중 모드 융합 방법의 분류
동적 다중 모드 융합 방법은 크게 세 가지 범주로 나눌 수 있습니다.
휴리스틱 동적 융합 방법은 다중 모달 모델 적용 시나리오에 대한 알고리즘 설계자의 이해에 의존하며 일반적으로 목표로 삼은 동적 융합 메커니즘
예를 들어, RGB/열 신호 협업의 다중 모드 표적 감지 작업에서 연구원들은 입력 이미지의 조명 상황을 동적으로 평가하고 RGB 및 Fusion 가중치를 동적으로 조정하는 조명 인식 모듈을 경험적으로 설계했습니다. 환경적응을 위한 열적 양식. 밝기가 높으면 RGB 모드가 주로 의사 결정에 의존하고, 그 반대의 경우 열 모드가 주로 의사 결정에 의존합니다. (2) Attention 메커니즘 기반 동적 융합 방법: attention 메커니즘 기반 동적 융합 방법은 주로
표현 계층 융합
에 중점을 둡니다. 주의 메커니즘 자체는 동적 특성을 가지므로 다중 모드 동적 융합 작업에 자연스럽게 사용될 수 있습니다. Self-attention, Spatial attention, Channel attention 및 Transformer 및 기타 메커니즘은 다중 모드 융합 모델 구축에 널리 사용됩니다. 이러한 방법은 작업 목표에 따라 동적 융합을 수행하는 방법을 자동으로 학습합니다. Attention 메커니즘을 기반으로 한 융합은 명시적 또는 경험적 지침이 없는 경우 동적 저품질 다중 모드 데이터에 어느 정도 적응할 수 있습니다.
(3) 불확실성 인식 동적 융합 방법:
불확실성 인식 동적 융합 방법은 종종
더 명확하고 설명 가능한 융합 메커니즘
을 갖습니다. 주의 메커니즘을 기반으로 하는 복잡한 융합 모드와 달리 불확실성 인식 동적 융합 방법은 저품질 다중 모드 데이터에 적응하기 위해 양식(예: 증거, 에너지, 엔트로피 등)의 불확실성 추정에 의존합니다. 특히 불확실성 인식은 입력 데이터의 각 모드의 품질 변화를 특성화하는 데 사용될 수 있습니다. 입력 샘플의 특정 양식의 품질이 낮아지면 해당 양식을 기반으로 한 모델 의사 결정의 불확실성이 높아져 후속 핵융합 메커니즘 설계에 대한 명확한 지침을 제공합니다. 또한, 휴리스틱 및 주의 메커니즘과 비교하여 불확실성을 인식하는 동적 융합 방법은 우수한 이론적 보장을 제공할 수 있습니다.
불확실성을 인식하는 동적 융합 방법의 우수성은 전통적인 다중 모드 융합 작업에서 실험적, 이론적으로 입증되었지만 In SOTA의 다중 모드 모델(아님) CLIP/BLIP 등의 융합 모델에 국한되어 있지만 역동적인 아이디어 역시 탐구와 적용 가능성이 큽니다. 또한 이론적 보장을 갖춘 동적 융합 메커니즘은 의사 결정 수준으로 제한되는 경우가 많으며 표현 수준에서 이를 작동시키는 방법도 생각해 볼 가치가 있습니다. 위 내용은 저품질 다중 모드 데이터 융합, 여러 기관이 공동으로 리뷰 논문 발표의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!