AIxiv 칼럼은 본 사이트에 학술적, 기술적 내용을 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com
이 기사의 저자 팀은 하얼빈 공과 대학의 소셜 컴퓨팅 및 정보 검색 연구 센터에서 왔습니다. Zheng Zihao, Zhang Zihan, Wang Zexin, Fu Rui Ji, Liu Ming, Wang Zhongyuan, Qin Bing. 다중 모드 지식 그래프를 구축하는 기본이자 핵심 작업인 다중 모달 명명된 엔터티 인식은 연구자가 텍스트에서 명명된 엔터티를 정확하게 추출하기 위해 여러 모달 정보를 통합해야 합니다. 이전 연구에서는 다양한 수준에서 다중 모드 표현의 통합 방법을 탐색했지만 이러한 다중 모드 표현을 융합하여 풍부한 문맥 정보를 제공하고 이를 통해 다중 모드 명명된 엔터티 인식 성능을 향상시키는 데는 여전히 부족합니다. 본 논문에서 연구팀은 "분해, 우선 순위 지정, 제거" 전략을 따르고 다양한 다중 모드 표현을 동적으로 통합하는 혁신적인 반복 추론 프레임워크인 DPE-MNER를 제안합니다. 이 프레임워크는 다중 모드 표현의 융합을 계층적이고 상호 연결된 융합 레이어로 교묘하게 분해하여 처리 프로세스를 크게 단순화합니다. 다중 모드 정보를 통합할 때 팀은 "단순에서 복잡", "거시에서 미시"로의 점진적인 전환에 특히 중점을 두었습니다. 또한, 연구팀은 교차 모드 상관 관계를 명시적으로 모델링함으로써 MNER 예측을 오도할 수 있는 관련 없는 정보를 효과적으로 제외합니다. 두 가지 공개 데이터 세트에 대한 광범위한 실험을 통해 연구팀의 방법은 다중 모드 명명된 개체 인식의 정확성과 효율성을 향상시키는 데 크게 효과적인 것으로 입증되었습니다. 이 기사는 LREC-COLING 2024에 승인된 1558개의 논문 중 10개의 최고의 논문 후보 중 하나입니다.
다중 모달 명명된 엔터티 인식의 예입니다. 연구팀은 명명된 개체 인식 결정에 유용할 수 있는 다양한 다중 모드 표현을 시연했습니다. 인간은 일반적으로 이 정보를 반복적인 방식으로 정신적으로 처리합니다. 이 문제를 해결하기 위해 연구팀은 복잡한 문제 해결(Sternberg and Frensch, 1992) 분야에서 영감을 얻었습니다. 이 분야는 다양한 변수, 불확실성 및 높은 복잡성과 관련된 문제를 해결하기 위해 인간과 컴퓨터가 사용하는 방법과 전략에 대한 연구에 중점을 둡니다. 첫째, 그들은 복잡한 문제에 직면했을 때 인간은 일반적으로 반복적 접근 방식을 채택한다고 믿습니다. 그림에서 볼 수 있듯이 연구팀은 실제로 MNER를 다룰 때 반복적 프로세스를 사용합니다. 둘째, 인간은 이러한 문제를 단순화하기 위해 관련 없는 요소를 분해하고 우선순위를 지정하고 제거하는 등 구체적인 전략을 사용합니다. 연구팀은 다중 모드 개체명 인식(MNER)을 다중 모드 정보를 통합하는 반복 프로세스로 취급하고 이러한 전략을 사용하는 것이 MNER 작업에 매우 적합하다고 믿습니다. 단일 단계 방법과 비교하여 다단계 방법은 명명된 엔터티 인식(NER) 결과를 반복적으로 최적화하는 과정에서 다양한 다중 모드 표현을 보다 포괄적으로 활용할 수 있습니다. 또한 다음 세 가지 전략은 다중 모드 NER에서 여러 표현을 통합하는 데 매우 적합합니다.
- 분해 전략은 다중 모드 표현의 융합을 더 작은 크기로 분할하도록 권장합니다. 다양한 세분성 수준에서 다중 모드 상호 작용을 탐색할 수 있는 쉽게 다루기 쉬운 장치입니다.
- 우선순위 지정 전략에서는 "쉬운 것부터 어려운 것", "거친 것부터 미세한 것까지"의 순서에 따라 다중 모드 정보를 통합할 것을 권장합니다. 이러한 점진적인 통합은 MNER 예측의 단계별 최적화에 기여합니다. 이를 통해 모델은 단순하지만 대략적인 정보에서 복잡하지만 정확한 세부 정보로 점차 관심을 전환할 수 있습니다.
- 무관련 제거 전략은 다양한 다중 모드 표현에서 관련 없는 정보를 명시적으로 선별하고 제외하도록 영감을 주며, 이는 MNER 성능에 영향을 미칠 수 있는 관련 없는 정보를 제거할 수 있습니다.
연구팀은 반복 프로세스와 예측 네트워크를 포함하는 여러 다중 모드 기능을 동적으로 융합하는 반복 다중 모드 엔터티 추출 프레임워크를 설계했습니다.
연구팀은 확산 모델을 따라 객체 인식, 시각적 정렬 및 텍스트 엔터티 추출을 반복적인 노이즈 제거 프로세스로 모델링했으며 확산 모델을 사용하여 다중 모드 엔터티 추출을 결합했습니다. 반복적인 과정으로 모델링된다. 모델은 먼저 일련의 엔터티 간격을 무작위로 초기화하고 예측 네트워크를 사용하여 다중 모드 기능을 인코딩하여 잡음 제거 프로세스 중에 반복적으로 잡음을 제거하여 텍스트에서 올바른 엔터티 간격을 얻습니다. 그림에서 볼 수 있듯이 연구팀은 텍스트에서 총 3개의 세분화된 표현, 즉 그림에서 2개의 세분화와 2개의 어려움을 얻었습니다(그들은 일치한다고 믿습니다). 표현은 단순한 표현이고, 잘못 정렬된 표현은 어려운 표현입니다.) . 팀의 예측 네트워크 AMRN에는 인코딩 네트워크(DMMF)와 디코딩 네트워크(MER)가 포함되어 있습니다. 예측 네트워크의 설계는 앞서 언급한 세 가지 전략을 기반으로 합니다. 그림에서 볼 수 있듯이 인코딩 네트워크는 여러 다중 모드 기능을 계층적 프로세스로 융합하고 분해하는 계층적 융합 네트워크입니다. 상향식 프로세스는 먼저 동일한 세분성과 다른 난이도의 이미지 특징 을 각 세분성의 텍스트 특징 $x_i$에 통합한 다음, 서로 다른 세분성의 이미지 특징 $Y$를 각 세분성의 텍스트 특징에 통합하는 것입니다. , 그리고 마지막으로 다양한 세분성 기능 $Y$를 각 세분성의 텍스트 기능 에 통합합니다. 이미지 기능 Y과 텍스트 기능 X이 융합되어 최종 다중 모드 표현을 얻습니다. 디코딩을 위해 디코딩 네트워크에 입력되고, 디코딩 네트워크는 새로운 간격과 각 간격의 엔터티 유형을 얻습니다. 기본 융합. 이 수준의 연구팀은 특정 세분성의 이미지 특징을 특정 세분성의 텍스트 특징으로 통합합니다. 확산 과정에 따라 연구팀은 현재 반복 상태를 반영할 수 있는 스케줄러를 얻을 수 있는데, 이는
우선순위 도입의 핵심이기도 합니다. 이 스케줄러를 기반으로 연구팀은 서로 다른 난이도의 이미지 특징을 융합하여 관련 없는 정보를 제거하는 데 사용되는 및 상관관계rel을 얻었습니다. 마지막으로, 이 상관관계를 기반으로 병목 변환기를 사용하여 및 을 융합하고 특정 입도의 다중 모드 이미지 및 텍스트 융합 표현 을 얻습니다. 중간층 융합.이 레이어의 연구팀은 서로 다른 세분성의 이미지 특징을 특정 세분성의 텍스트 특징으로 융합합니다. 즉 융합
입니다. 이 레이어에서는 스케줄러를 사용하여 다양한 세분성의 이미지 특징을 동적으로 융합하여 특정 세분성의 다중 모드 텍스트 표현을 얻습니다
.
탑 퓨전. 이 계층의 연구팀은 예측을 위해 디코딩 네트워크에 입력되는 전체 다중 모드 텍스트 표현 을 얻기 위해 서로 다른 세분성의 다중 모드 텍스트 표현 을 간격 표현으로 융합합니다. 저자 팀은 MNER의 몇 가지 일반적인 방법을 비교했습니다. 실험 결과는 이 방법이 일반적으로 사용되는 두 가지 데이터 세트에서 최고의 성능을 달성한다는 것을 보여줍니다. 연구원들은 모델 성능을 관찰하기 위해 우리 논문에서 우선순위, 계층 및 제거 설계를 제거한 결과 각 설계를 제거하면 성능 저하가 발생하는 것으로 나타났습니다. 최대 풀링, 평균 풀링, MLP 기반 및 MoE 기반 방법과 같은 몇 가지 일반적인 정적 다중 모드 융합 방법을 비교했습니다. 제안된 동적 융합 프레임워크가 최고의 성능을 달성할 수 있음을 보여줍니다.
연구팀은 반복 프로세스를 설명하기 위해 두 개의 대표 샘플을 선택했습니다. 첫 번째 반복 단계에서는 타임 스퀘어와 큐브의 유형이 잘못 예측되었지만 그림의 중요한 특징 단서를 기반으로 올바른 엔터티 유형으로 반복적으로 수정되었음을 알 수 있습니다. 본 논문은 우수한 인식 결과를 얻기 위해 다중 모드 개체명 인식(MNER) 분야에서 다양한 다중 모드 표현의 잠재력을 최대한 활용하는 것을 목표로 합니다. 이를 위해 저자는 혁신적인 반복 추론 프레임워크인 DPE-MNER를 설계하고 제안했습니다. DPE-MNER는 MNER 작업을 여러 단계로 분해하여 풍부하고 다양한 다중 모드 표현의 통합 프로세스를 교묘하게 단순화합니다. 이러한 반복 프로세스에서 다중 모드 표현은 "분해, 우선 순위 지정 및 제거" 전략을 기반으로 동적 융합 및 통합을 달성합니다. 일련의 엄격한 실험 검증을 통해 연구팀은 DPE-MNER 프레임워크의 놀라운 효과와 우수한 성능을 완벽하게 입증했습니다. [1] 지식 그래프와 다중 모드 학습의 만남: 종합 설문 조사, arxiv[2] 분해, 우선 순위 지정 및 제거: 동적으로 다양한 통합 다중 모달 명명 개체 인식을 위한 표현,2024, 전산 언어학, 언어 자원 및 평가에 관한 공동 국제 컨퍼런스[3] 복잡한 문제 해결: 원리 및 메커니즘, 1992, American Journal of Psycholog [4] Diffusionner : 명명 된 엔티티 인식에 대한 경계 확산, ACL23 [5] 확산 모델 : 객체 감지를위한 확산 모델, ICCV23 [6] 시각적 접지를위한 언어 유도 확산 모델 , arxiv23위 내용은 Harbin Institute of Technology는 혁신적인 반복 추론 프레임워크 DPE-MNER를 제안하여 다중 모드 표현의 잠재력을 최대한 활용합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!