고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

WBOY
풀어 주다: 2023-04-12 20:58:04
앞으로
1055명이 탐색했습니다.

비주얼 베이직 모델은 지난 2년 동안 눈부신 발전을 이루었습니다. 한편으로는 대규모 인터넷 데이터를 기반으로 한 사전 학습은 모델에 대한 많은 수의 의미 개념을 미리 설정하여 일반화 성능이 좋지만, 다른 한편으로는 가져온 모델 크기를 최대한 활용합니다. 대규모 데이터 세트에 의한 성장으로 인해 관련 모델은 다운스트림 작업으로 마이그레이션할 때 특히 여러 프레임을 처리해야 하는 비디오 이해 모델의 경우 비효율성 문제에 직면하게 됩니다.

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

  • 문서 링크: https://arxiv.org/abs/2208.03550
  • 코드 링크: https://github.com/OpenGVLab/efficient-video-recognition

위의 두 가지 특성을 기반으로 홍콩 중문 대학교, 상하이 인공 지능 연구소 및 기타 기관의 연구원들은 백본 기본의 가중치를 고정하여 훈련 계산과 메모리를 절약하는 효율적인 비디오 이해 전이 학습 프레임워크 EVL을 제안했습니다. 동시에 다단계, 세분화된 중간 기능을 활용하여 기존의 엔드투엔드 미세 조정의 유연성을 최대한 유지합니다.

아래 그림 1은 비디오 이해 데이터 세트 Kinetics-400에 대한 EVL 방법의 결과를 보여줍니다. 실험에 따르면 이 방법은 교육 오버헤드를 절약하면서도 비디오 이해 작업에서 기본 시각적 모델의 잠재력을 완전히 탐색하는 것으로 나타났습니다.

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

그림 1: Kinetics-400의 인식 정확도 비교 가로축은 추론 계산량, 세로축은 정확도입니다.

method

알고리즘의 전체적인 개략도는 그림 2(a)에 나와 있습니다. 비디오 샘플의 경우 T 프레임을 가져와 이미지 인식 네트워크(예: CLIP)에 입력하고 특징을 추출합니다. 기존 방법과 비교하여 이미지 인식 네트워크의 마지막 몇 레이어에서 풀링되지 않은 다층 기능을 추출하여 더 풍부하고 세분화된 이미지 정보를 얻습니다. 이미지 인식 네트워크의 매개변수 가중치는 비디오 학습에서 항상 일관됩니다. 결정된. 이후, 비디오 수준의 정보 수집을 위해 다계층 특징 맵이 순차적으로 Transformer 디코더에 입력됩니다. 다중 계층 디코딩된 [CLS] 기능은 최종 분류 예측을 생성하는 데 사용됩니다.

그림 2(b)와 같이 Transformer 디코더가 기능을 집계할 때의 장애로 인해 위치 관련 세분화된 타이밍 정보를 더 잘 추출하기 위해 네트워크에 타이밍 정보 모델링 모듈을 추가했습니다. 구체적으로 세 가지 유형의 위치 관련 타이밍 정보를 추가합니다. 첫 번째는 시간 위치 임베딩(Position Embeddings), 두 번째는 시간 차원 깊이 분리 컨볼루션(Depthwise Convolution), 세 번째는 인접한 프레임 간의 주목입니다. 힘 정보. 프레임 간 Attention 정보는 영상 인식 네트워크에서 해당 레이어의 Query와 Key 특징을 추출하고, 인접한 프레임 간의 Attention Map을 계산합니다. (영상 인식 네트워크와는 달리 Attention Map은 동일한 프레임과 주요 기능을 얻습니다). 결과 주의 지도는 인접한 프레임 사이의 개체 위치 변경을 명시적으로 반영할 수 있습니다. 선형 투영 후 Attention Map은 객체의 변위 특성을 반영하는 벡터 그룹을 획득하고 요소별 추가 형태로 이미지 특징에 통합됩니다.

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

그림 2: EVL 알고리즘 구조 다이어그램. (a) 전체 구조, (b) 순차 정보 모델링 모듈.

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

그림 3: 프레임 간 주의 기능의 수학적 표현.

실험

그림 1과 표 1에서는 이전 영상 이해에서 몇 가지 중요한 방법을 인용했습니다. 교육 오버헤드를 줄이는 데 중점을 두었음에도 불구하고 우리의 방법은 정확도 측면에서 기존 방법보다 여전히 뛰어납니다(동일한 계산량 사용).

표 2에서는 고정 백본 네트워크로 인한 교육 오버헤드 감소를 보여줍니다. 메모리 측면에서 V100 16GB GPU에서는 고정 백본 네트워크를 통해 단일 카드 배치 크기가 최대 64개에 도달할 수 있지만, 엔드투엔드 훈련은 시간 측면에서 8개에만 도달할 수 있습니다. 네트워크를 사용하면 훈련 시간을 3~4배 절약할 수 있습니다.

표 3에서는 세분화된 특징 맵을 통한 인식 성능 향상을 보여줍니다. 풀링되지 않은 다계층 기능을 통해 백본 네트워크 가중치를 고정할 때 상당한 수준의 유연성을 유지할 수 있습니다. 풀링되지 않은 기능을 사용하면 가장 큰 개선(약 3%)이 이루어지며, 그 다음에는 다중 계층 디코더와 중간 계층 기능을 사용하여 각각 약 1%의 성능 향상을 가져옵니다.

마지막으로 세분화된 타이밍 정보 모듈의 효과를 표 4에 보여줍니다. 세분화된 타이밍 정보가 Kinetics-400의 성능에 미치는 영향은 제한적이지만 Something-Something-v2의 성능에는 매우 중요합니다. 세 개의 세분화된 타이밍 정보 모듈은 총 약 0.5% 및 약 14개의 정보를 가져옵니다. % 성능 개량.

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

표 1: Kinetics-400의 기존 방법과 비교 결과

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

표 2: 고정 백본 네트워크 가중치로 인한 교육 오버헤드 감소

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

표 3: 세분화된 특징 맵이 정확도에 미치는 영향

고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.

표 4: 다양한 데이터 세트에 대한 세분화된 시간 정보 모델링의 효과

요약

이 논문은 영상 이해 문제에서 고정 이미지 백본 네트워크의 엄청난 잠재력을 처음으로 보여주고, 컴퓨팅이 제한된 연구 그룹에 고성능 영상 이해를 보다 친숙하게 만드는 EVL 영상 이해 학습 프레임워크를 제안합니다. 자원. 우리는 또한 기본 시각적 모델의 품질과 규모가 향상됨에 따라 우리의 방법이 경량 전이 학습 알고리즘에 대한 후속 연구에 대한 참고 자료를 제공할 수 있다고 믿습니다.

위 내용은 고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

관련 라벨:
원천:51cto.com
본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.
최신 이슈
인기 튜토리얼
더>
최신 다운로드
더>
웹 효과
웹사이트 소스 코드
웹사이트 자료
프론트엔드 템플릿