고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.
비주얼 베이직 모델은 지난 2년 동안 눈부신 발전을 이루었습니다. 한편으로는 대규모 인터넷 데이터를 기반으로 한 사전 학습은 모델에 대한 많은 수의 의미 개념을 미리 설정하여 일반화 성능이 좋지만, 다른 한편으로는 가져온 모델 크기를 최대한 활용합니다. 대규모 데이터 세트에 의한 성장으로 인해 관련 모델은 다운스트림 작업으로 마이그레이션할 때 특히 여러 프레임을 처리해야 하는 비디오 이해 모델의 경우 비효율성 문제에 직면하게 됩니다.
- 문서 링크: https://arxiv.org/abs/2208.03550
- 코드 링크: https://github.com/OpenGVLab/efficient-video-recognition
위의 두 가지 특성을 기반으로 홍콩 중문 대학교, 상하이 인공 지능 연구소 및 기타 기관의 연구원들은 백본 기본의 가중치를 고정하여 훈련 계산과 메모리를 절약하는 효율적인 비디오 이해 전이 학습 프레임워크 EVL을 제안했습니다. 동시에 다단계, 세분화된 중간 기능을 활용하여 기존의 엔드투엔드 미세 조정의 유연성을 최대한 유지합니다.
아래 그림 1은 비디오 이해 데이터 세트 Kinetics-400에 대한 EVL 방법의 결과를 보여줍니다. 실험에 따르면 이 방법은 교육 오버헤드를 절약하면서도 비디오 이해 작업에서 기본 시각적 모델의 잠재력을 완전히 탐색하는 것으로 나타났습니다.
그림 1: Kinetics-400의 인식 정확도 비교 가로축은 추론 계산량, 세로축은 정확도입니다.
method
알고리즘의 전체적인 개략도는 그림 2(a)에 나와 있습니다. 비디오 샘플의 경우 T 프레임을 가져와 이미지 인식 네트워크(예: CLIP)에 입력하고 특징을 추출합니다. 기존 방법과 비교하여 이미지 인식 네트워크의 마지막 몇 레이어에서 풀링되지 않은 다층 기능을 추출하여 더 풍부하고 세분화된 이미지 정보를 얻습니다. 이미지 인식 네트워크의 매개변수 가중치는 비디오 학습에서 항상 일관됩니다. 결정된. 이후, 비디오 수준의 정보 수집을 위해 다계층 특징 맵이 순차적으로 Transformer 디코더에 입력됩니다. 다중 계층 디코딩된 [CLS] 기능은 최종 분류 예측을 생성하는 데 사용됩니다.
그림 2(b)와 같이 Transformer 디코더가 기능을 집계할 때의 장애로 인해 위치 관련 세분화된 타이밍 정보를 더 잘 추출하기 위해 네트워크에 타이밍 정보 모델링 모듈을 추가했습니다. 구체적으로 세 가지 유형의 위치 관련 타이밍 정보를 추가합니다. 첫 번째는 시간 위치 임베딩(Position Embeddings), 두 번째는 시간 차원 깊이 분리 컨볼루션(Depthwise Convolution), 세 번째는 인접한 프레임 간의 주목입니다. 힘 정보. 프레임 간 Attention 정보는 영상 인식 네트워크에서 해당 레이어의 Query와 Key 특징을 추출하고, 인접한 프레임 간의 Attention Map을 계산합니다. (영상 인식 네트워크와는 달리 Attention Map은 동일한 프레임과 주요 기능을 얻습니다). 결과 주의 지도는 인접한 프레임 사이의 개체 위치 변경을 명시적으로 반영할 수 있습니다. 선형 투영 후 Attention Map은 객체의 변위 특성을 반영하는 벡터 그룹을 획득하고 요소별 추가 형태로 이미지 특징에 통합됩니다.
그림 2: EVL 알고리즘 구조 다이어그램. (a) 전체 구조, (b) 순차 정보 모델링 모듈.
그림 3: 프레임 간 주의 기능의 수학적 표현.
실험
그림 1과 표 1에서는 이전 영상 이해에서 몇 가지 중요한 방법을 인용했습니다. 교육 오버헤드를 줄이는 데 중점을 두었음에도 불구하고 우리의 방법은 정확도 측면에서 기존 방법보다 여전히 뛰어납니다(동일한 계산량 사용).
표 2에서는 고정 백본 네트워크로 인한 교육 오버헤드 감소를 보여줍니다. 메모리 측면에서 V100 16GB GPU에서는 고정 백본 네트워크를 통해 단일 카드 배치 크기가 최대 64개에 도달할 수 있지만, 엔드투엔드 훈련은 시간 측면에서 8개에만 도달할 수 있습니다. 네트워크를 사용하면 훈련 시간을 3~4배 절약할 수 있습니다.
표 3에서는 세분화된 특징 맵을 통한 인식 성능 향상을 보여줍니다. 풀링되지 않은 다계층 기능을 통해 백본 네트워크 가중치를 고정할 때 상당한 수준의 유연성을 유지할 수 있습니다. 풀링되지 않은 기능을 사용하면 가장 큰 개선(약 3%)이 이루어지며, 그 다음에는 다중 계층 디코더와 중간 계층 기능을 사용하여 각각 약 1%의 성능 향상을 가져옵니다.
마지막으로 세분화된 타이밍 정보 모듈의 효과를 표 4에 보여줍니다. 세분화된 타이밍 정보가 Kinetics-400의 성능에 미치는 영향은 제한적이지만 Something-Something-v2의 성능에는 매우 중요합니다. 세 개의 세분화된 타이밍 정보 모듈은 총 약 0.5% 및 약 14개의 정보를 가져옵니다. % 성능 개량.
표 1: Kinetics-400의 기존 방법과 비교 결과
표 2: 고정 백본 네트워크 가중치로 인한 교육 오버헤드 감소
표 3: 세분화된 특징 맵이 정확도에 미치는 영향
표 4: 다양한 데이터 세트에 대한 세분화된 시간 정보 모델링의 효과
요약
이 논문은 영상 이해 문제에서 고정 이미지 백본 네트워크의 엄청난 잠재력을 처음으로 보여주고, 컴퓨팅이 제한된 연구 그룹에 고성능 영상 이해를 보다 친숙하게 만드는 EVL 영상 이해 학습 프레임워크를 제안합니다. 자원. 우리는 또한 기본 시각적 모델의 품질과 규모가 향상됨에 따라 우리의 방법이 경량 전이 학습 알고리즘에 대한 후속 연구에 대한 참고 자료를 제공할 수 있다고 믿습니다.
위 내용은 고정 매개변수 모델의 잠재력은 얼마나 됩니까? 홍콩 중국인, 상하이 AI 연구소 등이 효율적인 비디오 이해 프레임워크 EVL을 제안했습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











소프트웨어 기술의 선두에 있는 UIUC Zhang Lingming 그룹은 BigCode 조직의 연구원들과 함께 최근 StarCoder2-15B-Instruct 대규모 코드 모델을 발표했습니다. 이 혁신적인 성과는 코드 생성 작업에서 획기적인 발전을 이루었으며 CodeLlama-70B-Instruct를 성공적으로 능가하고 코드 생성 성능 목록의 최상위에 올랐습니다. StarCoder2-15B-Instruct의 독창성은 순수한 자체 정렬 전략에 있습니다. 전체 훈련 프로세스는 개방적이고 투명하며 완전히 자율적이고 제어 가능합니다. 이 모델은 값비싼 수동 주석에 의존하지 않고 StarCoder-15B 기본 모델을 미세 조정한 것에 대한 응답으로 StarCoder2-15B를 통해 수천 개의 명령을 생성합니다.

1. 소개 지난 몇 년 동안 YOLO는 계산 비용과 감지 성능 간의 효과적인 균형으로 인해 실시간 객체 감지 분야에서 지배적인 패러다임이 되었습니다. 연구원들은 YOLO의 아키텍처 설계, 최적화 목표, 데이터 확장 전략 등을 탐색하여 상당한 진전을 이루었습니다. 동시에 사후 처리를 위해 NMS(비최대 억제)에 의존하면 YOLO의 엔드투엔드 배포가 방해되고 추론 대기 시간에 부정적인 영향을 미칩니다. YOLO에서는 다양한 구성 요소의 설계에 포괄적이고 철저한 검사가 부족하여 상당한 계산 중복이 발생하고 모델 기능이 제한됩니다. 이는 최적이 아닌 효율성을 제공하며 성능 향상을 위한 상대적으로 큰 잠재력을 제공합니다. 이 작업의 목표는 사후 처리와 모델 아키텍처 모두에서 YOLO의 성능 효율성 경계를 더욱 향상시키는 것입니다. 이를 위해

표적 탐지 시스템의 벤치마크 YOLO 시리즈가 다시 한 번 대대적인 업그레이드를 받았습니다. 올해 2월 YOLOv9이 출시된 이후 YOLO(YouOnlyLookOnce) 시리즈의 지휘봉은 칭화대학교 연구진의 손에 넘어갔다. 지난 주말 YOLOv10 출시 소식이 AI 커뮤니티의 관심을 끌었다. 컴퓨터 비전 분야의 획기적인 프레임워크로 간주되며 실시간 엔드투엔드 개체 감지 기능으로 유명하며 효율성과 정확성을 결합한 강력한 솔루션을 제공함으로써 YOLO 시리즈의 유산을 이어갑니다. 논문 주소: https://arxiv.org/pdf/2405.14458 프로젝트 주소: https://github.com/THU-MIG/yo

Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

올해 2월 Google은 엔지니어링 및 인프라 최적화, MoE 아키텍처 및 기타 전략을 통해 성능과 속도를 크게 향상시킨 다중 모드 대형 모델 Gemini 1.5를 출시했습니다. 더 긴 컨텍스트, 더 강력한 추론 기능, 교차 모달 콘텐츠 처리 능력이 향상되었습니다. 이번 금요일에 Google DeepMind는 Flash 버전과 기타 최신 업그레이드를 다루는 Gemini 1.5의 기술 보고서를 공식적으로 발표했습니다. 이 문서의 길이는 153페이지입니다. 기술 보고서 링크: https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf 이 보고서에서 Google은 Gemini1을 소개합니다.

위 작성 및 저자 개인 이해: 최근 딥러닝 기술의 발전과 획기적인 발전으로 대규모 기반 모델(Foundation Models)이 자연어 처리 및 컴퓨터 비전 분야에서 상당한 성과를 거두었습니다. 자율주행에 기본 모델을 적용하는 것도 시나리오에 대한 이해와 추론을 향상시킬 수 있는 큰 발전 전망을 가지고 있습니다. 풍부한 언어와 시각적 데이터에 대한 사전 학습을 통해 기본 모델은 자율주행 시나리오의 다양한 요소를 이해하고 해석하고 추론을 수행할 수 있으며, 의사 결정 및 계획을 추진하기 위한 언어 및 동작 명령을 제공합니다. 기본 모델은 일상적인 운전 및 데이터 수집 중에 발생할 가능성이 없는 롱테일 분포에서 드물게 실행 가능한 기능을 제공하기 위해 운전 시나리오에 대한 이해를 통해 데이터를 보강할 수 있습니다.

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

경량 PHP 프레임워크는 작은 크기와 낮은 리소스 소비를 통해 애플리케이션 성능을 향상시킵니다. 그 특징은 다음과 같습니다: 작은 크기, 빠른 시작, 낮은 메모리 사용량, 향상된 응답 속도 및 처리량, 리소스 소비 감소 실제 사례: SlimFramework는 500KB에 불과한 REST API를 생성하며 높은 응답성과 높은 처리량을 제공합니다.
