칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨
설명 한 문장으로 큰 영상 속에서 해당 클립을 찾을 수 있어요!
예를 들어, "계단을 내려가는 동안 물을 마시는 사람"을 묘사하는 경우, 영상 이미지와 발자국 매칭을 통해 새로운 방법은 해당 시작 및 종료 타임스탬프를 즉시 찾을 수 있습니다.
"웃는" 의미도
이 방법을 칭화대학교 연구팀이 제안한 Adaptive Dual Branch Promotion Network(ADPN)이라고 합니다.
특히 ADPN은 쿼리 텍스트를 기반으로 비디오에서 관련 클립을 찾는 비디오 클립 위치 지정(Temporal Sentence Grounding, TSG)이라는 시각적 언어 교차 모달 작업을 완료하는 데 사용됩니다.
ADPN은 비디오의 시각적 및 오디오 양식의 일관성 및 상보성을 효율적으로 활용하여 비디오 클립 위치 지정 성능을 향상시키는 기능이 특징입니다.
오디오를 사용하는 다른 TSG 작업 PMI-LOC 및 UMT와 비교하여 ADPN 방식은 오디오 모드에서 더욱 중요한 성능 향상을 달성했으며 여러 테스트에서 새로운 SOTA를 획득했습니다.
현재 이 작업은 ACM Multimedia 2023에서 승인되었으며 완전한 오픈 소스입니다.
ADPN이 무엇인지 살펴보겠습니다~
한 문장 내에서 동영상 위치 지정
동영상 위치 지정(Temporal Sentence Grounding, TSG)은 중요한 시각-언어 교차 모달 작업입니다.
자연어 쿼리를 기반으로 편집되지 않은 비디오에서 의미론적으로 일치하는 세그먼트의 시작 및 종료 타임스탬프를 찾는 것이 목적입니다. 강력한 시간적 교차 모달 추론 기능을 갖춘 방법이 필요합니다.
그러나 대부분의 기존 TSG 방식은 RGB, 광학 흐름(광 흐름), 깊이(깊이) 등 영상에 포함된 시각적 정보만 고려하고, 영상에 자연스럽게 수반되는 오디오 정보는 무시합니다. .
오디오 정보는 종종 풍부한 의미를 포함하며 시각적 정보와 일관되고 보완적입니다. 아래 그림에 표시된 것처럼 이러한 속성은 TSG 작업에 도움이 됩니다.
Δ그림 1
(a) 일관성: 비디오 이미지와 발자국은 쿼리의 "계단 아래로 이동"의 의미와 일관되게 일치합니다. (b) 상보성: 비디오 이미지는 특정 항목을 식별하기 어렵습니다. 그러나 웃음의 존재는 강력한 보완적 포지셔닝 단서를 제공합니다.
그래서 연구자들은 오디오 강화 비디오 클립 위치 파악 작업(Audio-enhanced Temporal Sentence Grounding, ATSG)을 깊이 연구하여 시각적 및 오디오 양식 모두에서 위치 파악 단서를 더 잘 포착하는 것을 목표로 했습니다. 그러나 오디오 모드가 도입되었습니다. 양식은 또한 다음과 같은 과제를 가져옵니다.
- 오디오 및 시각적 양식의 일관성과 상보성은 쿼리 텍스트와 연관되어 있으므로 시청각 일관성과 상보성을 캡처하려면 텍스트-시각-오디오 세 가지 모드의 상태 기반 상호 작용을 모델링해야 합니다.
- 오디오와 시각 사이에는 상당한 모달 차이가 있으며, 둘의 정보 밀도와 소음 강도가 다르며 이는 시청각 학습 성능에 영향을 미칩니다.
위 과제를 해결하기 위해 연구원들은 새로운 ATSG 방법인 "Adaptive Dual-branch Prompted Network"(Adaptive Dual-branch Prompted Network, ADPN)을 제안했습니다.
이중 분기 모델 구조 설계를 통해 이 방법은 오디오와 비전 간의 일관성과 상보성을 적응적으로 모델링할 수 있으며 코스 학습 간섭을 기반으로 한 노이즈 제거 최적화 전략을 사용하여 오디오 모달 노이즈를 추가로 제거하여 비디오에 대한 오디오 신호의 중요성을 드러냅니다. 검색.
ADPN의 전체 구조는 아래 그림에 나와 있습니다.
Δ 그림 2: ADPN(Adaptive Dual Branch Promotion Network)의 전체 도식 다이어그램
주로 세 가지 디자인이 포함됩니다.
1. 네트워크 구조 설계
오디오의 노이즈가 더 분명하고 TSG 작업의 경우 오디오에는 일반적으로 더 많은 정보가 중복되므로 오디오 및 시각적 양식의 학습 과정에 다른 중요성을 부여해야 하므로 이 문서에는 이중 지점 네트워크 구조는 시각적 정보를 향상시키면서 다중 모드 학습을 위해 오디오 및 비전을 사용합니다.
구체적으로 그림 2(a)를 참조하면 ADPN은 시각적 정보만 사용하는 분기 (시각적 분기) 와 시각적 정보와 오디오 정보를 모두 사용하는 분기 (합동 분기) 를 동시에 학습합니다.
두 분기는 유사한 구조를 가지고 있으며, 공동 분기는 텍스트-시각-오디오 모달 상호 작용을 모델링하기 위해 텍스트 기반 단서 마이닝 장치(TGCM) 를 추가합니다. 훈련 과정에서 두 분기는 동시에 매개변수를 업데이트하고 추론 단계에서는 결합 분기의 결과를 모델 예측 결과로 사용합니다.
2. Text-Guided Clues Miner (Text-Guided Clues Miner, TGCM)
오디오 및 시각적 양식의 일관성과 상보성이 주어진 텍스트 쿼리를 기반으로 한다는 점을 고려하여 연구원들은 TGCM 장치를 설계했습니다. 텍스트-시각-오디오의 세 가지 양식 간의 상호 작용을 모델링합니다.
그림 2(b)를 참조하면 TGCM은 "추출"과 "전파"의 두 단계로 구분됩니다.
먼저 텍스트를 쿼리 조건으로 사용하고, 시각 및 청각 양식에서 관련 정보를 추출하여 통합한 다음, 시각 및 청각 양식을 쿼리 조건으로 사용하고, 통합된 정보를 시각 및 청각으로 확산시킵니다. 주의를 통한 오디오 모드 각각의 양식은 마침내 FFN을 통해 기능 융합됩니다.
3. 커리큘럼 학습 최적화 전략
연구원들은 오디오에 잡음이 포함되어 있어 다중 모달 학습 효과에 영향을 미치는 것을 관찰하여 잡음의 강도를 샘플 난이도의 기준으로 삼고 커리큘럼 학습을 도입했습니다 (Curriculum Learning , CL) 최적화 프로세스의 노이즈를 제거합니다. 그림 2(c)를 참조하세요.
두 분기의 예측 출력 차이를 기반으로 샘플의 난이도를 평가합니다. 그들은 너무 어려운 샘플은 오디오에 노이즈가 너무 많아 적합하지 않음을 나타낼 확률이 높다고 믿습니다. TSG 작업이므로 훈련 과정의 손실은 샘플 난이도의 평가 점수를 기반으로 합니다. 오디오의 잡음으로 인해 발생하는 잘못된 기울기를 삭제하기 위해 함수 항에 다시 가중치를 부여합니다.
(나머지 모델 구조 및 학습 세부 사항은 원본 텍스트를 참조하세요.)
다중 테스트 새로운 SOTA
연구원들은 TSG의 벤치마크 데이터 세트 Charades-STA 및 ActivityNet Captions에 대한 실험적 평가를 수행했습니다. 작업, 기준 방법과 비교 비교는 표 1에 나와 있습니다.
ADPN 방법은 특히 오디오를 활용하는 다른 TSG 작업 PMI-LOC 및 UMT에 비해 SOTA 성능을 달성할 수 있으며, ADPN 방법은 오디오 모달리티에서 더 중요한 성능 향상을 얻습니다. 이는 ADPN 방법이 오디오 모달리티를 사용함을 나타냅니다. TSG 우월성을 홍보합니다.
Δ표 1: Charades-STA 및 ActivityNet 캡션에 대한 실험 결과
연구원들은 표 2와 같이 절제 실험을 통해 ADPN의 다양한 설계 단위의 효율성을 추가로 입증했습니다.
Δ표 2: Charades-STA에 대한 절제 실험
연구진은 시각화를 위해 일부 샘플의 예측 결과를 선택하고 TGCM의 "추출" 단계에서 "텍스트 투 비전"(T→V)을 그렸습니다. ) 및 "텍스트 오디오"(T→A) 주의 가중치 분포는 그림 3과 같습니다.
오디오 양식을 도입하면 예측 결과가 향상되는 것을 볼 수 있습니다. "Person Laughs at it"의 경우, T→A의 주의 가중치 분포가 Ground Truth에 더 가깝다는 것을 알 수 있으며, 이는 T→V의 가중치 분포에 의한 모델 예측의 잘못된 안내를 수정합니다.
Δ 그림 3: 사례 발표
요약하자면, 이 논문의 연구자들은 오디오 강화 비디오 클립 현지화 (ATSG) 질문을 해결하기 위해 새로운 적응형 이중 분기 촉진 네트워크 (ADPN) 을 제안했습니다.
그들은 시청각 양식과 시각 양식 간의 정보 차이를 해결하기 위해 시각적 분기와 시청각 공동 분기를 공동으로 훈련하는 이중 분기 모델 구조를 설계했습니다.
그들은 또한 텍스트-오디오-비주얼 상호 작용을 모델링하기 위한 가이드로 텍스트 의미론을 사용하는 텍스트 기반 단서 마이닝 유닛 (TGCM) 을 제안했습니다.
마지막으로 연구원들은 오디오 잡음을 더욱 제거하고, 자기 인식 방식으로 잡음 강도의 척도로 샘플 난이도를 평가하고, 최적화 프로세스를 적응적으로 조정하기 위한 코스 학습 기반 최적화 전략을 설계했습니다.
오디오 모드의 성능 개선 효과를 더욱 향상시키기 위해 먼저 ATSG에서 오디오 특성에 대한 심층적인 연구를 수행했습니다.
향후에는 ATSG에 더 적합한 평가 벤치마크를 구축하여 이 분야에 대한 심층적인 연구를 장려하기를 희망합니다.
논문 링크: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
저장소 링크: https://github.com/hlchen23/ADPN-MM
위 내용은 칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

요약 : vue.js 문자열 배열을 객체 배열로 변환하는 다음 방법이 있습니다. 기본 메소드 : 정기적 인 형식의 데이터에 맞게 맵 함수를 사용하십시오. 고급 게임 플레이 : 정규 표현식을 사용하면 복잡한 형식을 처리 할 수 있지만 신중하게 작성하고 고려해야합니다. 성능 최적화 : 많은 양의 데이터를 고려하면 비동기 작업 또는 효율적인 데이터 처리 라이브러리를 사용할 수 있습니다. 모범 사례 : 명확한 코드 스타일, 의미있는 변수 이름과 주석을 사용하여 코드를 간결하게 유지하십시오.

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

vue axios의 타임 아웃을 설정하려면 axios 인스턴스를 생성하고 시간 초과 옵션을 지정할 수 있습니다. 글로벌 설정에서 : vue.prototype. $ axios = axios.create ({timeout : 5000}); 단일 요청 : this. $ axios.get ( '/api/user', {timeout : 100000}).

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.
