목차
한 문장 내에서 동영상 위치 지정
Δ그림 1
다중 테스트 새로운 SOTA
기술 주변기기 일체 포함 칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

Jan 09, 2024 pm 03:26 PM
동영상 ai

설명 한 문장으로 큰 영상 속에서 해당 클립을 찾을 수 있어요!

예를 들어, "계단을 내려가는 동안 물을 마시는 사람"을 묘사하는 경우, 영상 이미지와 발자국 매칭을 통해 새로운 방법은 해당 시작 및 종료 타임스탬프를 즉시 찾을 수 있습니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

"웃는" 의미도

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

이 방법을 칭화대학교 연구팀이 제안한 Adaptive Dual Branch Promotion Network(ADPN)이라고 합니다.

특히 ADPN은 쿼리 텍스트를 기반으로 비디오에서 관련 클립을 찾는 비디오 클립 위치 지정(Temporal Sentence Grounding, TSG)이라는 시각적 언어 교차 모달 작업을 완료하는 데 사용됩니다.

ADPN은 비디오의 시각적 및 오디오 양식의 일관성상보성을 효율적으로 활용하여 비디오 클립 위치 지정 성능을 향상시키는 기능이 특징입니다.

오디오를 사용하는 다른 TSG 작업 PMI-LOC 및 UMT와 비교하여 ADPN 방식은 오디오 모드에서 더욱 중요한 성능 향상을 달성했으며 여러 테스트에서 새로운 SOTA를 획득했습니다.

현재 이 작업은 ACM Multimedia 2023에서 승인되었으며 완전한 오픈 소스입니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

ADPN이 무엇인지 살펴보겠습니다~

한 문장 내에서 동영상 위치 지정

동영상 위치 지정(Temporal Sentence Grounding, TSG)은 중요한 시각-언어 교차 모달 작업입니다.

자연어 쿼리를 기반으로 편집되지 않은 비디오에서 의미론적으로 일치하는 세그먼트의 시작 및 종료 타임스탬프를 찾는 것이 목적입니다. 강력한 시간적 교차 모달 추론 기능을 갖춘 방법이 필요합니다.

그러나 대부분의 기존 TSG 방식은 RGB, 광학 흐름(광 흐름), 깊이(깊이) 등 영상에 포함된 시각적 정보만 고려하고, 영상에 자연스럽게 수반되는 오디오 정보는 무시합니다. .

오디오 정보는 종종 풍부한 의미를 포함하며 시각적 정보와 일관되고 보완적입니다. 아래 그림에 표시된 것처럼 이러한 속성은 TSG 작업에 도움이 됩니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨
Δ그림 1

(a) 일관성: 비디오 이미지와 발자국은 쿼리의 "계단 아래로 이동"의 의미와 일관되게 일치합니다. (b) 상보성: 비디오 이미지는 특정 항목을 식별하기 어렵습니다. 그러나 웃음의 존재는 강력한 보완적 포지셔닝 단서를 제공합니다.

그래서 연구자들은 오디오 강화 비디오 클립 위치 파악 작업(Audio-enhanced Temporal Sentence Grounding, ATSG)을 깊이 연구하여 시각적 및 오디오 양식 모두에서 위치 파악 단서를 더 잘 포착하는 것을 목표로 했습니다. 그러나 오디오 모드가 도입되었습니다. 양식은 또한 다음과 같은 과제를 가져옵니다.

  • 오디오 및 시각적 양식의 일관성과 상보성은 쿼리 텍스트와 연관되어 있으므로 시청각 일관성과 상보성을 캡처하려면 텍스트-시각-오디오 세 가지 모드의 상태 기반 상호 작용을 모델링해야 합니다.
  • 오디오와 시각 사이에는 상당한 모달 차이가 있으며, 둘의 정보 밀도와 소음 강도가 다르며 이는 시청각 학습 성능에 영향을 미칩니다.

위 과제를 해결하기 위해 연구원들은 새로운 ATSG 방법인 "Adaptive Dual-branch Prompted Network"(Adaptive Dual-branch Prompted Network, ADPN)을 제안했습니다.

이중 분기 모델 구조 설계를 통해 이 방법은 오디오와 비전 간의 일관성과 상보성을 적응적으로 모델링할 수 있으며 코스 학습 간섭을 기반으로 한 노이즈 제거 최적화 전략을 사용하여 오디오 모달 노이즈를 추가로 제거하여 비디오에 대한 오디오 신호의 중요성을 드러냅니다. 검색.

ADPN의 전체 구조는 아래 그림에 나와 있습니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

Δ 그림 2: ADPN(Adaptive Dual Branch Promotion Network)의 전체 도식 다이어그램

주로 세 가지 디자인이 포함됩니다.

1. 네트워크 구조 설계

오디오의 노이즈가 더 분명하고 TSG 작업의 경우 오디오에는 일반적으로 더 많은 정보가 중복되므로 오디오 및 시각적 양식의 학습 과정에 다른 중요성을 부여해야 하므로 이 문서에는 이중 지점 네트워크 구조는 시각적 정보를 향상시키면서 다중 모드 학습을 위해 오디오 및 비전을 사용합니다.

구체적으로 그림 2(a)를 참조하면 ADPN은 시각적 정보만 사용하는 분기 (시각적 분기) 와 시각적 정보와 오디오 정보를 모두 사용하는 분기 (합동 분기) 를 동시에 학습합니다.

두 분기는 유사한 구조를 가지고 있으며, 공동 분기는 텍스트-시각-오디오 모달 상호 작용을 모델링하기 위해 텍스트 기반 단서 마이닝 장치(TGCM) 를 추가합니다. 훈련 과정에서 두 분기는 동시에 매개변수를 업데이트하고 추론 단계에서는 결합 분기의 결과를 모델 예측 결과로 사용합니다.

2. Text-Guided Clues Miner (Text-Guided Clues Miner, TGCM)

오디오 및 시각적 양식의 일관성과 상보성이 주어진 텍스트 쿼리를 기반으로 한다는 점을 고려하여 연구원들은 TGCM 장치를 설계했습니다. 텍스트-시각-오디오의 세 가지 양식 간의 상호 작용을 모델링합니다.

그림 2(b)를 참조하면 TGCM은 "추출"과 "전파"의 두 단계로 구분됩니다.

먼저 텍스트를 쿼리 조건으로 사용하고, 시각 및 청각 양식에서 관련 정보를 추출하여 통합한 다음, 시각 및 청각 양식을 쿼리 조건으로 사용하고, 통합된 정보를 시각 및 청각으로 확산시킵니다. 주의를 통한 오디오 모드 각각의 양식은 마침내 FFN을 통해 기능 융합됩니다.

3. 커리큘럼 학습 최적화 전략

연구원들은 오디오에 잡음이 포함되어 있어 다중 모달 학습 효과에 영향을 미치는 것을 관찰하여 잡음의 강도를 샘플 난이도의 기준으로 삼고 커리큘럼 학습을 도입했습니다 (Curriculum Learning , CL) 최적화 프로세스의 노이즈를 제거합니다. 그림 2(c)를 참조하세요.

두 분기의 예측 출력 차이를 기반으로 샘플의 난이도를 평가합니다. 그들은 너무 어려운 샘플은 오디오에 노이즈가 너무 많아 적합하지 않음을 나타낼 확률이 높다고 믿습니다. TSG 작업이므로 훈련 과정의 손실은 샘플 난이도의 평가 점수를 기반으로 합니다. 오디오의 잡음으로 인해 발생하는 잘못된 기울기를 삭제하기 위해 함수 항에 다시 가중치를 부여합니다.

(나머지 모델 구조 및 학습 세부 사항은 원본 텍스트를 참조하세요.)

다중 테스트 새로운 SOTA

연구원들은 TSG의 벤치마크 데이터 세트 Charades-STA 및 ActivityNet Captions에 대한 실험적 평가를 수행했습니다. 작업, 기준 방법과 비교 비교는 표 1에 나와 있습니다.

ADPN 방법은 특히 오디오를 활용하는 다른 TSG 작업 PMI-LOC 및 UMT에 비해 SOTA 성능을 달성할 수 있으며, ADPN 방법은 오디오 모달리티에서 더 중요한 성능 향상을 얻습니다. 이는 ADPN 방법이 오디오 모달리티를 사용함을 나타냅니다. TSG 우월성을 홍보합니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

Δ표 1: Charades-STA 및 ActivityNet 캡션에 대한 실험 결과

연구원들은 표 2와 같이 절제 실험을 통해 ADPN의 다양한 설계 단위의 효율성을 추가로 입증했습니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

Δ표 2: Charades-STA에 대한 절제 실험

연구진은 시각화를 위해 일부 샘플의 예측 결과를 선택하고 TGCM의 "추출" 단계에서 "텍스트 투 비전"(T→V)을 그렸습니다. ) 및 "텍스트 오디오"(T→A) 주의 가중치 분포는 그림 3과 같습니다.

오디오 양식을 도입하면 예측 결과가 향상되는 것을 볼 수 있습니다. "Person Laughs at it"의 경우, T→A의 주의 가중치 분포가 Ground Truth에 더 가깝다는 것을 알 수 있으며, 이는 T→V의 가중치 분포에 의한 모델 예측의 잘못된 안내를 수정합니다.

칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨

Δ 그림 3: 사례 발표

요약하자면, 이 논문의 연구자들은 오디오 강화 비디오 클립 현지화 (ATSG) 질문을 해결하기 위해 새로운 적응형 이중 분기 촉진 네트워크 (ADPN) 을 제안했습니다.

그들은 시청각 양식과 시각 양식 간의 정보 차이를 해결하기 위해 시각적 분기와 시청각 공동 분기를 공동으로 훈련하는 이중 분기 모델 구조를 설계했습니다.

그들은 또한 텍스트-오디오-비주얼 상호 작용을 모델링하기 위한 가이드로 텍스트 의미론을 사용하는 텍스트 기반 단서 마이닝 유닛 (TGCM) 을 제안했습니다.

마지막으로 연구원들은 오디오 잡음을 더욱 제거하고, 자기 인식 방식으로 잡음 강도의 척도로 샘플 난이도를 평가하고, 최적화 프로세스를 적응적으로 조정하기 위한 코스 학습 기반 최적화 전략을 설계했습니다.

오디오 모드의 성능 개선 효과를 더욱 향상시키기 위해 먼저 ATSG에서 오디오 특성에 대한 심층적인 연구를 수행했습니다.

향후에는 ATSG에 더 적합한 평가 벤치마크를 구축하여 이 분야에 대한 심층적인 연구를 장려하기를 희망합니다.

논문 링크: https://dl.acm.org/doi/pdf/10.1145/3581783.3612504
저장소 링크: https://github.com/hlchen23/ADPN-MM

위 내용은 칭화대학교의 새로운 방법으로 정확한 비디오 클립을 성공적으로 찾아냈습니다! SOTA를 능가하고 오픈 소스화됨의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

MySQL을 해결하는 방법을 시작할 수 없습니다 MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

MySQL이 JSON을 반환 할 수 있습니다 MySQL이 JSON을 반환 할 수 있습니다 Apr 08, 2025 pm 03:09 PM

MySQL은 JSON 데이터를 반환 할 수 있습니다. json_extract 함수는 필드 값을 추출합니다. 복잡한 쿼리의 경우 where 절을 사용하여 JSON 데이터를 필터링하지만 성능 영향에주의하십시오. JSON에 대한 MySQL의 지원은 지속적으로 증가하고 있으며 최신 버전 및 기능에주의를 기울이는 것이 좋습니다.

산성 특성 이해 : 신뢰할 수있는 데이터베이스의 기둥 산성 특성 이해 : 신뢰할 수있는 데이터베이스의 기둥 Apr 08, 2025 pm 06:33 PM

데이터베이스 산 속성에 대한 자세한 설명 산 속성은 데이터베이스 트랜잭션의 신뢰성과 일관성을 보장하기위한 일련의 규칙입니다. 데이터베이스 시스템이 트랜잭션을 처리하는 방법을 정의하고 시스템 충돌, 전원 중단 또는 여러 사용자의 동시 액세스가 발생할 경우에도 데이터 무결성 및 정확성을 보장합니다. 산 속성 개요 원자력 : 트랜잭션은 불가분의 단위로 간주됩니다. 모든 부분이 실패하고 전체 트랜잭션이 롤백되며 데이터베이스는 변경 사항을 유지하지 않습니다. 예를 들어, 은행 송금이 한 계정에서 공제되지만 다른 계정으로 인상되지 않은 경우 전체 작업이 취소됩니다. BeginTransaction; updateAccountssetBalance = Balance-100WH

마스터 SQL 한계 절 항의 : 쿼리의 행 수 제어 마스터 SQL 한계 절 항의 : 쿼리의 행 수 제어 Apr 08, 2025 pm 07:00 PM

sqllimit 절 : 쿼리 결과의 행 수를 제어하십시오. SQL의 한계 절은 쿼리에서 반환 된 행 수를 제한하는 데 사용됩니다. 이것은 대규모 데이터 세트, 페이지 진화 디스플레이 및 테스트 데이터를 처리 할 때 매우 유용하며 쿼리 효율성을 효과적으로 향상시킬 수 있습니다. 구문의 기본 구문 : SelectColumn1, Collect2, ... Fromtable_namelimitnumber_of_rows; 번호_of_rows : 반환 된 행 수를 지정하십시오. 오프셋이있는 구문 : SelectColumn1, Column2, ... Fromtable_namelimitOffset, number_of_rows; 오프셋 : skip

고로드 애플리케이션의 MySQL 성능을 최적화하는 방법은 무엇입니까? 고로드 애플리케이션의 MySQL 성능을 최적화하는 방법은 무엇입니까? Apr 08, 2025 pm 06:03 PM

MySQL 데이터베이스 성능 최적화 안내서 리소스 집약적 응용 프로그램에서 MySQL 데이터베이스는 중요한 역할을 수행하며 대규모 트랜잭션 관리를 담당합니다. 그러나 응용 프로그램 규모가 확장됨에 따라 데이터베이스 성능 병목 현상은 종종 제약이됩니다. 이 기사는 일련의 효과적인 MySQL 성능 최적화 전략을 탐색하여 응용 프로그램이 고 부하에서 효율적이고 반응이 유지되도록합니다. 실제 사례를 결합하여 인덱싱, 쿼리 최적화, 데이터베이스 설계 및 캐싱과 같은 심층적 인 주요 기술을 설명합니다. 1. 데이터베이스 아키텍처 설계 및 최적화 된 데이터베이스 아키텍처는 MySQL 성능 최적화의 초석입니다. 몇 가지 핵심 원칙은 다음과 같습니다. 올바른 데이터 유형을 선택하고 요구 사항을 충족하는 가장 작은 데이터 유형을 선택하면 저장 공간을 절약 할 수있을뿐만 아니라 데이터 처리 속도를 향상시킬 수 있습니다.

MySQL의 주요 키는 Null 일 수 있습니다 MySQL의 주요 키는 Null 일 수 있습니다 Apr 08, 2025 pm 03:03 PM

기본 키는 데이터베이스의 각 행을 고유하게 식별하는 키 속성이기 때문에 MySQL 기본 키는 비어있을 수 없습니다. 기본 키가 비어 있으면 레코드를 고유하게 식별 할 수 없으므로 데이터 혼동으로 이어질 수 있습니다. 자체 점수 정수 열 또는 UUID를 기본 키로 사용하는 경우 효율성 및 우주 점유와 같은 요소를 고려하고 적절한 솔루션을 선택해야합니다.

MongoDB 데이터베이스 비밀번호를 보는 Navicat의 방법 MongoDB 데이터베이스 비밀번호를 보는 Navicat의 방법 Apr 08, 2025 pm 09:39 PM

해시 값으로 저장되기 때문에 MongoDB 비밀번호를 Navicat을 통해 직접 보는 것은 불가능합니다. 분실 된 비밀번호 검색 방법 : 1. 비밀번호 재설정; 2. 구성 파일 확인 (해시 값이 포함될 수 있음); 3. 코드를 점검하십시오 (암호 하드 코드 메일).

Prometheus MySQL Expler를 사용하여 MySQL 및 MariaDB 액 적을 모니터링하십시오 Prometheus MySQL Expler를 사용하여 MySQL 및 MariaDB 액 적을 모니터링하십시오 Apr 08, 2025 pm 02:42 PM

MySQL 및 MariaDB 데이터베이스의 효과적인 모니터링은 최적의 성능을 유지하고 잠재적 인 병목 현상을 식별하며 전반적인 시스템 신뢰성을 보장하는 데 중요합니다. Prometheus MySQL Expler는 능동적 인 관리 및 문제 해결에 중요한 데이터베이스 메트릭에 대한 자세한 통찰력을 제공하는 강력한 도구입니다.

See all articles