


교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.
Introduction
Referring VOS(RVOS)는 참조 텍스트를 기반으로 비디오 시퀀스에서 텍스트가 참조하는 개체를 분할하는 것을 목표로 하는 새로 등장한 작업입니다. 준지도 비디오 객체 분할과 비교하여 RVOS는 픽셀 수준 참조 마스크 대신 추상적인 언어 설명에만 의존하여 인간과 컴퓨터의 상호 작용에 보다 편리한 옵션을 제공하므로 광범위한 관심을 받았습니다.
논문 링크: https://www.aaai.org/AAAI22Papers/AAAI-1100.LiD.pdf
본 연구의 주요 목적은 기존 RVOS가 직면한 문제를 해결하는 것입니다. 작업 두 가지 주요 과제:
- 두 양식 간의 규모 일관성을 유지하고 텍스트에서 제공하는 유용한 기능 참조를 이미지 기능에 완전히 통합하기 위해 여러 양식에 걸쳐 텍스트 정보와 그림 정보를 융합하는 방법
- 기존 방법의 2단계 전략을 버리는 방법(즉, 먼저 이미지 수준에서 프레임별로 대략적인 결과를 얻은 다음 그 결과를 참조로 사용하고 강화된 시간 정보로 구조적 정제를 통해 최종 예측을 얻는 방법) ), 전체 RVOS 작업을 단일 단계 프레임워크로 통합합니다.
이와 관련하여 이 연구는 크로스 모달 요소 마이그레이션을 위한 엔드 투 엔드 RVOS 프레임워크인 YOFO를 제안합니다. 주요 기여와 혁신은 다음과 같습니다.
- 필요합니다. 참조 텍스트 정보를 사용하여 비디오 대상의 분할 결과를 직접 얻기 위한 단일 단계 추론 - Ref-DAVIS2017 및 Ref-Youtube-VOS에서 얻은 결과는 현재의 모든 2단계 방법을 능가합니다. 시간 정보를 향상시켜 보다 목표 중심의 특징 학습을 달성하는 Meta-Transfer 모듈
- 유용한 특징을 완전히 통합할 수 있는 다중 규모 교차 모달 특징 마이닝(Multi-Scale Cross -Modal Feature Mining) 모듈을 제안합니다. 언어와 그림으로.
- 구현 전략
다중 스케일 교차 모달 특성 마이닝 모듈
: 이 모듈은 서로 다른 스케일의 두 모달 특성을 점진적으로 융합하여 이미지 특성이 전달하는 스케일 정보와 언어 특성 간의 관계를 유지할 수 있습니다. 일관성, 그리고 더 중요하게는 융합 프로세스 중에 언어 정보가 다중 규모 이미지 정보로 인해 희석되거나 압도되지 않도록 보장합니다.
Meta-migration 모듈
: 학습-학습 전략을 채택했으며, 그 과정은 간단히 다음 매핑 기능으로 설명할 수 있습니다. 마이그레이션 함수 가 컨볼루션인 경우 는 컨볼루션 커널 매개변수 입니다.
최적화 과정은 다음과 같은 목적함수로 표현할 수 있습니다.
이 중 M은 과거 정보를 저장할 수 있는 메모리 뱅크를 나타내고, W는 다양한 위치의 가중치를 나타냅니다. 다양한 위치와 다양한 특징 주의 정도 Y는 메모리 뱅크에 저장된 각 비디오 프레임의 이중 모드 특징을 나타냅니다. 이 최적화 프로세스는 바이모달 특징을 재구성하는 메타 전송 기능의 능력을 최대화하고 전체 프레임워크를 엔드투엔드 학습할 수 있도록 합니다.
Training and Testing: 훈련에 사용된 손실 함수는 lovasz 손실이며, 훈련 세트는 Ref-DAVIS2017과 Ref-Youtube-VOS 두 개의 비디오 데이터 세트이며 정적 데이터 세트 Ref를 통해 수행됩니다. -COCO 무작위 아핀 변환은 비디오 데이터를 보조 훈련으로 시뮬레이션합니다. 메타 마이그레이션 프로세스는 훈련 및 예측 중에 수행되며 전체 네트워크는 1080ti에서 10FPS의 속도로 실행됩니다.
실험 결과
연구에 사용된 방법은 두 개의 주류 RVOS 데이터 세트(Ref-DAVIS2017 및 Ref-Youtube-VOS)에서 우수한 결과를 얻었습니다. 정량적 지표와 일부 시각화 렌더링은 다음과 같습니다.
그림 3: 두 가지 주류 데이터 세트에 대한 정량적 지표.
그림 4: VOS 데이터 세트의 시각화.
그림 5: YOFO의 기타 시각화 효과.
이 연구에서는 기능 마이닝 모듈(FM)과 메타 전송 모듈(MT)의 효율성을 설명하기 위해 일련의 절제 실험도 수행했습니다.
그림 6: 기능 마이닝 모듈(FM) 및 메타 전송 모듈(MT)의 효율성.
또한, MT 모듈을 사용하지 않고 MT 모듈을 사용하여 디코더의 출력 특성을 시각화한 결과, MT 모듈이 언어가 설명하는 내용을 올바르게 캡처하고 간섭 노이즈를 수행할 수 있음을 명확하게 알 수 있습니다. .
그림 7: MT 모듈 사용 전후의 디코더 출력 기능 비교. 팀 소개
본 논문은 메이투 이미징 연구소(MT Lab) 연구원과 다롄 공과대학교 루후추안 팀이 공동으로 제안한 것입니다. Meitu Imaging Research Institute(MT Lab)는 컴퓨터 비전, 기계 학습, 증강 현실, 클라우드 컴퓨팅 및 기타 분야의 알고리즘 연구, 엔지니어링 개발 및 제품화에 전념하는 Meitu 팀입니다. Meitu의 기존 제품과 미래 제품의 기반을 제공합니다. 핵심 알고리즘 지원을 제공하고 최첨단 기술을 통해 Meitu 제품 개발을 촉진합니다. "Meitu의 기술 센터"로 알려져 있으며 CVPR, ICCV, ECCV 등 최고의 국제 컴퓨터 비전 컨퍼런스에 참가하여 우승했습니다. 10번 이상의 우승과 준우승.
위 내용은 교차 모달 요소 전송을 기반으로 Meitu 및 Dalian University of Technology의 참조 비디오 개체 분할 방법에는 단일 단계만 필요합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Java 프레임워크에 대한 상용 지원의 비용/성능 평가에는 다음 단계가 포함됩니다. 필요한 보증 수준과 SLA(서비스 수준 계약) 보장을 결정합니다. 연구지원팀의 경험과 전문성. 업그레이드, 문제 해결, 성능 최적화와 같은 추가 서비스를 고려하십시오. 위험 완화 및 효율성 향상을 기준으로 비즈니스 지원 비용을 평가합니다.

PHP 프레임워크의 학습 곡선은 언어 숙련도, 프레임워크 복잡성, 문서 품질 및 커뮤니티 지원에 따라 달라집니다. PHP 프레임워크의 학습 곡선은 Python 프레임워크에 비해 높고 Ruby 프레임워크에 비해 낮습니다. Java 프레임워크에 비해 PHP 프레임워크는 학습 곡선이 적당하지만 시작하는 데 걸리는 시간이 더 짧습니다.

경량 PHP 프레임워크는 작은 크기와 낮은 리소스 소비를 통해 애플리케이션 성능을 향상시킵니다. 그 특징은 다음과 같습니다: 작은 크기, 빠른 시작, 낮은 메모리 사용량, 향상된 응답 속도 및 처리량, 리소스 소비 감소 실제 사례: SlimFramework는 500KB에 불과한 REST API를 생성하며 높은 응답성과 높은 처리량을 제공합니다.

벤치마크에 따르면 소규모 고성능 애플리케이션의 경우 Quarkus(빠른 시작, 낮은 메모리) 또는 Micronaut(TechEmpower 우수)가 이상적인 선택입니다. SpringBoot는 대규모 풀 스택 애플리케이션에 적합하지만 시작 시간과 메모리 사용량이 약간 느립니다.

Golang 프레임워크에서는 명확하고 포괄적인 문서를 작성하는 것이 중요합니다. 모범 사례에는 Google의 Go 코딩 스타일 가이드와 같은 확립된 문서 스타일을 따르는 것이 포함됩니다. 제목, 부제, 목록 등 명확한 조직 구조를 사용하고 탐색 기능을 제공하세요. 시작 안내서, API 참조 및 개념을 포함하여 포괄적이고 정확한 정보를 제공합니다. 코드 예제를 사용하여 개념과 사용법을 설명합니다. 문서를 계속 업데이트하고, 변경 사항을 추적하고, 새로운 기능을 문서화하세요. GitHub 문제 및 포럼과 같은 지원 및 커뮤니티 리소스를 제공합니다. API 문서와 같은 실용적인 예제를 만듭니다.

애플리케이션 시나리오를 기반으로 최고의 Go 프레임워크를 선택하세요. 애플리케이션 유형, 언어 기능, 성능 요구 사항 및 생태계를 고려하세요. Common Go 프레임워크: Gin(웹 애플리케이션), Echo(웹 서비스), Fiber(높은 처리량), gorm(ORM), fasthttp(속도). 실제 사례: REST API(Fiber) 구축 및 데이터베이스(gorm)와 상호 작용. 프레임워크를 선택하세요. 주요 성능을 위해서는 fasthttp를 선택하고, 유연한 웹 애플리케이션을 위해서는 Gin/Echo를, 데이터베이스 상호작용을 위해서는 gorm을 선택하세요.

Go 프레임워크 개발에서 일반적인 과제와 해결 방법은 다음과 같습니다. 오류 처리: 관리에는 오류 패키지를 사용하고 중앙에서 오류를 처리하려면 미들웨어를 사용합니다. 인증 및 권한 부여: 타사 라이브러리를 통합하고 사용자 정의 미들웨어를 생성하여 자격 증명을 확인합니다. 동시 처리: 고루틴, 뮤텍스 및 채널을 사용하여 리소스 액세스를 제어합니다. 단위 테스트: 격리를 위해 getest 패키지, 모의 및 스텁을 사용하고, 충분성을 보장하기 위한 코드 적용 도구를 사용합니다. 배포 및 모니터링: Docker 컨테이너를 사용하여 배포를 패키징하고, 데이터 백업을 설정하고, 로깅 및 모니터링 도구를 사용하여 성능과 오류를 추적합니다.

Go 프레임워크 학습에는 다섯 가지 오해가 있습니다. 프레임워크에 대한 과도한 의존과 제한된 유연성입니다. 프레임워크 규칙을 따르지 않으면 코드를 유지 관리하기가 어려워집니다. 오래된 라이브러리를 사용하면 보안 및 호환성 문제가 발생할 수 있습니다. 패키지를 과도하게 사용하면 코드 구조가 난독화됩니다. 오류 처리를 무시하면 예기치 않은 동작과 충돌이 발생합니다.
