목차
연구 세부정보
지능형 보안 및 대형 모델 분야로 확장 가능
저자 소개
기술 주변기기 일체 포함 생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.

생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.

Mar 16, 2024 am 09:20 AM
ai 기차

나는 당신을 만난 적이 없지만 당신을 '안다'는 것은 가능합니다. 이것이 바로 사람들이 '첫눈' 이후 인공지능이 달성하기를 바라는 상태입니다.

이 목표를 달성하기 위해 전통적인 이미지 인식 작업에서 사람들은 다양한 카테고리 라벨이 있는 다수의 이미지 샘플에 대해 알고리즘 모델을 훈련하여 모델이 이러한 이미지를 인식하는 능력을 획득할 수 있도록 합니다. 제로샷 학습(ZSL) 작업에서 사람들은 모델이 훈련 단계에서 이미지 샘플을 보지 못한 추론을 도출하고 범주를 식별할 수 있기를 바랍니다.

생성적 제로샷 학습(GZSL)은 제로샷 학습에 효과적인 방법으로 간주됩니다. GZSL에서 첫 번째 단계는 보이지 않는 카테고리의 시각적 특징을 합성하도록 생성기를 교육하는 것입니다. 이 생성 프로세스는 속성 레이블과 같은 의미론적 설명을 조건으로 활용하여 진행됩니다. 이러한 가상 시각적 특징이 생성되면 기존 분류기와 마찬가지로 보이지 않는 클래스를 인식할 수 있는 분류 모델 학습을 시작할 수 있습니다.

생성적 제로샷 학습 알고리즘에는 생성기 훈련이 중요합니다. 이상적으로는 의미론적 설명을 기반으로 생성기에 의해 생성된 보이지 않는 카테고리의 시각적 특징 샘플은 해당 카테고리의 실제 샘플의 시각적 특징과 동일한 분포를 가져야 합니다. 이는 생성기가 높은 수준의 일관성과 신뢰성을 갖춘 샘플을 생성하기 위해 시각적 특징 간의 관계와 패턴을 정확하게 캡처할 수 있어야 함을 의미합니다. 생성기를 훈련함으로써 카테고리별 시각적 특징 차이를 효과적으로 학습할 수 있으며,

기존 생성적 제로샷 학습 방식에서는 생성기를 훈련하여 사용할 때 가우시안 노이즈와 전체적인 의미론적 설명이 가능합니다. 카테고리는 조건부이므로 생성기가 각 샘플 인스턴스를 설명하는 대신 전체 카테고리에 대해서만 최적화하도록 제한하므로 실제 샘플의 시각적 특징 분포를 정확하게 반영하기 어렵고 결과적으로 Poor 모델의 일반화 성능이 저하됩니다. 또한 보이는 클래스와 보이지 않는 클래스가 공유하는 데이터 세트의 시각적 정보, 즉 도메인 지식이 생성자의 훈련 과정에서 충분히 활용되지 않아 보이는 클래스에서 보이지 않는 클래스로의 지식 전달이 제한됩니다.

이런 문제를 해결하기 위해 화중과기대 대학원생들과 알리바바 자회사 인타임 비즈니스 그룹의 기술 전문가들이 VADS(Visually Enhanced Dynamic Semantic Prototyping)라는 방법을 제안했습니다. 이 접근 방식은 표시된 클래스의 시각적 특징을 의미론적 조건에 보다 완벽하게 도입하여 푸시 생성기가 정확한 의미론적-시각적 매핑을 학습할 수 있도록 합니다. 본 연구 논문 "Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning"은 컴퓨터 비전 분야 최고의 국제 학술 컨퍼런스인 CVPR 2024에 게재되었습니다.

구체적으로 위 연구는 세 가지 혁신적인 점을 제시합니다.

제로샷 학습에서는 신뢰할 수 있는 시각적 특징을 생성하기 위해 시각적 특징을 사용하여 생성기를 향상시키는 혁신적인 방법입니다.

또한 연구에서는 VDKL과 VOSU라는 두 가지 구성 요소를 도입했으며 이러한 구성 요소의 도움으로 데이터 세트의 시각적 사전 정보를 효과적으로 얻고 이미지의 시각적 특징을 동적으로 업데이트하여 사전 정의된 카테고리 의미 설명을 제공합니다. 업데이트되었습니다. 이 방법은 시각적인 특징을 효과적으로 활용한다.

실험 결과는 본 연구에서 시각적 특징을 사용하여 발전기를 향상시키는 효과가 매우 중요하다는 것을 보여줍니다. 이 플러그 앤 플레이 접근 방식은 매우 다양할 뿐만 아니라 발전기 성능을 향상시키는 데도 뛰어납니다.

연구 세부정보

VADS는 두 개의 모듈로 구성됩니다. (1) 시각적 지각 도메인 지식 학습 모듈(VDKL)은 시각적 특징의 로컬 바이어스 및 전역 사전, 즉 순수 가우스 노이즈를 대체하는 도메인 시각적 지식을 학습합니다. (2) 비전 지향 의미론적 업데이트 모듈(VOSU)은 샘플의 시각적 표현에 따라 의미론적 프로토타입을 업데이트하는 방법을 학습하고 업데이트된 의미론적 프로토타입에는 도메인 시각적 지식도 포함됩니다.

마지막으로 연구팀은 생성기의 조건에 따라 두 모듈의 출력을 동적 의미 프로토타입 벡터로 연결했습니다. 많은 실험에서 VADS 방법은 일반적으로 사용되는 제로샷 학습 데이터 세트에 대해 기존 방법보다 훨씬 더 나은 성능을 달성하고 다른 생성적 제로샷 학습 방법과 결합하여 전반적인 정확도 향상을 얻을 수 있음을 보여줍니다.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

시각지각 도메인 지식 학습 모듈(VDKL)에서 연구팀은 시각적 인코더(VE)와 도메인 지식 학습 네트워크(DKL)를 설계했습니다. 그 중 VE는 시각적 특징을 잠재 특징과 잠재 인코딩으로 인코딩합니다. 생성기 훈련 단계에서 보이는 클래스 이미지 샘플을 사용하여 VE를 훈련하기 위해 대비 손실을 사용함으로써 VE는 시각적 특징의 클래스 분리성을 향상시킬 수 있습니다.

ZSL 분류기를 훈련할 때 생성기에서 생성된 보이지 않는 시각적 특징도 VE에 입력되고, 획득된 잠재 특징은 생성된 시각적 특징과 연결되어 최종 시각적 특징 샘플이 됩니다. VE의 다른 출력, 즉 잠재 인코딩은 DKL 변환 후 로컬 편차 b를 형성합니다. 학습 가능한 전역 사전 p 및 무작위 가우스 잡음과 함께 도메인 관련 시각적 사전 잡음으로 결합되어 다른 생성 제로 샘플을 대체합니다. . 생성기 생성 조건의 일부로 학습에 일반적으로 사용되는 순수 가우스 노이즈입니다.

VOSU(Vision-Oriented Semantic Update Module)에서 연구팀은 시각적 의미 예측기 VSP와 의미 업데이트 매핑 네트워크 SUM을 설계했습니다. VOSU의 훈련 단계에서 VSP는 이미지 시각적 특징을 입력으로 사용하여 대상 이미지의 시각적 패턴을 캡처할 수 있는 예측 의미 벡터를 생성합니다. 동시에 SUM은 카테고리 의미 프로토타입을 입력으로 사용하여 업데이트하고 얻습니다. 업데이트된 의미론적 프로토타입, 그리고 VSP 및 SUM은 예측된 의미론적 벡터와 업데이트된 의미론적 프로토타입 사이의 교차 엔트로피 손실을 최소화하여 학습됩니다. VOSU 모듈은 시각적 기능을 기반으로 의미 체계 프로토타입을 동적으로 조정할 수 있으므로 생성기가 새로운 카테고리 기능을 합성할 때 보다 정확한 인스턴스 수준 의미 체계 정보에 의존할 수 있습니다.

실험 부분에서 위의 연구에서는 학계에서 일반적으로 사용되는 세 가지 ZSL 데이터 세트인 Animals with Attributes 2(AWA2), SUN Attribute(SUN) 및 Caltech-USCD Birds-200-2011(CUB)을 사용했습니다. 제로샷 학습의 주요 지표와 일반화된 제로샷 학습을 최근 대표적인 다른 방법들과 종합적으로 비교합니다.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

기존 제로샷 학습의 Acc 지표 측면에서 본 연구의 방법은 세 가지 데이터 세트에서 각각 8.4%, 10.3%, 8.4를 앞서며 기존 방법에 비해 상당한 정확도 향상을 달성했습니다. %. 일반화된 제로샷 학습 시나리오에서 위의 연구 방법은 보이지 않는 클래스와 보이는 클래스 정확도의 조화 평균 지수 H에서도 선두 위치에 있습니다.

VADS 방법은 다른 생성적 제로샷 학습 방법과 결합될 수도 있습니다. 예를 들어, CLSWGAN, TF-VAEGAN 및 FREE의 세 가지 방법을 결합한 후 세 가지 데이터 세트의 Acc 및 H 지표가 크게 개선되었으며 세 가지 데이터 세트의 평균 개선은 7.4%/5.9%, 5.6%입니다. /6.4% 및 3.3%/4.2%.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

생성기에 의해 생성된 시각적 특징을 시각화하면 보이는 클래스인 "노란 가슴 채팅"과 (b에 표시된 보이지 않는 클래스)와 같이 일부 카테고리의 특성이 원래 혼동되어 있었음을 알 수 있습니다. ) 아래의 두 가지 유형의 특징인 "Yellowthroat"는 VADS 방법을 사용한 후 그림 (c)에서 두 개의 클러스터로 명확하게 분리될 수 있으므로 분류기 훈련 중에 혼동을 피할 수 있습니다.

提升生成式零样本学习能力,视觉增强动态语义原型方法入选CVPR 2024

지능형 보안 및 대형 모델 분야로 확장 가능

머신하트는 위에서 언급한 연구팀이 중점을 두고 있는 제로샷 학습의 목적이 모델이 새로운 카테고리를 인식할 수 있도록 하는 것임을 이해하고 있습니다. 학습 단계의 이미지 샘플이 없는 지능형 보안 분야에서 잠재적 가치가 있는 것입니다.

먼저 보안 시나리오에서 새로운 위험을 처리하세요. 새로운 위협 유형이나 비정상적인 행동 패턴은 보안 시나리오에서 계속 나타나기 때문에 이전 교육 데이터에는 나타나지 않았을 수도 있습니다. 제로샷 학습을 통해 보안 시스템은 새로운 위험 유형을 신속하게 식별하고 대응하여 보안을 향상할 수 있습니다.

두 번째, 샘플 데이터에 대한 의존도 감소: 효과적인 보안 시스템을 교육하기 위해 충분한 주석이 달린 데이터를 얻는 것은 비용과 시간이 많이 소요됩니다. 제로샷 학습은 많은 수의 이미지 샘플에 대한 시스템의 의존도를 줄여 R&D 비용을 절감합니다. .

셋째, 동적 환경의 안정성 향상: 제로샷 학습은 의미론적 설명을 사용하여 보이지 않는 클래스 패턴을 인식합니다. 이미지 기능에 전적으로 의존하는 기존 방법에 비해 시각적 환경의 변화에 ​​자연스럽게 더 탄력적입니다.

이미지 분류 문제를 해결하는 기반 기술인 이 기술은 사람, 상품, 차량 및 사물의 속성 인식, 행동 인식 등 시각적 분류 기술에 의존하는 시나리오에서도 구현될 수 있습니다. 특히 식별할 새로운 범주를 신속하게 추가해야 하고 훈련 샘플을 수집할 시간이 없거나 많은 수의 샘플(예: 위험 식별)을 수집하기 어려운 시나리오에서는 제로샷 학습 기술이 큰 이점을 갖습니다. 전통적인 방법보다.

이 연구 기술이 현재 대형 모델 개발에 참고가 될까요?

생성적 제로샷 학습의 핵심 아이디어는 의미 공간과 시각적 특징 공간을 정렬하는 것이라고 연구자들은 믿습니다. 이는 현재 다중 언어에서 시각적 언어 모델(예: CLIP)의 연구 목표와 일치합니다. 모달 대형 모델.

이들 사이의 가장 큰 차이점은 생성적 제로샷 학습이 사전 정의된 제한된 범주의 데이터 세트에 대해 훈련되고 사용되는 반면, 시각적 언어 대형 모델은 빅 데이터 학습을 통해 다용도로 사용된다는 점입니다. 제한된 카테고리까지 기본 모델로서 적용 범위가 더 넓습니다.

기술의 적용 시나리오가 특정 분야인 경우 대형 모델을 이 분야에 적용하고 미세 조정하도록 선택할 수 있습니다. 이 과정에서 이 기사가 이론적으로 가져올 수 있는 것과 동일하거나 유사한 연구 방향으로 작업할 수 있습니다. 유용한 영감.

저자 소개

Hou Wenjin, Huazhong University of Science and Technology 석사 연구 관심 분야는 컴퓨터 비전, 생성 모델링, 퓨샷 학습 등입니다. 그는 인턴 기간 동안 이 논문을 완성했습니다. Alibaba-Intime 비즈니스에서.

Wang Yan, Alibaba-Intime 상업 기술 이사, Shenzhen Xiang 지능형 팀의 알고리즘 리더.

Alibaba-Intime Business의 수석 알고리즘 전문가인 Feng Xuetao는 주로 오프라인 소매 및 기타 산업에서 시각적 및 다중 모드 알고리즘 적용에 중점을 두고 있습니다.

위 내용은 생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? vue.js의 객체로 문자열을 변환하는 데 어떤 방법이 사용됩니까? Apr 07, 2025 pm 09:39 PM

표준 JSON 문자열의 경우 vue.js의 객체로 문자열을 변환 할 때 JSON.PARSE ()가 선호됩니다. 비표준 JSON 문자열의 경우, 정규 표현식을 사용하여 문자열을 처리하고 형식 또는 디코딩 된 URL 인코딩에 따라 방법을 줄일 수 있습니다. 문자열 형식에 따라 적절한 방법을 선택하고 버그를 피하기 위해 보안 및 인코딩 문제에주의를 기울이십시오.

Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Laravel 's geospatial : 대화식지도의 최적화 및 많은 양의 데이터 Apr 08, 2025 pm 12:24 PM

7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

Vue Axios의 시간 초과를 설정하는 방법 Vue Axios의 시간 초과를 설정하는 방법 Apr 07, 2025 pm 10:03 PM

vue axios의 타임 아웃을 설정하려면 axios 인스턴스를 생성하고 시간 초과 옵션을 지정할 수 있습니다. 글로벌 설정에서 : vue.prototype. $ axios = axios.create ({timeout : 5000}); 단일 요청 : this. $ axios.get ( '/api/user', {timeout : 100000}).

MySQL을 해결하는 방법을 시작할 수 없습니다 MySQL을 해결하는 방법을 시작할 수 없습니다 Apr 08, 2025 pm 02:21 PM

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

vue.js 문자열 유형 배열을 객체 배열로 변환하는 방법은 무엇입니까? vue.js 문자열 유형 배열을 객체 배열로 변환하는 방법은 무엇입니까? Apr 07, 2025 pm 09:36 PM

요약 : vue.js 문자열 배열을 객체 배열로 변환하는 다음 방법이 있습니다. 기본 메소드 : 정기적 인 형식의 데이터에 맞게 맵 함수를 사용하십시오. 고급 게임 플레이 : 정규 표현식을 사용하면 복잡한 형식을 처리 할 수 ​​있지만 신중하게 작성하고 고려해야합니다. 성능 최적화 : 많은 양의 데이터를 고려하면 비동기 작업 또는 효율적인 데이터 처리 라이브러리를 사용할 수 있습니다. 모범 사례 : 명확한 코드 스타일, 의미있는 변수 이름과 주석을 사용하여 코드를 간결하게 유지하십시오.

설치 후 MySQL을 사용하는 방법 설치 후 MySQL을 사용하는 방법 Apr 08, 2025 am 11:48 AM

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 원격 선임 백엔드 엔지니어 (플랫폼)에는 원이 필요합니다 Apr 08, 2025 pm 12:27 PM

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 MySQL 설치 후 데이터베이스 성능을 최적화하는 방법 Apr 08, 2025 am 11:36 AM

MySQL 성능 최적화는 설치 구성, 인덱싱 및 쿼리 최적화, 모니터링 및 튜닝의 세 가지 측면에서 시작해야합니다. 1. 설치 후 innodb_buffer_pool_size 매개 변수와 같은 서버 구성에 따라 my.cnf 파일을 조정해야합니다. 2. 과도한 인덱스를 피하기 위해 적절한 색인을 작성하고 Execution 명령을 사용하여 실행 계획을 분석하는 것과 같은 쿼리 문을 최적화합니다. 3. MySQL의 자체 모니터링 도구 (showprocesslist, showstatus)를 사용하여 데이터베이스 건강을 모니터링하고 정기적으로 백업 및 데이터베이스를 구성하십시오. 이러한 단계를 지속적으로 최적화함으로써 MySQL 데이터베이스의 성능을 향상시킬 수 있습니다.

See all articles