생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.-일체 포함-php.cn

연구 세부정보

지능형 보안 및 대형 모델 분야로 확장 가능

저자 소개

집

기술 주변기기

일체 포함

생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.

王林

Mar 16, 2024 am 09:20 AM

ai 기차

나는 당신을 만난 적이 없지만 당신을 '안다'는 것은 가능합니다. 이것이 바로 사람들이 '첫눈' 이후 인공지능이 달성하기를 바라는 상태입니다.

이 목표를 달성하기 위해 전통적인 이미지 인식 작업에서 사람들은 다양한 카테고리 라벨이 있는 다수의 이미지 샘플에 대해 알고리즘 모델을 훈련하여 모델이 이러한 이미지를 인식하는 능력을 획득할 수 있도록 합니다. 제로샷 학습(ZSL) 작업에서 사람들은 모델이 훈련 단계에서 이미지 샘플을 보지 못한 추론을 도출하고 범주를 식별할 수 있기를 바랍니다.

생성적 제로샷 학습(GZSL)은 제로샷 학습에 효과적인 방법으로 간주됩니다. GZSL에서 첫 번째 단계는 보이지 않는 카테고리의 시각적 특징을 합성하도록 생성기를 교육하는 것입니다. 이 생성 프로세스는 속성 레이블과 같은 의미론적 설명을 조건으로 활용하여 진행됩니다. 이러한 가상 시각적 특징이 생성되면 기존 분류기와 마찬가지로 보이지 않는 클래스를 인식할 수 있는 분류 모델 학습을 시작할 수 있습니다.

생성적 제로샷 학습 알고리즘에는 생성기 훈련이 중요합니다. 이상적으로는 의미론적 설명을 기반으로 생성기에 의해 생성된 보이지 않는 카테고리의 시각적 특징 샘플은 해당 카테고리의 실제 샘플의 시각적 특징과 동일한 분포를 가져야 합니다. 이는 생성기가 높은 수준의 일관성과 신뢰성을 갖춘 샘플을 생성하기 위해 시각적 특징 간의 관계와 패턴을 정확하게 캡처할 수 있어야 함을 의미합니다. 생성기를 훈련함으로써 카테고리별 시각적 특징 차이를 효과적으로 학습할 수 있으며,

기존 생성적 제로샷 학습 방식에서는 생성기를 훈련하여 사용할 때 가우시안 노이즈와 전체적인 의미론적 설명이 가능합니다. 카테고리는 조건부이므로 생성기가 각 샘플 인스턴스를 설명하는 대신 전체 카테고리에 대해서만 최적화하도록 제한하므로 실제 샘플의 시각적 특징 분포를 정확하게 반영하기 어렵고 결과적으로 Poor 모델의 일반화 성능이 저하됩니다. 또한 보이는 클래스와 보이지 않는 클래스가 공유하는 데이터 세트의 시각적 정보, 즉 도메인 지식이 생성자의 훈련 과정에서 충분히 활용되지 않아 보이는 클래스에서 보이지 않는 클래스로의 지식 전달이 제한됩니다.

이런 문제를 해결하기 위해 화중과기대 대학원생들과 알리바바 자회사 인타임 비즈니스 그룹의 기술 전문가들이 VADS(Visually Enhanced Dynamic Semantic Prototyping)라는 방법을 제안했습니다. 이 접근 방식은 표시된 클래스의 시각적 특징을 의미론적 조건에 보다 완벽하게 도입하여 푸시 생성기가 정확한 의미론적-시각적 매핑을 학습할 수 있도록 합니다. 본 연구 논문 "Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning"은 컴퓨터 비전 분야 최고의 국제 학술 컨퍼런스인 CVPR 2024에 게재되었습니다.

구체적으로 위 연구는 세 가지 혁신적인 점을 제시합니다.

제로샷 학습에서는 신뢰할 수 있는 시각적 특징을 생성하기 위해 시각적 특징을 사용하여 생성기를 향상시키는 혁신적인 방법입니다.

또한 연구에서는 VDKL과 VOSU라는 두 가지 구성 요소를 도입했으며 이러한 구성 요소의 도움으로 데이터 세트의 시각적 사전 정보를 효과적으로 얻고 이미지의 시각적 특징을 동적으로 업데이트하여 사전 정의된 카테고리 의미 설명을 제공합니다. 업데이트되었습니다. 이 방법은 시각적인 특징을 효과적으로 활용한다.

실험 결과는 본 연구에서 시각적 특징을 사용하여 발전기를 향상시키는 효과가 매우 중요하다는 것을 보여줍니다. 이 플러그 앤 플레이 접근 방식은 매우 다양할 뿐만 아니라 발전기 성능을 향상시키는 데도 뛰어납니다.

연구 세부정보

VADS는 두 개의 모듈로 구성됩니다. (1) 시각적 지각 도메인 지식 학습 모듈(VDKL)은 시각적 특징의 로컬 바이어스 및 전역 사전, 즉 순수 가우스 노이즈를 대체하는 도메인 시각적 지식을 학습합니다. (2) 비전 지향 의미론적 업데이트 모듈(VOSU)은 샘플의 시각적 표현에 따라 의미론적 프로토타입을 업데이트하는 방법을 학습하고 업데이트된 의미론적 프로토타입에는 도메인 시각적 지식도 포함됩니다.

마지막으로 연구팀은 생성기의 조건에 따라 두 모듈의 출력을 동적 의미 프로토타입 벡터로 연결했습니다. 많은 실험에서 VADS 방법은 일반적으로 사용되는 제로샷 학습 데이터 세트에 대해 기존 방법보다 훨씬 더 나은 성능을 달성하고 다른 생성적 제로샷 학습 방법과 결합하여 전반적인 정확도 향상을 얻을 수 있음을 보여줍니다.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

시각지각 도메인 지식 학습 모듈(VDKL)에서 연구팀은 시각적 인코더(VE)와 도메인 지식 학습 네트워크(DKL)를 설계했습니다. 그 중 VE는 시각적 특징을 잠재 특징과 잠재 인코딩으로 인코딩합니다. 생성기 훈련 단계에서 보이는 클래스 이미지 샘플을 사용하여 VE를 훈련하기 위해 대비 손실을 사용함으로써 VE는 시각적 특징의 클래스 분리성을 향상시킬 수 있습니다.

ZSL 분류기를 훈련할 때 생성기에서 생성된 보이지 않는 시각적 특징도 VE에 입력되고, 획득된 잠재 특징은 생성된 시각적 특징과 연결되어 최종 시각적 특징 샘플이 됩니다. VE의 다른 출력, 즉 잠재 인코딩은 DKL 변환 후 로컬 편차 b를 형성합니다. 학습 가능한 전역 사전 p 및 무작위 가우스 잡음과 함께 도메인 관련 시각적 사전 잡음으로 결합되어 다른 생성 제로 샘플을 대체합니다. . 생성기 생성 조건의 일부로 학습에 일반적으로 사용되는 순수 가우스 노이즈입니다.

VOSU(Vision-Oriented Semantic Update Module)에서 연구팀은 시각적 의미 예측기 VSP와 의미 업데이트 매핑 네트워크 SUM을 설계했습니다. VOSU의 훈련 단계에서 VSP는 이미지 시각적 특징을 입력으로 사용하여 대상 이미지의 시각적 패턴을 캡처할 수 있는 예측 의미 벡터를 생성합니다. 동시에 SUM은 카테고리 의미 프로토타입을 입력으로 사용하여 업데이트하고 얻습니다. 업데이트된 의미론적 프로토타입, 그리고 VSP 및 SUM은 예측된 의미론적 벡터와 업데이트된 의미론적 프로토타입 사이의 교차 엔트로피 손실을 최소화하여 학습됩니다. VOSU 모듈은 시각적 기능을 기반으로 의미 체계 프로토타입을 동적으로 조정할 수 있으므로 생성기가 새로운 카테고리 기능을 합성할 때 보다 정확한 인스턴스 수준 의미 체계 정보에 의존할 수 있습니다.

실험 부분에서 위의 연구에서는 학계에서 일반적으로 사용되는 세 가지 ZSL 데이터 세트인 Animals with Attributes 2(AWA2), SUN Attribute(SUN) 및 Caltech-USCD Birds-200-2011(CUB)을 사용했습니다. 제로샷 학습의 주요 지표와 일반화된 제로샷 학습을 최근 대표적인 다른 방법들과 종합적으로 비교합니다.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

기존 제로샷 학습의 Acc 지표 측면에서 본 연구의 방법은 세 가지 데이터 세트에서 각각 8.4%, 10.3%, 8.4를 앞서며 기존 방법에 비해 상당한 정확도 향상을 달성했습니다. %. 일반화된 제로샷 학습 시나리오에서 위의 연구 방법은 보이지 않는 클래스와 보이는 클래스 정확도의 조화 평균 지수 H에서도 선두 위치에 있습니다.

VADS 방법은 다른 생성적 제로샷 학습 방법과 결합될 수도 있습니다. 예를 들어, CLSWGAN, TF-VAEGAN 및 FREE의 세 가지 방법을 결합한 후 세 가지 데이터 세트의 Acc 및 H 지표가 크게 개선되었으며 세 가지 데이터 세트의 평균 개선은 7.4%/5.9%, 5.6%입니다. /6.4% 및 3.3%/4.2%.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

생성기에 의해 생성된 시각적 특징을 시각화하면 보이는 클래스인 "노란 가슴 채팅"과 (b에 표시된 보이지 않는 클래스)와 같이 일부 카테고리의 특성이 원래 혼동되어 있었음을 알 수 있습니다. ) 아래의 두 가지 유형의 특징인 "Yellowthroat"는 VADS 방법을 사용한 후 그림 (c)에서 두 개의 클러스터로 명확하게 분리될 수 있으므로 분류기 훈련 중에 혼동을 피할 수 있습니다.

提升生成式零样本学习能力，视觉增强动态语义原型方法入选CVPR 2024

지능형 보안 및 대형 모델 분야로 확장 가능

머신하트는 위에서 언급한 연구팀이 중점을 두고 있는 제로샷 학습의 목적이 모델이 새로운 카테고리를 인식할 수 있도록 하는 것임을 이해하고 있습니다. 학습 단계의 이미지 샘플이 없는 지능형 보안 분야에서 잠재적 가치가 있는 것입니다.

먼저 보안 시나리오에서 새로운 위험을 처리하세요. 새로운 위협 유형이나 비정상적인 행동 패턴은 보안 시나리오에서 계속 나타나기 때문에 이전 교육 데이터에는 나타나지 않았을 수도 있습니다. 제로샷 학습을 통해 보안 시스템은 새로운 위험 유형을 신속하게 식별하고 대응하여 보안을 향상할 수 있습니다.

두 번째, 샘플 데이터에 대한 의존도 감소: 효과적인 보안 시스템을 교육하기 위해 충분한 주석이 달린 데이터를 얻는 것은 비용과 시간이 많이 소요됩니다. 제로샷 학습은 많은 수의 이미지 샘플에 대한 시스템의 의존도를 줄여 R&D 비용을 절감합니다. .

셋째, 동적 환경의 안정성 향상: 제로샷 학습은 의미론적 설명을 사용하여 보이지 않는 클래스 패턴을 인식합니다. 이미지 기능에 전적으로 의존하는 기존 방법에 비해 시각적 환경의 변화에 자연스럽게 더 탄력적입니다.

이미지 분류 문제를 해결하는 기반 기술인 이 기술은 사람, 상품, 차량 및 사물의 속성 인식, 행동 인식 등 시각적 분류 기술에 의존하는 시나리오에서도 구현될 수 있습니다. 특히 식별할 새로운 범주를 신속하게 추가해야 하고 훈련 샘플을 수집할 시간이 없거나 많은 수의 샘플(예: 위험 식별)을 수집하기 어려운 시나리오에서는 제로샷 학습 기술이 큰 이점을 갖습니다. 전통적인 방법보다.

이 연구 기술이 현재 대형 모델 개발에 참고가 될까요?

생성적 제로샷 학습의 핵심 아이디어는 의미 공간과 시각적 특징 공간을 정렬하는 것이라고 연구자들은 믿습니다. 이는 현재 다중 언어에서 시각적 언어 모델(예: CLIP)의 연구 목표와 일치합니다. 모달 대형 모델.

이들 사이의 가장 큰 차이점은 생성적 제로샷 학습이 사전 정의된 제한된 범주의 데이터 세트에 대해 훈련되고 사용되는 반면, 시각적 언어 대형 모델은 빅 데이터 학습을 통해 다용도로 사용된다는 점입니다. 제한된 카테고리까지 기본 모델로서 적용 범위가 더 넓습니다.

기술의 적용 시나리오가 특정 분야인 경우 대형 모델을 이 분야에 적용하고 미세 조정하도록 선택할 수 있습니다. 이 과정에서 이 기사가 이론적으로 가져올 수 있는 것과 동일하거나 유사한 연구 방향으로 작업할 수 있습니다. 유용한 영감.

저자 소개

Hou Wenjin, Huazhong University of Science and Technology 석사 연구 관심 분야는 컴퓨터 비전, 생성 모델링, 퓨샷 학습 등입니다. 그는 인턴 기간 동안 이 논문을 완성했습니다. Alibaba-Intime 비즈니스에서.

Wang Yan, Alibaba-Intime 상업 기술 이사, Shenzhen Xiang 지능형 팀의 알고리즘 리더.

Alibaba-Intime Business의 수석 알고리즘 전문가인 Feng Xuetao는 주로 오프라인 소매 및 기타 산업에서 시각적 및 다중 모드 알고리즘 적용에 중점을 두고 있습니다.

위 내용은 생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명

본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

뜨거운 도구

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제

Gmail 이메일의 로그인 입구는 어디에 있나요?

7486

Cakephp 튜토리얼

1377

Steam의 계정 이름 형식은 무엇입니까?

Win11 활성화 키 영구

NYT 연결 힌트와 답변

Related knowledge

SQL에서 새 열을 추가하는 방법 Apr 09, 2025 pm 02:09 PM

Alter Table 문을 사용하여 SQL의 기존 테이블에 새 열을 추가하십시오. 특정 단계에는 다음이 포함됩니다. 테이블 이름 및 열 정보 결정, Alter Table 문 작성 및 진술 실행. 예를 들어, 고객 테이블에 이메일 열을 추가하십시오 (Varchar (50)) : Alter Table 고객 이메일 추가 Varchar (50);

SQL에서 열을 추가하기위한 구문은 무엇입니까? Apr 09, 2025 pm 02:51 PM

SQL에서 열을 추가하기위한 구문은 Alter Table_Name ADD CORMEN_NAME DATY_TYPE [NOT NULL] [DEFAULT DEFAULT_VALUE]; 여기서 table_name은 테이블 이름이고 column_name은 새 열 이름, data_type는 데이터 유형이며 NULL은 NULL 값이 허용되는지 여부를 지정하고 기본값 기본값을 지정합니다.

SQL 클리어 테이블 : 성능 최적화 팁 Apr 09, 2025 pm 02:54 PM

SQL 테이블 개선 성능을 개선하기위한 팁 : 삭제 대신 Truncate 테이블을 사용하고 공간을 확보하고 ID 열을 재설정하십시오. 계단식 삭제를 방지하기 위해 외국의 주요 제약 조건을 비활성화하십시오. 트랜잭션 캡슐화 작업을 사용하여 데이터 일관성을 보장합니다. 배치는 빅 데이터를 삭제하고 한계를 통해 행 수를 제한합니다. 쿼리 효율성을 향상시키기 위해 지우고 지수를 재구성하십시오.

SQL에서 열을 추가 할 때 기본값을 설정하는 방법 Apr 09, 2025 pm 02:45 PM

새로 추가 된 열에 대한 기본값을 설정하고 Alter Table 문을 사용하십시오. 문 : 열 추가를 지정하고 기본값을 설정하십시오. Alter Table_Name Add Column_name Data_Type Default_value; 구속 조건 조항을 사용하여 기본값을 지정하십시오. ALTER TABLE TABLE_NAME CORMENT CORMEN_NAME DATA DATA DATA DATA DATA DATA DATA DATAY_TYPE 제한 DEFAULT_COSSTRANT DEFAULT DEFAULT_VALUE;

삭제 명령문을 사용하여 SQL 테이블을 지우십시오 Apr 09, 2025 pm 03:00 PM

예, 삭제 명령문은 SQL 테이블을 지우는 데 사용될 수 있습니다. 단계는 다음과 같습니다. 삭제 명령문 사용 : table_name에서 삭제; TABLE_NAME을 제거 할 테이블 이름으로 바꾸십시오.

Redis 메모리 조각화를 처리하는 방법? Apr 10, 2025 pm 02:24 PM

Redis 메모리 조각화는 할당 된 메모리에 재 할당 할 수없는 작은 자유 영역의 존재를 말합니다. 대처 전략에는 다음이 포함됩니다. REDIS를 다시 시작하십시오 : 메모리를 완전히 지우지 만 인터럽트 서비스. 데이터 구조 최적화 : Redis에 더 적합한 구조를 사용하여 메모리 할당 및 릴리스 수를 줄입니다. 구성 매개 변수 조정 : 정책을 사용하여 최근에 가장 적게 사용 된 키 값 쌍을 제거하십시오. 지속 메커니즘 사용 : 데이터를 정기적으로 백업하고 Redis를 다시 시작하여 조각을 정리하십시오. 메모리 사용 모니터링 : 적시에 문제를 발견하고 조치를 취하십시오.

phpmyadmin은 데이터 테이블을 만듭니다 Apr 10, 2025 pm 11:00 PM

phpmyadmin을 사용하여 데이터 테이블을 만들려면 다음 단계가 필수적입니다. 데이터베이스에 연결하고 새 탭을 클릭하십시오. 테이블의 이름을 지정하고 저장 엔진을 선택하십시오 (InnoDB 권장). 열 이름, 데이터 유형, NULL 값 허용 여부 및 기타 속성을 포함하여 열 추가 버튼을 클릭하여 열 디테일을 추가하십시오. 기본 키로 하나 이상의 열을 선택하십시오. 저장 버튼을 클릭하여 테이블과 열을 만듭니다.

Oracle 데이터베이스 작성 방법 Oracle 데이터베이스 작성 방법 Apr 11, 2025 pm 02:33 PM

Oracle 데이터베이스를 만드는 것은 쉽지 않으므로 기본 메커니즘을 이해해야합니다. 1. 데이터베이스 및 Oracle DBMS의 개념을 이해해야합니다. 2. SID, CDB (컨테이너 데이터베이스), PDB (Pluggable Database)와 같은 핵심 개념을 마스터합니다. 3. SQL*Plus를 사용하여 CDB를 생성 한 다음 PDB를 만들려면 크기, 데이터 파일 수 및 경로와 같은 매개 변수를 지정해야합니다. 4. 고급 응용 프로그램은 문자 세트, 메모리 및 기타 매개 변수를 조정하고 성능 튜닝을 수행해야합니다. 5. 디스크 공간, 권한 및 매개 변수 설정에주의를 기울이고 데이터베이스 성능을 지속적으로 모니터링하고 최적화하십시오. 그것을 능숙하게 마스터 함으로써만 지속적인 연습이 필요합니다. Oracle 데이터베이스의 생성 및 관리를 진정으로 이해할 수 있습니다.

See all articles

생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.

연구 세부정보

지능형 보안 및 대형 모델 분야로 확장 가능

저자 소개

핫 AI 도구

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

인기 기사

뜨거운 도구

메모장++7.3.1

SublimeText3 중국어 버전

스튜디오 13.0.1 보내기

드림위버 CS6

SublimeText3 Mac 버전

뜨거운 주제