생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.
나는 당신을 만난 적이 없지만 당신을 '안다'는 것은 가능합니다. 이것이 바로 사람들이 '첫눈' 이후 인공지능이 달성하기를 바라는 상태입니다.
이 목표를 달성하기 위해 전통적인 이미지 인식 작업에서 사람들은 다양한 카테고리 라벨이 있는 다수의 이미지 샘플에 대해 알고리즘 모델을 훈련하여 모델이 이러한 이미지를 인식하는 능력을 획득할 수 있도록 합니다. 제로샷 학습(ZSL) 작업에서 사람들은 모델이 훈련 단계에서 이미지 샘플을 보지 못한 추론을 도출하고 범주를 식별할 수 있기를 바랍니다.
생성적 제로샷 학습(GZSL)은 제로샷 학습에 효과적인 방법으로 간주됩니다. GZSL에서 첫 번째 단계는 보이지 않는 카테고리의 시각적 특징을 합성하도록 생성기를 교육하는 것입니다. 이 생성 프로세스는 속성 레이블과 같은 의미론적 설명을 조건으로 활용하여 진행됩니다. 이러한 가상 시각적 특징이 생성되면 기존 분류기와 마찬가지로 보이지 않는 클래스를 인식할 수 있는 분류 모델 학습을 시작할 수 있습니다.
생성적 제로샷 학습 알고리즘에는 생성기 훈련이 중요합니다. 이상적으로는 의미론적 설명을 기반으로 생성기에 의해 생성된 보이지 않는 카테고리의 시각적 특징 샘플은 해당 카테고리의 실제 샘플의 시각적 특징과 동일한 분포를 가져야 합니다. 이는 생성기가 높은 수준의 일관성과 신뢰성을 갖춘 샘플을 생성하기 위해 시각적 특징 간의 관계와 패턴을 정확하게 캡처할 수 있어야 함을 의미합니다. 생성기를 훈련함으로써 카테고리별 시각적 특징 차이를 효과적으로 학습할 수 있으며,
기존 생성적 제로샷 학습 방식에서는 생성기를 훈련하여 사용할 때 가우시안 노이즈와 전체적인 의미론적 설명이 가능합니다. 카테고리는 조건부이므로 생성기가 각 샘플 인스턴스를 설명하는 대신 전체 카테고리에 대해서만 최적화하도록 제한하므로 실제 샘플의 시각적 특징 분포를 정확하게 반영하기 어렵고 결과적으로 Poor 모델의 일반화 성능이 저하됩니다. 또한 보이는 클래스와 보이지 않는 클래스가 공유하는 데이터 세트의 시각적 정보, 즉 도메인 지식이 생성자의 훈련 과정에서 충분히 활용되지 않아 보이는 클래스에서 보이지 않는 클래스로의 지식 전달이 제한됩니다.
이런 문제를 해결하기 위해 화중과기대 대학원생들과 알리바바 자회사 인타임 비즈니스 그룹의 기술 전문가들이 VADS(Visually Enhanced Dynamic Semantic Prototyping)라는 방법을 제안했습니다. 이 접근 방식은 표시된 클래스의 시각적 특징을 의미론적 조건에 보다 완벽하게 도입하여 푸시 생성기가 정확한 의미론적-시각적 매핑을 학습할 수 있도록 합니다. 본 연구 논문 "Visual-Augmented Dynamic Semantic Prototype for Generative Zero-Shot Learning"은 컴퓨터 비전 분야 최고의 국제 학술 컨퍼런스인 CVPR 2024에 게재되었습니다.
구체적으로 위 연구는 세 가지 혁신적인 점을 제시합니다.
제로샷 학습에서는 신뢰할 수 있는 시각적 특징을 생성하기 위해 시각적 특징을 사용하여 생성기를 향상시키는 혁신적인 방법입니다.
또한 연구에서는 VDKL과 VOSU라는 두 가지 구성 요소를 도입했으며 이러한 구성 요소의 도움으로 데이터 세트의 시각적 사전 정보를 효과적으로 얻고 이미지의 시각적 특징을 동적으로 업데이트하여 사전 정의된 카테고리 의미 설명을 제공합니다. 업데이트되었습니다. 이 방법은 시각적인 특징을 효과적으로 활용한다.
실험 결과는 본 연구에서 시각적 특징을 사용하여 발전기를 향상시키는 효과가 매우 중요하다는 것을 보여줍니다. 이 플러그 앤 플레이 접근 방식은 매우 다양할 뿐만 아니라 발전기 성능을 향상시키는 데도 뛰어납니다.
연구 세부정보
VADS는 두 개의 모듈로 구성됩니다. (1) 시각적 지각 도메인 지식 학습 모듈(VDKL)은 시각적 특징의 로컬 바이어스 및 전역 사전, 즉 순수 가우스 노이즈를 대체하는 도메인 시각적 지식을 학습합니다. (2) 비전 지향 의미론적 업데이트 모듈(VOSU)은 샘플의 시각적 표현에 따라 의미론적 프로토타입을 업데이트하는 방법을 학습하고 업데이트된 의미론적 프로토타입에는 도메인 시각적 지식도 포함됩니다.
마지막으로 연구팀은 생성기의 조건에 따라 두 모듈의 출력을 동적 의미 프로토타입 벡터로 연결했습니다. 많은 실험에서 VADS 방법은 일반적으로 사용되는 제로샷 학습 데이터 세트에 대해 기존 방법보다 훨씬 더 나은 성능을 달성하고 다른 생성적 제로샷 학습 방법과 결합하여 전반적인 정확도 향상을 얻을 수 있음을 보여줍니다.
시각지각 도메인 지식 학습 모듈(VDKL)에서 연구팀은 시각적 인코더(VE)와 도메인 지식 학습 네트워크(DKL)를 설계했습니다. 그 중 VE는 시각적 특징을 잠재 특징과 잠재 인코딩으로 인코딩합니다. 생성기 훈련 단계에서 보이는 클래스 이미지 샘플을 사용하여 VE를 훈련하기 위해 대비 손실을 사용함으로써 VE는 시각적 특징의 클래스 분리성을 향상시킬 수 있습니다.
ZSL 분류기를 훈련할 때 생성기에서 생성된 보이지 않는 시각적 특징도 VE에 입력되고, 획득된 잠재 특징은 생성된 시각적 특징과 연결되어 최종 시각적 특징 샘플이 됩니다. VE의 다른 출력, 즉 잠재 인코딩은 DKL 변환 후 로컬 편차 b를 형성합니다. 학습 가능한 전역 사전 p 및 무작위 가우스 잡음과 함께 도메인 관련 시각적 사전 잡음으로 결합되어 다른 생성 제로 샘플을 대체합니다. . 생성기 생성 조건의 일부로 학습에 일반적으로 사용되는 순수 가우스 노이즈입니다.
VOSU(Vision-Oriented Semantic Update Module)에서 연구팀은 시각적 의미 예측기 VSP와 의미 업데이트 매핑 네트워크 SUM을 설계했습니다. VOSU의 훈련 단계에서 VSP는 이미지 시각적 특징을 입력으로 사용하여 대상 이미지의 시각적 패턴을 캡처할 수 있는 예측 의미 벡터를 생성합니다. 동시에 SUM은 카테고리 의미 프로토타입을 입력으로 사용하여 업데이트하고 얻습니다. 업데이트된 의미론적 프로토타입, 그리고 VSP 및 SUM은 예측된 의미론적 벡터와 업데이트된 의미론적 프로토타입 사이의 교차 엔트로피 손실을 최소화하여 학습됩니다. VOSU 모듈은 시각적 기능을 기반으로 의미 체계 프로토타입을 동적으로 조정할 수 있으므로 생성기가 새로운 카테고리 기능을 합성할 때 보다 정확한 인스턴스 수준 의미 체계 정보에 의존할 수 있습니다.
실험 부분에서 위의 연구에서는 학계에서 일반적으로 사용되는 세 가지 ZSL 데이터 세트인 Animals with Attributes 2(AWA2), SUN Attribute(SUN) 및 Caltech-USCD Birds-200-2011(CUB)을 사용했습니다. 제로샷 학습의 주요 지표와 일반화된 제로샷 학습을 최근 대표적인 다른 방법들과 종합적으로 비교합니다.
기존 제로샷 학습의 Acc 지표 측면에서 본 연구의 방법은 세 가지 데이터 세트에서 각각 8.4%, 10.3%, 8.4를 앞서며 기존 방법에 비해 상당한 정확도 향상을 달성했습니다. %. 일반화된 제로샷 학습 시나리오에서 위의 연구 방법은 보이지 않는 클래스와 보이는 클래스 정확도의 조화 평균 지수 H에서도 선두 위치에 있습니다.
VADS 방법은 다른 생성적 제로샷 학습 방법과 결합될 수도 있습니다. 예를 들어, CLSWGAN, TF-VAEGAN 및 FREE의 세 가지 방법을 결합한 후 세 가지 데이터 세트의 Acc 및 H 지표가 크게 개선되었으며 세 가지 데이터 세트의 평균 개선은 7.4%/5.9%, 5.6%입니다. /6.4% 및 3.3%/4.2%.
생성기에 의해 생성된 시각적 특징을 시각화하면 보이는 클래스인 "노란 가슴 채팅"과 (b에 표시된 보이지 않는 클래스)와 같이 일부 카테고리의 특성이 원래 혼동되어 있었음을 알 수 있습니다. ) 아래의 두 가지 유형의 특징인 "Yellowthroat"는 VADS 방법을 사용한 후 그림 (c)에서 두 개의 클러스터로 명확하게 분리될 수 있으므로 분류기 훈련 중에 혼동을 피할 수 있습니다.
지능형 보안 및 대형 모델 분야로 확장 가능
머신하트는 위에서 언급한 연구팀이 중점을 두고 있는 제로샷 학습의 목적이 모델이 새로운 카테고리를 인식할 수 있도록 하는 것임을 이해하고 있습니다. 학습 단계의 이미지 샘플이 없는 지능형 보안 분야에서 잠재적 가치가 있는 것입니다.
먼저 보안 시나리오에서 새로운 위험을 처리하세요. 새로운 위협 유형이나 비정상적인 행동 패턴은 보안 시나리오에서 계속 나타나기 때문에 이전 교육 데이터에는 나타나지 않았을 수도 있습니다. 제로샷 학습을 통해 보안 시스템은 새로운 위험 유형을 신속하게 식별하고 대응하여 보안을 향상할 수 있습니다.
두 번째, 샘플 데이터에 대한 의존도 감소: 효과적인 보안 시스템을 교육하기 위해 충분한 주석이 달린 데이터를 얻는 것은 비용과 시간이 많이 소요됩니다. 제로샷 학습은 많은 수의 이미지 샘플에 대한 시스템의 의존도를 줄여 R&D 비용을 절감합니다. .
셋째, 동적 환경의 안정성 향상: 제로샷 학습은 의미론적 설명을 사용하여 보이지 않는 클래스 패턴을 인식합니다. 이미지 기능에 전적으로 의존하는 기존 방법에 비해 시각적 환경의 변화에 자연스럽게 더 탄력적입니다.
이미지 분류 문제를 해결하는 기반 기술인 이 기술은 사람, 상품, 차량 및 사물의 속성 인식, 행동 인식 등 시각적 분류 기술에 의존하는 시나리오에서도 구현될 수 있습니다. 특히 식별할 새로운 범주를 신속하게 추가해야 하고 훈련 샘플을 수집할 시간이 없거나 많은 수의 샘플(예: 위험 식별)을 수집하기 어려운 시나리오에서는 제로샷 학습 기술이 큰 이점을 갖습니다. 전통적인 방법보다.
이 연구 기술이 현재 대형 모델 개발에 참고가 될까요?
생성적 제로샷 학습의 핵심 아이디어는 의미 공간과 시각적 특징 공간을 정렬하는 것이라고 연구자들은 믿습니다. 이는 현재 다중 언어에서 시각적 언어 모델(예: CLIP)의 연구 목표와 일치합니다. 모달 대형 모델.
이들 사이의 가장 큰 차이점은 생성적 제로샷 학습이 사전 정의된 제한된 범주의 데이터 세트에 대해 훈련되고 사용되는 반면, 시각적 언어 대형 모델은 빅 데이터 학습을 통해 다용도로 사용된다는 점입니다. 제한된 카테고리까지 기본 모델로서 적용 범위가 더 넓습니다.
기술의 적용 시나리오가 특정 분야인 경우 대형 모델을 이 분야에 적용하고 미세 조정하도록 선택할 수 있습니다. 이 과정에서 이 기사가 이론적으로 가져올 수 있는 것과 동일하거나 유사한 연구 방향으로 작업할 수 있습니다. 유용한 영감.
저자 소개
Hou Wenjin, Huazhong University of Science and Technology 석사 연구 관심 분야는 컴퓨터 비전, 생성 모델링, 퓨샷 학습 등입니다. 그는 인턴 기간 동안 이 논문을 완성했습니다. Alibaba-Intime 비즈니스에서.
Wang Yan, Alibaba-Intime 상업 기술 이사, Shenzhen Xiang 지능형 팀의 알고리즘 리더.
Alibaba-Intime Business의 수석 알고리즘 전문가인 Feng Xuetao는 주로 오프라인 소매 및 기타 산업에서 시각적 및 다중 모드 알고리즘 적용에 중점을 두고 있습니다.
위 내용은 생성적 제로샷 학습 기능을 개선하여 시각적으로 강화된 동적 의미론적 프로토타이핑 방법이 CVPR 2024에 선택되었습니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











7 백만 레코드를 효율적으로 처리하고 지리 공간 기술로 대화식지도를 만듭니다. 이 기사는 Laravel과 MySQL을 사용하여 7 백만 개 이상의 레코드를 효율적으로 처리하고 대화식지도 시각화로 변환하는 방법을 살펴 봅니다. 초기 챌린지 프로젝트 요구 사항 : MySQL 데이터베이스에서 7 백만 레코드를 사용하여 귀중한 통찰력을 추출합니다. 많은 사람들이 먼저 프로그래밍 언어를 고려하지만 데이터베이스 자체를 무시합니다. 요구 사항을 충족시킬 수 있습니까? 데이터 마이그레이션 또는 구조 조정이 필요합니까? MySQL이 큰 데이터로드를 견딜 수 있습니까? 예비 분석 : 주요 필터 및 속성을 식별해야합니다. 분석 후, 몇 가지 속성만이 솔루션과 관련이 있음이 밝혀졌습니다. 필터의 타당성을 확인하고 검색을 최적화하기위한 제한 사항을 설정했습니다. 도시를 기반으로 한지도 검색

MySQL 시작이 실패하는 데는 여러 가지 이유가 있으며 오류 로그를 확인하여 진단 할 수 있습니다. 일반적인 원인에는 포트 충돌 (포트 점유 체크 및 구성 수정), 권한 문제 (서비스 실행 사용자 권한 실행), 구성 파일 오류 (파라미터 설정 확인), 데이터 디렉토리 손상 (데이터 복원 또는 테이블 공간 재건), IBDATA 테이블 공간 문제 (IBDATA1 파일 확인), 플러그로드 (확인 오류 로그)가 포함됩니다. 문제를 해결할 때 오류 로그를 기반으로 문제를 분석하고 문제의 근본 원인을 찾고 문제를 방지하고 해결하기 위해 정기적으로 데이터를 백업하는 습관을 개발해야합니다.

이 기사는 MySQL 데이터베이스의 작동을 소개합니다. 먼저 MySQLworkBench 또는 명령 줄 클라이언트와 같은 MySQL 클라이언트를 설치해야합니다. 1. MySQL-Uroot-P 명령을 사용하여 서버에 연결하고 루트 계정 암호로 로그인하십시오. 2. CreateABase를 사용하여 데이터베이스를 작성하고 데이터베이스를 선택하십시오. 3. CreateTable을 사용하여 테이블을 만들고 필드 및 데이터 유형을 정의하십시오. 4. InsertInto를 사용하여 데이터를 삽입하고 데이터를 쿼리하고 업데이트를 통해 데이터를 업데이트하고 DELETE를 통해 데이터를 삭제하십시오. 이러한 단계를 마스터하고 일반적인 문제를 처리하는 법을 배우고 데이터베이스 성능을 최적화하면 MySQL을 효율적으로 사용할 수 있습니다.

원격 선임 백엔드 엔지니어 구직 회사 : 원 위치 : 원격 사무실 직무 유형 : 전임 급여 : $ 130,000- $ 140,000 직무 설명 전체 소프트웨어 개발 라이프 사이클을 다루는 Circle Mobile 애플리케이션 및 공개 API 관련 기능의 연구 및 개발에 참여합니다. 주요 책임은 독립적으로 Rubyonrails를 기반으로 개발 작업을 완료하고 React/Redux/Relay 프론트 엔드 팀과 협력합니다. 웹 애플리케이션의 핵심 기능 및 개선을 구축하고 기능 설계 프로세스 전반에 걸쳐 설계자 및 리더십과 긴밀히 협력하십시오. 긍정적 인 개발 프로세스를 촉진하고 반복 속도를 우선시하십시오. 6 년 이상의 복잡한 웹 애플리케이션 백엔드가 필요합니다.

MySQL은 JSON 데이터를 반환 할 수 있습니다. json_extract 함수는 필드 값을 추출합니다. 복잡한 쿼리의 경우 where 절을 사용하여 JSON 데이터를 필터링하지만 성능 영향에주의하십시오. JSON에 대한 MySQL의 지원은 지속적으로 증가하고 있으며 최신 버전 및 기능에주의를 기울이는 것이 좋습니다.

기본 키는 데이터베이스의 각 행을 고유하게 식별하는 키 속성이기 때문에 MySQL 기본 키는 비어있을 수 없습니다. 기본 키가 비어 있으면 레코드를 고유하게 식별 할 수 없으므로 데이터 혼동으로 이어질 수 있습니다. 자체 점수 정수 열 또는 UUID를 기본 키로 사용하는 경우 효율성 및 우주 점유와 같은 요소를 고려하고 적절한 솔루션을 선택해야합니다.

데이터베이스 산 속성에 대한 자세한 설명 산 속성은 데이터베이스 트랜잭션의 신뢰성과 일관성을 보장하기위한 일련의 규칙입니다. 데이터베이스 시스템이 트랜잭션을 처리하는 방법을 정의하고 시스템 충돌, 전원 중단 또는 여러 사용자의 동시 액세스가 발생할 경우에도 데이터 무결성 및 정확성을 보장합니다. 산 속성 개요 원자력 : 트랜잭션은 불가분의 단위로 간주됩니다. 모든 부분이 실패하고 전체 트랜잭션이 롤백되며 데이터베이스는 변경 사항을 유지하지 않습니다. 예를 들어, 은행 송금이 한 계정에서 공제되지만 다른 계정으로 인상되지 않은 경우 전체 작업이 취소됩니다. BeginTransaction; updateAccountssetBalance = Balance-100WH

sqllimit 절 : 쿼리 결과의 행 수를 제어하십시오. SQL의 한계 절은 쿼리에서 반환 된 행 수를 제한하는 데 사용됩니다. 이것은 대규모 데이터 세트, 페이지 진화 디스플레이 및 테스트 데이터를 처리 할 때 매우 유용하며 쿼리 효율성을 효과적으로 향상시킬 수 있습니다. 구문의 기본 구문 : SelectColumn1, Collect2, ... Fromtable_namelimitnumber_of_rows; 번호_of_rows : 반환 된 행 수를 지정하십시오. 오프셋이있는 구문 : SelectColumn1, Column2, ... Fromtable_namelimitOffset, number_of_rows; 오프셋 : skip
