목차
RNN에서 영감을 받아 CLIP을 주기적으로 호출
CaR 기술 세부 사항
기술 주변기기 일체 포함 CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

Jun 09, 2024 pm 12:53 PM
신경망 clip 자동차 기술

추가 교육 없이도 수많은 개념을 효과적으로 분할하려면 루프에서 CLIP을 호출하세요.

영화 캐릭터, 랜드마크, 브랜드, 일반 카테고리 등 모든 문구.

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

옥스포드 대학과 Google Research의 공동 팀의 이 새로운 결과는 CVPR 2024에서 승인되었으며 코드는 오픈 소스로 제공되었습니다.

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

팀은 개방형 어휘 이미지 분할 분야의 몇 가지 주요 문제를 해결하는 RNN(줄여서 CaR)이라는 새로운 기술을 제안했습니다.

  • 교육 데이터가 필요하지 않습니다. 기존 방법에는 많은 양의 데이터가 필요합니다. 미세 조정을 위한 마스크 주석 또는 이미지-텍스트 데이터 세트, CaR 기술은 추가 교육 데이터 없이 작동합니다.
  • 공개 어휘의 제한 사항: 사전 훈련된 VLM(시각 언어 모델)은 미세 조정 후 공개 어휘를 처리하는 능력이 제한됩니다. CaR 기술은 VLM의 광범위한 어휘 공간을 보존합니다.
  • 이미지에 없는 개념에 대한 텍스트 쿼리 처리: 미세 조정 없이는 VLM이 이미지에 없는 개념을 정확하게 분할하기 어렵습니다. CaR은 분할 품질을 향상시키기 위한 반복 프로세스를 통해 점차 최적화됩니다.

RNN에서 영감을 받아 CLIP을 주기적으로 호출

CaR의 원리를 이해하려면 먼저 순환 신경망 RNN을 검토해야 합니다.

RNN은 과거 시간 단계의 정보를 저장하는 "기억"과 같은 숨겨진 상태의 개념을 도입합니다. 그리고 각 시간 단계는 동일한 가중치 세트를 공유하므로 시퀀스 데이터를 잘 모델링할 수 있습니다.

RNN에서 영감을 받은 CaR은 두 부분으로 구성된 순환 프레임워크로 설계되었습니다.

  • 마스크 제안 생성기: CLIP의 도움으로 각 텍스트 쿼리에 대한 마스크를 생성합니다.
  • 마스크 분류기: 그런 다음 CLIP 모델을 사용하여 생성된 각 마스크와 해당 텍스트 쿼리의 일치 정도를 평가합니다. 일치도가 낮으면 텍스트 쿼리가 제거됩니다.

이렇게 계속 반복하다 보면 텍스트 쿼리도 점점 더 정확해지고, 마스크의 품질도 점점 더 높아질 것입니다.

마지막으로 쿼리 세트가 더 이상 변경되지 않으면 최종 분할 결과가 출력될 수 있습니다.

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

이 재귀적 프레임워크를 설계한 이유는 CLIP 사전 훈련의 "지식"을 최대한 유지하기 위한 것입니다.

CLIP 사전 트레이닝에는 연예인, 랜드마크부터 애니메이션 캐릭터까지 모든 것을 포괄하는 많은 컨셉이 있습니다. 분할된 데이터 세트를 미세 조정하면 어휘가 크게 줄어들 수 있습니다.

예를 들어, "모든 것을 나누는" SAM 모델은 코카콜라 한 병만 인식할 수 있지만 펩시콜라 한 병도 인식할 수 없습니다.

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

하지만 CLIP을 직접 사용하여 분할하는 경우에는 효과가 만족스럽지 않습니다.

CLIP의 사전 학습 목표는 원래 조밀한 예측을 위해 설계되지 않았기 때문입니다. 특히 특정 텍스트 쿼리가 이미지에 존재하지 않는 경우 CLIP은 잘못된 마스크를 쉽게 생성할 수 있습니다.

CaR은 RNN 스타일 반복을 통해 이 문제를 영리하게 해결합니다. 마스크를 개선하면서 쿼리를 반복적으로 평가하고 필터링함으로써 최종적으로 고품질의 개방형 어휘 분할이 달성됩니다.

마지막으로 팀의 해석을 따라가며 CaR 프레임워크의 세부 사항에 대해 알아 보겠습니다.

CaR 기술 세부 사항

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

  • 반복 신경망 프레임워크: CaR은 반복 프로세스를 통해 텍스트 쿼리와 이미지 간의 대응을 지속적으로 최적화하기 위해 새로운 순환 프레임워크를 채택합니다.
  • 2단계 분할기: 사전 학습된 CLIP 모델을 기반으로 구축된 마스크 제안 생성기와 마스크 분류기로 구성되며 반복 프로세스 중에 가중치는 변경되지 않습니다.
  • 마스크 제안 생성: gradCAM 기술을 사용하여 이미지와 텍스트 특징의 유사성 점수를 기반으로 마스크 제안을 생성합니다.
  • 시각적 신호: 빨간색 원, 배경 흐림 등과 같은 시각적 신호를 적용하여 이미지의 특정 영역에 모델의 초점을 강화합니다.
  • 임계값 기능: 유사성 임계값을 설정하여 텍스트 쿼리와 매우 일치하는 마스크 제안을 필터링합니다.
  • 후처리: 조밀한 CRF(조건부 무작위 필드) 및 선택적 SAM 모델을 사용하여 마스크 개선.

이러한 기술적 수단을 통해 CaR 기술은 기존의 제로샷 학습 방식을 뛰어넘어 여러 표준 데이터 세트에서 상당한 성능 향상을 달성했으며, 광범위한 데이터 미세 조정을 거친 모델과 비교하여 경쟁력도 향상되었습니다. 아래 표에서 볼 수 있듯이 추가 훈련 및 미세 조정이 필요하지 않지만 CaR은 추가 데이터에 대해 미세 조정된 이전 방법보다 제로 샷 의미론적 분할의 8가지 다른 지표에서 더 강력한 성능을 보여줍니다.

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

저자는 CaR이 제로 샘플 참조 분할에 미치는 영향도 테스트했습니다. CaR도 이전 제로 샘플 방법보다 강력한 성능을 보여주었습니다.

CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |

요약하자면, CaR(CLIP as RNN)은 추가 훈련 데이터 없이 제로샷 의미론적 및 참조 이미지 분할 작업을 효과적으로 수행할 수 있는 혁신적인 순환 신경망 프레임워크입니다. 사전 훈련된 시각적 언어 모델의 광범위한 어휘 공간을 보존하고 반복 프로세스를 활용하여 텍스트 쿼리와 마스크 제안의 정렬을 지속적으로 최적화함으로써 분할 품질을 크게 향상시킵니다.

CaR의 장점은 미세 조정 없이 복잡한 텍스트 쿼리를 처리할 수 있는 능력과 비디오 분야로의 확장성으로, 개방형 어휘 이미지 분할 분야에 획기적인 발전을 가져옵니다.

논문 링크: https://arxiv.org/abs/2312.07661.
프로젝트 홈페이지: https://torrvision.com/clip_as_rnn/.

위 내용은 CLIP은 RNN으로 사용될 때 CVPR로 선택되었습니다. Oxford University 및 Google Research 없이 수많은 개념을 분할할 수 있습니다 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

Video Face Swap

Video Face Swap

완전히 무료인 AI 얼굴 교환 도구를 사용하여 모든 비디오의 얼굴을 쉽게 바꾸세요!

인기 기사

<gum> : Bubble Gum Simulator Infinity- 로얄 키를 얻고 사용하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Mandragora : 마녀 트리의 속삭임 - Grappling Hook 잠금 해제 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
Nordhold : Fusion System, 설명
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

GNN의 기초, 프론티어 및 적용 GNN의 기초, 프론티어 및 적용 Apr 11, 2023 pm 11:40 PM

그래프 신경망(GNN)은 최근 몇 년 동안 빠르고 놀라운 발전을 이루었습니다. 그래프 딥러닝, 그래프 표현 학습(그래프 표현 학습) 또는 기하학적 딥러닝이라고도 알려진 그래프 신경망은 머신러닝, 특히 딥러닝 분야에서 가장 빠르게 성장하고 있는 연구 주제입니다. 이번 공유의 제목은 "GNN의 기본, 프론티어 및 응용"이며, Wu Lingfei, Cui Peng, Pei Jian 및 Zhao 학자가 편찬한 종합 도서 "그래프 신경망의 기본, 프론티어 및 응용"의 일반적인 내용을 주로 소개합니다. 리앙. 1. 그래프 신경망 소개 1. 그래프를 연구하는 이유는 무엇입니까? 그래프는 복잡한 시스템을 설명하고 모델링하기 위한 보편적인 언어입니다. 그래프 자체는 복잡하지 않으며 주로 간선과 노드로 구성됩니다. 노드를 사용하여 모델링하려는 개체를 나타내고 가장자리를 사용하여 두 개체를 나타낼 수 있습니다.

YOLO는 불멸이다! YOLOv9 출시: 성능과 속도 SOTA~ YOLO는 불멸이다! YOLOv9 출시: 성능과 속도 SOTA~ Feb 26, 2024 am 11:31 AM

오늘날의 딥러닝 방법은 모델의 예측 결과가 실제 상황에 가장 가깝도록 가장 적합한 목적 함수를 설계하는 데 중점을 두고 있습니다. 동시에 예측을 위한 충분한 정보를 얻을 수 있도록 적합한 아키텍처를 설계해야 합니다. 기존 방법은 입력 데이터가 레이어별 특징 추출 및 공간 변환을 거치면 많은 양의 정보가 손실된다는 사실을 무시합니다. 이 글에서는 딥 네트워크를 통해 데이터를 전송할 때 중요한 문제, 즉 정보 병목 현상과 가역 기능을 살펴보겠습니다. 이를 바탕으로 다중 목표를 달성하기 위해 심층 네트워크에서 요구되는 다양한 변화에 대처하기 위해 PGI(Programmable Gradient Information) 개념을 제안합니다. PGI는 목적 함수를 계산하기 위해 대상 작업에 대한 완전한 입력 정보를 제공할 수 있으므로 네트워크 가중치를 업데이트하기 위한 신뢰할 수 있는 기울기 정보를 얻을 수 있습니다. 또한 새로운 경량 네트워크 프레임워크가 설계되었습니다.

자율 주행을 위한 세 가지 주류 칩 아키텍처 개요를 한 기사로 살펴보세요. 자율 주행을 위한 세 가지 주류 칩 아키텍처 개요를 한 기사로 살펴보세요. Apr 12, 2023 pm 12:07 PM

현재 주류 AI 칩은 크게 GPU, FPGA, ASIC 세 가지 범주로 나뉜다. GPU와 FPGA는 모두 초기 단계에서 상대적으로 성숙한 칩 아키텍처이며 범용 칩입니다. ASIC은 특정 AI 시나리오에 맞게 맞춤화된 칩입니다. 업계에서는 CPU가 AI 컴퓨팅에 적합하지 않지만 AI 애플리케이션에도 필수적이라는 점을 확인했다. GPU와 CPU의 GPU 솔루션 아키텍처 비교 CPU는 von Neumann 아키텍처를 따르며, 그 핵심은 프로그램/데이터 저장 및 직렬 순차 실행입니다. 따라서 CPU 아키텍처는 저장 장치(Cache)와 제어 장치(Control)를 배치하는 데 많은 공간이 필요한 반면, 컴퓨팅 장치(ALU)는 작은 부분만 차지하므로 CPU가 대규모 작업을 수행합니다. 병렬 컴퓨팅.

'Bilibili UP의 소유자는 세계 최초의 레드스톤 기반 신경망을 성공적으로 만들었습니다. 이는 소셜 미디어에서 센세이션을 일으켰고 Yann LeCun의 칭찬을 받았습니다.' 'Bilibili UP의 소유자는 세계 최초의 레드스톤 기반 신경망을 성공적으로 만들었습니다. 이는 소셜 미디어에서 센세이션을 일으켰고 Yann LeCun의 칭찬을 받았습니다.' May 07, 2023 pm 10:58 PM

마인크래프트에서 레드스톤은 매우 중요한 아이템이다. 스위치, 레드스톤 횃불, 레드스톤 블록은 게임 내 고유한 재료로 전선이나 물체에 전기와 같은 에너지를 공급할 수 있습니다. 레드스톤 회로는 다른 기계를 제어하거나 활성화하기 위한 구조물을 만드는 데 사용할 수 있습니다. 이 회로 자체는 플레이어의 수동 활성화에 응답하도록 설계할 수도 있고, 반복적으로 신호를 출력하거나 생물체 움직임과 같은 비플레이어에 의한 변경에 응답할 수도 있습니다. 아이템 낙하, 식물 성장, 낮과 밤 등. 따라서 내 세계에서 레드스톤은 자동문, 조명 스위치, 스트로보 전원 공급 장치와 같은 단순한 기계부터 거대한 엘리베이터, 자동 농장, 소형 게임 플랫폼, 심지어 게임 내 컴퓨터까지 매우 다양한 유형의 기계를 제어할 수 있습니다. . 최근 B 스테이션 UP 메인@

1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT 1.3ms는 1.3ms가 걸립니다! Tsinghua의 최신 오픈 소스 모바일 신경망 아키텍처 RepViT Mar 11, 2024 pm 12:07 PM

논문 주소: https://arxiv.org/abs/2307.09283 코드 주소: https://github.com/THU-MIG/RepViTRepViT는 모바일 ViT 아키텍처에서 잘 작동하며 상당한 이점을 보여줍니다. 다음으로, 본 연구의 기여를 살펴보겠습니다. 기사에서는 경량 ViT가 일반적으로 시각적 작업에서 경량 CNN보다 더 나은 성능을 발휘한다고 언급했는데, 그 이유는 주로 모델이 전역 표현을 학습할 수 있는 MSHA(Multi-Head Self-Attention 모듈) 때문입니다. 그러나 경량 ViT와 경량 CNN 간의 아키텍처 차이점은 완전히 연구되지 않았습니다. 본 연구에서 저자는 경량 ViT를 효과적인

다중 경로, 다중 도메인, 모든 것을 포함합니다! Google AI, 다중 도메인 학습 일반 모델 MDL 출시 다중 경로, 다중 도메인, 모든 것을 포함합니다! Google AI, 다중 도메인 학습 일반 모델 MDL 출시 May 28, 2023 pm 02:12 PM

비전 작업(예: 이미지 분류)을 위한 딥 러닝 모델은 일반적으로 단일 시각적 영역(예: 자연 이미지 또는 컴퓨터 생성 이미지)의 데이터를 사용하여 엔드투엔드 학습됩니다. 일반적으로 여러 도메인에 대한 비전 작업을 완료하는 애플리케이션은 각 개별 도메인에 대해 여러 모델을 구축하고 이를 독립적으로 교육해야 합니다. 추론 중에는 각 모델이 특정 도메인 입력 데이터를 처리합니다. 서로 다른 분야를 지향하더라도 이러한 모델 간 초기 레이어의 일부 기능은 유사하므로 이러한 모델의 공동 학습이 더 효율적입니다. 이렇게 하면 대기 시간과 전력 소비가 줄어들고, 각 모델 매개변수를 저장하는 데 드는 메모리 비용이 줄어듭니다. 이러한 접근 방식을 다중 도메인 학습(MDL)이라고 합니다. 또한 MDL 모델은 단일 모델보다 성능이 뛰어날 수도 있습니다.

강풍에도 견딜 수 있는 드론? Caltech는 12분의 비행 데이터를 사용하여 드론이 바람을 타고 비행하도록 가르칩니다. 강풍에도 견딜 수 있는 드론? Caltech는 12분의 비행 데이터를 사용하여 드론이 바람을 타고 비행하도록 가르칩니다. Apr 09, 2023 pm 11:51 PM

바람이 우산을 날릴 만큼 강하면 드론은 다음과 같이 안정적입니다. 바람을 타고 비행하는 것은 공중 비행의 일부이므로 조종사가 항공기를 착륙시킬 때 풍속은 다음과 같습니다. 더 작은 수준에서는 돌풍이 드론 비행에 영향을 미칠 수도 있습니다. 현재 드론은 바람 없이 통제된 조건에서 비행하거나 사람이 원격 조종을 사용해 조종합니다. 드론은 연구자들이 개방된 하늘에서 대형을 이루어 비행하도록 제어하지만 이러한 비행은 일반적으로 이상적인 조건과 환경에서 수행됩니다. 그러나 드론이 패키지 배송과 같이 필요하지만 일상적인 작업을 자율적으로 수행하려면 실시간으로 바람 조건에 적응할 수 있어야 합니다. 바람에 날릴 때 드론의 기동성을 높이기 위해 Caltech의 엔지니어 팀

Zhuanzhuan의 대조 학습 알고리즘 실습 Zhuanzhuan의 대조 학습 알고리즘 실습 Apr 11, 2023 pm 09:25 PM

1 대조 학습이란 1.1 대조 학습의 정의 1.2 대조 학습의 원리 1.3 고전 대조 학습 알고리즘 시리즈 2 대조 학습의 적용 3 Zhuanzhuan의 대조 학습 실습 3.1 권장 회상에서 CL의 실습 3.2 Zhuanzhuan에서 CL의 미래 계획 1 What 1.1 대조 학습의 정의 대조 학습(CL)은 최근 AI 분야에서 인기 있는 연구 방향으로 많은 연구 학자들의 주목을 받고 있으며 Bengio는 ICLR 2020에서 자기 지도 학습 방식을 발표하기도 했습니다. 그와 LeCun 및 다른 거물들은 이를 AI의 미래라고 명명하고 NIPS, ACL,

See all articles