목차
논문 개요
데이터 처리
차별적 자기주도 사전 훈련
효율적인 구현
실험 결과
기술 주변기기 일체 포함 메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

May 07, 2023 pm 03:49 PM
비전

“모든 것을 나누는” SAM 모델을 오픈소스화한 이후, 메타는 점점 더 “비주얼 베이직 모델”을 향한 길을 걷고 있습니다.

이번에는 DINOv2라는 모델 세트를 오픈소스로 공개했습니다. 이러한 모델은 미세 조정 없이 분류, 분할, 이미지 검색 및 깊이 추정과 같은 다운스트림 작업에 사용할 수 있는 고성능 시각적 표현을 생성할 수 있습니다.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

이 모델 세트는 다음과 같은 특징을 가지고 있습니다:


  • 은 많은 양의 레이블이 지정된 데이터가 필요하지 않은 방식으로 학습됩니다.
  • 사용할 수 있습니다. 거의 모든 CV 이미지 분류, 분할, 이미지 검색 및 깊이 추정과 같은 미세 조정이 필요하지 않은 작업의 중추입니다.
  • 텍스트 설명에 의존하지 않고 이미지에서 직접 기능을 학습하여 모델의 성능을 향상시킵니다.
  • 모든 이미지 컬렉션에서 학습 가능
  • 사전 훈련된 DINOv2 버전이 이미 사용 가능하며 다양한 작업에서 CLIP 및 OpenCLIP과 유사합니다.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

  • 논문 링크: https://arxiv.org/pdf/2304.07193.pdf
  • 프로젝트 링크: https://dinov2.metademolab.com/

논문 개요

작업별이 아닌 사전 훈련된 표현을 학습하는 것이 자연어 처리의 표준이 되었습니다. 이러한 기능은 "있는 그대로"(미세 조정이 필요하지 않음) 사용할 수 있으며 작업별 모델보다 다운스트림 작업에서 훨씬 더 나은 성능을 발휘합니다. 이러한 성공은 감독이 필요하지 않은 언어 모델링 또는 단어 벡터와 같은 보조 목표를 사용하여 대량의 원시 텍스트에 대한 사전 훈련 덕분입니다.

NLP 분야에서 이러한 패러다임 전환이 일어나면서 유사한 "기본" 모델이 컴퓨터 비전에도 나타날 것으로 예상됩니다. 이러한 모델은 이미지 수준(예: 이미지 분류)이든 픽셀 수준(예: 분할)이든 모든 작업에서 "즉시" 작동하는 시각적 기능을 생성해야 합니다.

이러한 기본 모델은 텍스트 기반 사전 훈련, 즉 텍스트 감독 형식을 사용하여 기능 훈련을 안내하는 데 중점을 두는 큰 희망을 가지고 있습니다. 이러한 형태의 텍스트 기반 사전 학습은 캡션이 이미지의 풍부한 정보에 근접할 뿐이고 이 감독을 통해 더 세밀하고 복잡한 픽셀 수준 정보를 발견하지 못할 수 있으므로 보유할 수 있는 이미지에 대한 정보를 제한합니다. 또한 이러한 이미지 인코더에는 이미 정렬된 텍스트-이미지 말뭉치가 필요하며 텍스트 대응의 유연성을 제공하지 않습니다. 즉, 원시 데이터만으로는 학습할 수 없습니다.

텍스트 기반 사전 학습의 대안은 이미지에서만 기능을 학습하는 자가 지도 학습입니다. 이러한 방법은 개념적으로 언어 모델링과 같은 프런트 엔드 작업에 더 가깝고 이미지 및 픽셀 수준에서 정보를 캡처할 수 있습니다. 그러나 일반적인 기능을 학습할 수 있는 잠재력에도 불구하고 자기 지도 학습의 대부분의 개선 사항은 작고 정제된 데이터 세트 ImageNet1k에 대한 사전 학습의 맥락에서 달성되었습니다. 일부 연구자들은 이러한 방법을 ImageNet-1k 이상으로 확장하려는 노력을 해왔지만 필터링되지 않은 데이터세트에 초점을 맞춰 성능 품질이 크게 저하되는 경우가 많았습니다. 이는 좋은 결과를 생성하는 데 중요한 데이터 품질과 다양성에 대한 통제력이 부족하기 때문입니다.

이 연구에서 연구자들은 대량의 정제된 데이터에 대해 사전 학습된 경우 일반적인 시각적 특징을 학습하는 자기 지도 학습이 가능한지 여부를 탐구합니다. 그들은 iBOT과 같은 이미지 및 패치 수준에서 기능을 학습하는 기존의 차별적인 자기 감독 방법을 재검토하고 더 큰 데이터 세트에서 일부 설계 선택을 재고합니다. 우리의 기술적 기여의 대부분은 모델과 데이터 크기를 확장할 때 차별적인 자기 지도 학습을 안정화하고 가속화하도록 맞춤화되었습니다. 이러한 개선으로 인해 유사한 차별적 자기 지도 방법보다 방법이 약 2배 더 빨라지고 메모리가 1/3 더 적게 필요해 더 긴 훈련과 더 큰 배치 크기를 활용할 수 있게 되었습니다.

사전 학습 데이터와 관련하여 필터링되지 않은 대규모 이미지 컬렉션에서 데이터 세트를 필터링하고 재조정하기 위한 자동화된 파이프라인을 구축했습니다. 이는 외부 메타데이터 대신 데이터 유사성이 사용되며 수동 주석이 필요하지 않은 NLP에서 사용되는 파이프라인에서 영감을 받았습니다. 이미지를 처리할 때 가장 어려운 점은 개념의 균형을 재조정하고 일부 주요 모드에서 과적합을 방지하는 것입니다. 본 연구에서는 순진한 클러스터링 방법이 이 문제를 잘 해결할 수 있으며, 연구진은 방법을 검증하기 위해 142M 이미지로 구성된 작지만 다양한 코퍼스를 수집했습니다.

마지막으로 연구원들은 다양한 ViT(Visual Transformer) 아키텍처를 사용하여 데이터에 대해 훈련된 DINOv2라는 다양한 사전 훈련된 비전 모델을 제공합니다. 그들은 모든 데이터에 대해 DINOv2를 재교육하기 위한 모든 모델과 코드를 공개했습니다. 확장되면 그림 2와 같이 이미지 및 픽셀 수준에서 다양한 컴퓨터 비전 벤치마크에서 DINOv2의 품질을 검증했습니다. 우리는 자기 감독 사전 훈련만으로도 공개적으로 이용 가능한 최고의 약한 감독 모델과 ​​비교할 수 있는 전송 가능한 고정 기능을 학습하기 위한 좋은 후보라고 결론지었습니다.

데이터 처리

연구원들은 여러 정제된 데이터세트의 이미지에 가까운 필터링되지 않은 대량의 데이터에서 이미지를 검색하여 정제된 LVD-142M 데이터세트를 구성했습니다. 논문에서는 선별된/필터링되지 않은 데이터 소스, 이미지 중복 제거 단계 및 검색 시스템을 포함하여 데이터 파이프라인의 주요 구성 요소를 설명합니다. 그림 3과 같이 전체 파이프라인에는 메타데이터나 텍스트가 필요하지 않으며 이미지를 직접 처리합니다. 모델 방법론에 대한 자세한 내용은 부록 A를 참조하세요.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

그림 3: 데이터 처리 파이프라인 개요. 정제된 데이터 소스와 정제되지 않은 데이터 소스의 이미지는 먼저 임베딩에 매핑됩니다. 정제되지 않은 이미지는 표준 이미지와 일치되기 전에 중복 제거됩니다. 결과 조합은 자체 감독 검색 시스템을 통해 초기 데이터 세트를 더욱 풍부하게 합니다.

차별적 자기주도 사전 훈련

연구원들은 SwAV를 중심으로 DINO와 iBOT 손실의 조합으로 볼 수 있는 차별적 자기주도 접근법을 통해 자신의 특징을 학습했습니다. 또한 기능을 전파하기 위한 정규화 도구와 간단한 고해상도 훈련 단계를 추가했습니다.

효율적인 구현

그들은 모델을 더 큰 규모로 훈련하기 위해 몇 가지 개선 사항을 고려했습니다. 모델은 PyTorch 2.0을 사용하여 A100 GPU에서 훈련되었으며, 코드는 특징 추출을 위해 사전 훈련된 모델과 함께 사용할 수도 있습니다. 모델의 세부사항은 부록 표 17에 나와 있습니다. 동일한 하드웨어에서 DINOv2 코드는 메모리의 1/3만 사용하고 iBOT 구현보다 2배 빠르게 실행됩니다.

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

실험 결과

이 섹션에서 연구자들은 다양한 이미지 이해 작업에 대한 새로운 모델의 실증적 평가를 소개합니다. 그들은 카테고리 및 인스턴스 수준 인식, 의미론적 분할, 단안 깊이 예측 및 동작 인식을 포함한 전역 및 로컬 이미지 표현을 평가했습니다.

ImageNet 분류

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

기타 이미지 및 비디오 분류 벤치마크

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

인스턴스 인식

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

밀도 인식 Task

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

정성적 결과

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개

위 내용은 메타, 시각적 통일에 한걸음 더 다가가는 다목적 대형모델 오픈소스 공개의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

Goat Simulator 3에서 공포 복도 임무를 완료하는 방법 Goat Simulator 3에서 공포 복도 임무를 완료하는 방법 Feb 25, 2024 pm 03:40 PM

Terror Corridor는 Goat Simulator 3의 임무입니다. 이 임무를 어떻게 완료할 수 있습니까? 자세한 정리 방법과 해당 프로세스를 숙지하고 이 임무의 해당 과제를 완료할 수 있으면 Goat Simulator 3가 제공됩니다. 관련 정보를 배울 수 있는 안내입니다. Goat Simulator 3 Terror Corridor 가이드 1. 먼저 플레이어는 지도의 왼쪽 상단에 있는 Silent Hill로 이동해야 합니다. 2. 지붕에 RESTSTOP이라고 적힌 집이 보입니다. 플레이어는 이 집에 들어가려면 염소를 조작해야 합니다. 3. 방에 들어간 후 먼저 직진하다가 여기 끝에 문이 있고 여기서 바로 들어갑니다. 4. 들어간 후에도 먼저 앞으로 걸어간 다음 여기 문에 도달하면 문이 닫혀 있어야합니다.

Goat Simulator 3에서 Imperial Tomb 미션을 통과하는 방법 Goat Simulator 3에서 Imperial Tomb 미션을 통과하는 방법 Mar 11, 2024 pm 01:10 PM

Goat Simulator 3는 고전적인 시뮬레이션 게임플레이를 갖춘 게임으로, 플레이어는 캐주얼 액션 시뮬레이션의 재미를 완전히 경험할 수 있습니다. 이 게임에는 또한 많은 흥미로운 특수 작업이 있으며, 그 중 Goat Simulator 3 Imperial Tomb 작업에서는 플레이어가 종탑을 찾아야 합니다. 일부 플레이어는 세 개의 시계를 동시에 작동하는 방법을 잘 모릅니다. 다음은 Goat Simulator 3의 Tomb of the Tomb 미션에 대한 가이드입니다! 순서대로. 세부 단계 확장 1. 먼저 지도를 열고 Wuqiu Cemetery로 이동해야 합니다. 2. 그런 다음 종탑으로 올라가면 내부에 3개의 종이 있을 것입니다. 3. 그리고 큰 것부터 작은 것 순으로 222312312를 따라가면서 화난 두드리기에 익숙해지세요. 4. 노크를 완료한 후 미션을 완료하고 문을 열어 광선검을 획득할 수 있습니다.

수정: Windows 작업 스케줄러에서 운영자 거부 요청 오류 수정: Windows 작업 스케줄러에서 운영자 거부 요청 오류 Aug 01, 2023 pm 08:43 PM

작업을 자동화하고 여러 시스템을 관리하기 위해 임무 계획 소프트웨어는 특히 시스템 관리자에게 유용한 도구입니다. Windows 작업 스케줄러는 작업을 완벽하게 수행하지만 최근 많은 사람들이 운영자 거부 요청 오류를 보고했습니다. 이 문제는 운영 체제의 모든 반복에 존재하며 널리 보고되고 다루어졌음에도 불구하고 효과적인 해결책은 없습니다. 다른 사람들에게 실제로 효과가 있을 수 있는 것이 무엇인지 알아보려면 계속해서 읽어보세요! 운영자 또는 관리자가 거부한 작업 스케줄러 0x800710e0의 요청은 무엇입니까? 작업 스케줄러를 사용하면 사용자 입력 없이 다양한 작업과 응용 프로그램을 자동화할 수 있습니다. 이를 사용하여 특정 애플리케이션을 예약 및 구성하고, 자동 알림을 구성하고, 메시지 전달을 돕는 등의 작업을 할 수 있습니다. 그것

Goat Simulator 3에서 스티브 구출 임무를 수행하는 방법 Goat Simulator 3에서 스티브 구출 임무를 수행하는 방법 Feb 25, 2024 pm 03:34 PM

Steve 구출은 Goat Simulator 3의 독특한 작업입니다. 이 작업을 완료하려면 정확히 무엇을 해야 할까요? 이 작업은 상대적으로 간단하지만 의미를 오해하지 않도록 주의해야 합니다. 여기서는 Goat Simulator에서 Steve를 구출하도록 안내하겠습니다. 3 작업 전략은 관련 작업을 더 잘 완료하는 데 도움이 될 수 있습니다. 염소 시뮬레이터 3 스티브 구출 미션 전략 1. 먼저 지도 오른쪽 하단에 있는 온천으로 가세요. 2. 온천에 도착하면 스티브 구출 임무를 시작할 수 있습니다. 3. 온천에 남자가 있다는 점에 유의하세요. 그의 이름은 스티브이지만 그는 이 임무의 대상이 아닙니다. 4. 이 온천에서 스티브라는 물고기를 찾아 해변으로 가져와 이 작업을 완료하세요.

Douyin 팬 그룹 작업은 어디에서 찾을 수 있나요? Douyin 팬클럽이 레벨을 잃을까요? Douyin 팬 그룹 작업은 어디에서 찾을 수 있나요? Douyin 팬클럽이 레벨을 잃을까요? Mar 07, 2024 pm 05:25 PM

현재 가장 인기 있는 소셜 미디어 플랫폼 중 하나인 TikTok은 많은 사용자의 참여를 유도하고 있습니다. Douyin에는 사용자가 특정 보상과 혜택을 얻기 위해 완료할 수 있는 팬 그룹 작업이 많이 있습니다. 그렇다면 Douyin 팬클럽 작업은 어디서 찾을 수 있나요? 1. 두인 팬클럽 과제는 어디서 볼 수 있나요? Douyin 팬 그룹 작업을 찾으려면 Douyin의 개인 홈페이지를 방문해야 합니다. 홈페이지에 보시면 '팬클럽'이라는 옵션이 보이실 겁니다. 이 옵션을 클릭하면 자신이 가입한 팬 그룹 및 관련 작업을 찾아볼 수 있습니다. 팬클럽 작업란에서는 좋아요, 댓글, 공유, 전달 등 다양한 종류의 작업을 확인할 수 있습니다. 각 작업에는 해당 보상과 요구 사항이 있습니다. 일반적으로 작업을 완료하면 일정량의 금화나 경험치를 받게 됩니다.

ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. ORB-SLAM3를 넘어! SL-SLAM: 저조도, 심한 흔들림, 약한 텍스처 장면을 모두 처리합니다. May 30, 2024 am 09:35 AM

이전에 작성했던 오늘은 딥 러닝 기술이 복잡한 환경에서 비전 기반 SLAM(동시 위치 파악 및 매핑)의 성능을 향상할 수 있는 방법에 대해 논의합니다. 심층 특징 추출과 깊이 일치 방법을 결합하여 저조도 조건, 동적 조명, 질감이 약한 영역 및 심한 지터와 같은 까다로운 시나리오에서 적응을 향상하도록 설계된 다목적 하이브리드 시각적 SLAM 시스템을 소개합니다. 우리 시스템은 확장 단안, 스테레오, 단안 관성 및 스테레오 관성 구성을 포함한 여러 모드를 지원합니다. 또한 시각적 SLAM을 딥러닝 방법과 결합하여 다른 연구에 영감을 주는 방법도 분석합니다. 공개 데이터 세트 및 자체 샘플링 데이터에 대한 광범위한 실험을 통해 위치 정확도 및 추적 견고성 측면에서 SL-SLAM의 우수성을 입증합니다.

NeRF란 무엇입니까? NeRF 기반 3D 재구성은 복셀 기반인가요? NeRF란 무엇입니까? NeRF 기반 3D 재구성은 복셀 기반인가요? Oct 16, 2023 am 11:33 AM

1 소개 NeRF(Neural Radiation Fields)는 딥 러닝 및 컴퓨터 비전 분야의 상당히 새로운 패러다임입니다. 이 기술은 ECCV2020 논문 "NeRF: Representing Scenes as Neural Radiation Fields for View Synesis"(Best Paper Award 수상)에 소개되었으며 이후 현재까지 거의 800회 인용될 정도로 인기가 높아졌습니다[1]. 이 접근 방식은 기계 학습이 3D 데이터를 처리하는 기존 방식에 큰 변화를 가져옵니다. 신경 방사선장 장면 표현 및 미분 가능한 렌더링 프로세스: 카메라 광선을 따라 5D 좌표(위치 및 시야 방향)를 샘플링하여 이미지를 합성하고 이러한 위치를 MLP에 공급하여 색상 및 체적 밀도를 생성하고 체적 렌더링 기술을 사용하여 이러한 값을 합성합니다. ; 렌더링 함수는 미분 가능하므로 전달될 수 있습니다.

Windows 11에서 작업 관리자 프로세스 업데이트를 중지하고 작업을 더 쉽게 종료하는 방법 Windows 11에서 작업 관리자 프로세스 업데이트를 중지하고 작업을 더 쉽게 종료하는 방법 Aug 20, 2023 am 11:05 AM

Windows 11 및 Windows 10에서 작업 관리자 프로세스 업데이트를 일시 중지하는 방법 CTRL+창 키+Delete를 눌러 작업 관리자를 엽니다. 기본적으로 작업 관리자는 프로세스 창을 엽니다. 여기에서 볼 수 있듯이 모든 앱은 끝없이 돌아다니기 때문에 선택하려고 할 때 아래로 가리키는 것이 어려울 수 있습니다. 따라서 CTRL을 길게 누르면 작업 관리자가 일시 중지됩니다. 여전히 앱을 선택하고 아래로 스크롤할 수도 있지만 항상 CTRL 버튼을 누르고 있어야 합니다.

See all articles