3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해
흔들 의자와 말의 입체적인 모양을 입력하면 무엇을 얻을 수 있나요?
나무 수레와 말? 마차와 전기 말, 바나나와 범선을 구하시나요? 바나나 범선과 달걀을 얻으시겠습니까? 계란 의자를 얻으세요.
UCSD, Shanghai Jiao Tong University 및 Qualcomm 팀의 연구진은 3차원 도형의 열린 세계를 이해할 수 있는 최신 3차원 표현 모델인 OpenShape를 제안했습니다.
- 논문 주소: https://arxiv.org/pdf/2305.10764.pdf
- 프로젝트 홈페이지: https://colin97.github. io/오픈셰이프 /
- 인터랙티브 데모: https://huggingface.co/spaces/OpenShape/openshape-demo
- 코드 주소: https://github.com/ Colin97/OpenShape_code
다중 모드 데이터(포인트 클라우드 - 텍스트 - 이미지)에 대한 3D 포인트 클라우드의 네이티브 인코더를 학습하여 OpenShape는 3D 도형의 표현 공간을 구축하고 CLIP으로 텍스트와 이미지를 통합합니다. 정렬되었습니다. 대규모의 다양한 3D 사전 학습 덕분에 OpenShape는 제로샷 3D 형상 분류, 다중 모드 3D 형상 검색(텍스트/이미지/포인트 클라우드 입력)을 지원하여 처음으로 3D 형상에 대한 개방형 이해를 달성합니다. 3D 포인트 클라우드 자막 이미지 생성, 3D 포인트 클라우드 기반 이미지 생성 등 Cross-modal 작업.
3D 형상 제로샷 분류
OpenShape는 제로샷 3D 형상 분류를 지원합니다. 추가 교육이나 미세 조정 없이 OpenShape는 일반적으로 사용되는 ModelNet40 벤치마크(40개 공통 범주 포함)에서 85.3%의 최고 정확도를 달성하여 기존 제로샷 방법을 24% 포인트 능가하고 완전히 감독되는 일부 방법과 비교할 수 있는 성능을 달성합니다. 처음으로.
ModelNet40에서 OpenShape의 top3 및 top5 정확도는 각각 96.5% 및 98.0%에 도달했습니다.
주로 몇 가지 공통 개체 범주로 제한되는 기존 방법과 달리 OpenShape에서는 광범위한 오픈 월드 범주를 분류할 수 있습니다. Objaverse-LVIS 벤치마크(1156개 개체 범주 포함)에서 OpenShape는 46.8%의 top1 정확도를 달성했으며 이는 기존 제로샷 방법의 최고 정확도인 6.2%를 훨씬 뛰어넘습니다. 이러한 결과는 OpenShape가 열린 세상에서 3D 모양을 효과적으로 인식하는 능력을 가지고 있음을 보여줍니다.
다중 모드 3D 모양 검색
OpenShape의 다중 모드 표현을 사용하면 사용자는 이미지, 텍스트 또는 포인트 클라우드 입력에 대해 3D 모양 검색을 수행할 수 있습니다. 입력 표현과 3D 형상 표현 간의 코사인 유사성을 계산하고 kNN을 찾아 통합 데이터 세트에서 3D 형상 검색을 연구합니다.
이미지 입력에서 3차원 도형 검색
위 이미지는 입력 이미지와 검색된 두 개의 3D 도형을 보여줍니다.
텍스트 입력을 위한 3차원 도형 검색
위 그림은 입력된 텍스트와 검색된 3차원 도형을 보여줍니다. OpenShape는 광범위한 시각적 및 의미적 개념을 학습하여 세분화된 하위 범주(처음 두 줄) 및 속성 제어(색상, 모양, 스타일 및 이들의 조합과 같은 마지막 두 줄)를 가능하게 합니다.
3D 포인트 클라우드 입력에서 3D 형상 검색
위 그림은 입력된 3D 포인트 클라우드와 검색된 2개의 3D 형상을 보여줍니다.
이중 입력을 사용한 3D 모양 검색
위 이미지는 두 개의 3D 모양을 입력으로 사용하고 OpenShape 표현을 사용하여 두 입력에 가장 가까운 동시를 검색합니다. 차원 모양. 검색된 모양은 두 입력 모양의 의미적 요소와 기하학적 요소를 교묘하게 결합합니다.
3D 모양을 기반으로 한 텍스트 및 이미지 생성
OpenShape의 3D 모양 표현은 CLIP의 이미지 및 텍스트 표현 공간과 정렬되므로 다양한 CLIP 기반 파생 모델과 결합하여 다양한 크로스 모달 애플리케이션을 지원할 수 있습니다.
3D 포인트 클라우드용 자막 생성
OpenShape은 기성 이미지 자막 모델(ClipCap)과 결합하여 3D 포인트 클라우드용 자막 생성을 구현합니다.
3D 포인트 클라우드 기반 이미지 생성
기성 텍스트-이미지 확산 모델(Stable unCLIP)과 결합하여 OpenShape는 3D 포인트 클라우드 기반 이미지 생성을 구현합니다. (지원되는 선택적 텍스트 프롬프트).
3D 포인트 클라우드를 기반으로 한 추가 이미지 생성 예제
교육 세부 정보
대조 학습을 기반으로 한 다중 모달 표현 정렬: OpenShape 교육 3D 네이티브 인코더 3D 형상의 표현을 추출하기 위한 입력으로 3D 포인트 클라우드. 이전 작업에 이어 우리는 CLIP의 이미지 및 텍스트 표현 공간에 맞추기 위해 다중 모드 대조 학습을 활용합니다. 이전 작업과 달리 OpenShape은 보다 일반적이고 확장 가능한 관절 표현 공간을 학습하는 것을 목표로 합니다. 연구의 초점은 주로 3D 표현 학습의 규모를 확장하고 해당 문제를 해결하여 개방형 세계에서 3D 형상 이해를 실제로 실현하는 것입니다.
여러 3D 모양 데이터 세트 통합: 훈련 데이터의 규모와 다양성은 대규모 3D 모양 표현을 학습하는 데 중요한 역할을 하기 때문에 이 연구는 현재 가장 큰 공개 3D 모양 데이터 세트 4개를 통합하여 수행되었습니다. 아래 그림에서 볼 수 있듯이 연구된 훈련 데이터에는 876,000개의 훈련 형태가 포함되어 있습니다. 4개의 데이터 세트 중 ShapeNetCore, 3D-FUTURE 및 ABO에는 인간이 검증한 고품질 3D 모양이 포함되어 있지만 제한된 수의 모양과 수십 개의 범주만 다룹니다. Objaverse 데이터세트는 훨씬 더 많은 3D 모양을 포함하고 더 다양한 개체 클래스를 다루는 최근 출시된 3D 데이터세트입니다. 그러나 Objaverse의 모양은 주로 온라인 사용자에 의해 업로드되며 수동으로 확인되지 않습니다. 따라서 품질이 고르지 않고 분포가 극도로 불균형하여 추가 처리가 필요합니다.
텍스트 필터링 및 강화: 연구에 따르면 3D 모양과 2D 이미지 사이에만 대조 학습을 적용하는 것만으로는 대규모 데이터 세트에서 수행하는 경우에도 3D 모양과 텍스트 공간의 정렬을 구동하는 데 충분하지 않은 것으로 나타났습니다. 훈련도 마찬가지다. 연구에 따르면 이는 CLIP의 언어 및 이미지 표현 공간에 내재된 도메인 격차 때문인 것으로 추측됩니다. 따라서 연구에서는 3D 모양을 텍스트와 명시적으로 정렬해야 합니다. 그러나 원본 3D 데이터 세트의 텍스트 주석은 누락, 잘못 또는 거친 단일 콘텐츠와 같은 문제에 직면하는 경우가 많습니다. 이를 위해 본 논문에서는 텍스트 주석의 품질을 향상시키기 위해 텍스트를 필터링하고 강화하는 세 가지 전략, 즉 GPT-4를 사용한 텍스트 필터링, 자막 생성 및 3D 모델의 2D 렌더링 이미지 검색을 제안합니다. 이 연구에서는 원본 데이터 세트에서 잡음이 있는 텍스트를 자동으로 필터링하고 강화하는 세 가지 전략을 제안합니다. ㅋㅋㅋ 오른쪽 상단 부분에는 두 캡션 모델의 이미지 캡션이 표시되고, 오른쪽 하단 부분에는 검색된 이미지와 해당 텍스트가 표시됩니다.
3D 포인트 클라우드 학습에 대한 이전 작업은 주로 ShapeNet과 같은 소규모 3D 데이터 세트를 대상으로 했기 때문에 이러한 백본 네트워크는 대규모 3D 교육에 직접 적용되지 않을 수 있으며 이에 따라 백본 네트워크의 규모가 확장되어야 합니다. 연구에 따르면 다양한 3D 백본 네트워크는 다양한 크기의 데이터 세트를 학습할 때 다양한 동작과 확장성을 나타냅니다. 그 중 Transformer 기반의 PointBERT와 3차원 컨볼루션 기반의 SparseConv가 더욱 강력한 성능과 확장성을 보여 3차원 백본 네트워크로 선정되었습니다.
통합 데이터세트에서 3D 백본 모델의 크기를 확장할 때 다양한 백본 네트워크의 성능과 확장성을 비교합니다.
하드 네거티브 예제 마이닝: 이 연구의 앙상블 데이터 세트는 높은 수준의 클래스 불균형을 나타냅니다. 건축과 같은 일부 일반적인 카테고리는 수만 개의 모양을 차지할 수 있는 반면 바다코끼리, 지갑과 같은 다른 많은 카테고리는 수십 개 또는 그보다 더 적은 수의 모양으로만 표현됩니다. 따라서 대조 학습을 위해 배치가 무작위로 구성되면 쉽게 혼동되는 두 범주(예: 사과와 체리)의 모양이 동일한 배치에 표시되어 대조될 가능성이 없습니다. 이를 위해 본 논문에서는 훈련 효율성과 성과를 향상시키기 위한 오프라인 난해 부정 사례 마이닝 전략을 제안한다. HuggingFace의 대화형 데모에 오신 것을 환영합니다.
위 내용은 3D 포인트 클라우드, 분류, 검색, 자막 및 이미지 생성에 대한 오픈 월드 이해의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

핫 AI 도구

Undresser.AI Undress
사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover
사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool
무료로 이미지를 벗다

Clothoff.io
AI 옷 제거제

AI Hentai Generator
AI Hentai를 무료로 생성하십시오.

인기 기사

뜨거운 도구

메모장++7.3.1
사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전
중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기
강력한 PHP 통합 개발 환경

드림위버 CS6
시각적 웹 개발 도구

SublimeText3 Mac 버전
신 수준의 코드 편집 소프트웨어(SublimeText3)

뜨거운 주제











Debian Systems에서 readDIR 함수는 디렉토리 내용을 읽는 데 사용되지만 반환하는 순서는 사전 정의되지 않습니다. 디렉토리에 파일을 정렬하려면 먼저 모든 파일을 읽은 다음 QSORT 기능을 사용하여 정렬해야합니다. 다음 코드는 데비안 시스템에서 readdir 및 qsort를 사용하여 디렉토리 파일을 정렬하는 방법을 보여줍니다.#포함#포함#포함#포함#포함 // QsortIntCompare (constvoid*a, constVoid*b) {returnStrcmp (*(*)

Debian Systems에서 ReadDir 시스템 호출은 디렉토리 내용을 읽는 데 사용됩니다. 성능이 좋지 않은 경우 다음과 같은 최적화 전략을 시도해보십시오. 디렉토리 파일 수를 단순화하십시오. 대규모 디렉토리를 가능한 한 여러 소규모 디렉토리로 나누어 읽기마다 처리 된 항목 수를 줄입니다. 디렉토리 컨텐츠 캐싱 활성화 : 캐시 메커니즘을 구축하고 정기적으로 캐시를 업데이트하거나 디렉토리 컨텐츠가 변경 될 때 캐시를 업데이트하며 readDir로 자주 호출을 줄입니다. 메모리 캐시 (예 : Memcached 또는 Redis) 또는 로컬 캐시 (예 : 파일 또는 데이터베이스)를 고려할 수 있습니다. 효율적인 데이터 구조 채택 : 디렉토리 트래버스를 직접 구현하는 경우 디렉토리 정보를 저장하고 액세스하기 위해보다 효율적인 데이터 구조 (예 : 선형 검색 대신 해시 테이블)를 선택하십시오.

이 기사에서는 데비안 시스템에서 Apacheweb 서버의 로깅 레벨을 조정하는 방법에 대해 설명합니다. 구성 파일을 수정하면 Apache가 기록한 로그 정보 수준을 제어 할 수 있습니다. 메소드 1 : 구성 파일을 찾으려면 기본 구성 파일을 수정합니다. 구성 파일 : APACHE2.X의 구성 파일은 일반적으로/etc/apache2/디렉토리에 있습니다. 파일 이름은 설치 방법에 따라 apache2.conf 또는 httpd.conf 일 수 있습니다. 구성 파일 편집 : 텍스트 편집기 (예 : Nano)를 사용하여 루트 권한이있는 구성 파일 열기 : sudonano/etc/apache2/apache2.conf

Debian Systems에서 OpenSSL은 암호화, 암호 해독 및 인증서 관리를위한 중요한 라이브러리입니다. MITM (Man-in-the-Middle Attack)을 방지하려면 다음 측정을 수행 할 수 있습니다. HTTPS 사용 : 모든 네트워크 요청이 HTTP 대신 HTTPS 프로토콜을 사용하도록하십시오. HTTPS는 TLS (Transport Layer Security Protocol)를 사용하여 통신 데이터를 암호화하여 전송 중에 데이터가 도난 당하거나 변조되지 않도록합니다. 서버 인증서 확인 : 클라이언트의 서버 인증서를 수동으로 확인하여 신뢰할 수 있는지 확인하십시오. 서버는 대의원 메소드를 통해 수동으로 확인할 수 있습니다.

Debian Mail 서버에 SSL 인증서를 설치하는 단계는 다음과 같습니다. 1. OpenSSL 툴킷을 먼저 설치하십시오. 먼저 OpenSSL 툴킷이 이미 시스템에 설치되어 있는지 확인하십시오. 설치되지 않은 경우 다음 명령을 사용하여 설치할 수 있습니다. 개인 키 및 인증서 요청 생성 다음에 다음, OpenSSL을 사용하여 2048 비트 RSA 개인 키 및 인증서 요청 (CSR)을 생성합니다.

데비안 시스템의 readdir 함수는 디렉토리 컨텐츠를 읽는 데 사용되는 시스템 호출이며 종종 C 프로그래밍에 사용됩니다. 이 기사에서는 ReadDir를 다른 도구와 통합하여 기능을 향상시키는 방법을 설명합니다. 방법 1 : C 언어 프로그램을 파이프 라인과 결합하고 먼저 C 프로그램을 작성하여 readDir 함수를 호출하고 결과를 출력하십시오.#포함#포함#포함#포함#includinTmain (intargc, char*argv []) {dir*dir; structdirent*entry; if (argc! = 2) {

데비안 메일 서버의 방화벽 구성은 서버 보안을 보장하는 데 중요한 단계입니다. 다음은 iptables 및 방화구 사용을 포함하여 일반적으로 사용되는 여러 방화벽 구성 방법입니다. iptables를 사용하여 iptables를 설치하도록 방화벽을 구성하십시오 (아직 설치되지 않은 경우) : sudoapt-getupdatesudoapt-getinstalliptablesview 현재 iptables 규칙 : sudoiptables-l configuration

이 안내서는 데비안 시스템에서 syslog를 사용하는 방법을 배우도록 안내합니다. Syslog는 로깅 시스템 및 응용 프로그램 로그 메시지를위한 Linux 시스템의 핵심 서비스입니다. 관리자가 시스템 활동을 모니터링하고 분석하여 문제를 신속하게 식별하고 해결하는 데 도움이됩니다. 1. syslog에 대한 기본 지식 syslog의 핵심 기능에는 다음이 포함됩니다. 로그 메시지 중앙 수집 및 관리; 다중 로그 출력 형식 및 대상 위치 (예 : 파일 또는 네트워크) 지원; 실시간 로그보기 및 필터링 기능 제공. 2. Syslog 설치 및 구성 (RSYSLOG 사용) Debian 시스템은 기본적으로 RSYSLOG를 사용합니다. 다음 명령으로 설치할 수 있습니다 : sudoaptupdatesud
