수동 주석이 필요하지 않으며 3D 모델이 언어를 이해하고 레이블이 없는 카테고리를 식별할 수 있도록 한 번의 교육만 필요합니다.
3D 모델 분할이 이제 핸즈프리입니다!
홍콩대학교와 ByteDream이 협력하여 새로운 방법을 제시했습니다.
수동 주석이 필요하지 않으며 단 한 번의 교육만으로 3D 모델이 언어를 이해하고 레이블이 없는 카테고리를 식별할 수 있습니다.
예를 들어, 주석이 없는 칠판과 모니터의 예를 보면 이 방법으로 3D 모델을 훈련한 후 분할 대상을 빠르게 "파악"할 수 있습니다.
또 다른 예로 소파, 기침 등 동의어를 입력해서 일을 어렵게 하면 쉽게 당첨될 수 있습니다.
욕실과 같은 추상적인 카테고리도 해결할 수 있습니다.
이 새로운 방법은 PLA(Point-Language Association)라고 불리며, 포인트 클라우드(표적 표면 특성의 대규모 포인트 모음)와 자연어를 결합한 방법입니다.
현재 이 논문은 CVPR 2023에 승인되었습니다.
그렇지만 수동 라벨링이 필요하지 않고 단 한 번의 훈련만 수행되며 동의어 추상 분류도 인식할 수 있습니다... 이것은 여러 버프의 중첩입니다.
일반적인 방법으로 사용하는 3D 데이터와 자연어는 인터넷에서 직접 무료로 얻을 수 없고, 값비싼 수동 주석이 필요한 경우가 많고, 일반적인 방법으로는 단어 간의 의미적 연결을 기반으로 새로운 범주를 식별할 수 없다는 점을 알아야 합니다.
그럼 PLA는 어떻게 하는 걸까요? 살펴보겠습니다~
사실, 직설적으로 말하면 3D 모델 분할을 성공적으로 구현하기 위해서는 가장 중요한 단계는 3D 데이터가 자연어를 이해하도록 만드는 것입니다.
전문적으로 말하면 3D 포인트 클라우드에 자연어 설명을 도입하는 것입니다.
어떻게 소개하나요?
현재 2D 이미지를 분할하는 데 비교적 성공적인 방법이 있다는 점을 고려하여 연구팀은 2D 이미지부터 시작하기로 결정했습니다.
먼저 3D 포인트 클라우드를 해당 2D 이미지로 변환한 후 2D 멀티모달 대형 모델의 입력으로 사용하고, 여기에서 이미지의 언어 설명을 추출합니다.
다음으로, 이미지와 포인트 클라우드 간의 투영 관계를 이용하면 이미지의 언어 설명이 자연스럽게 3D 포인트 클라우드 데이터와 연관될 수 있습니다.
그리고 PLA는 다양한 입도의 3D 객체와 호환되기 위해 다중 입도 3D 포인트 클라우드-자연어 상관 방법도 제안합니다.
전체 3D 장면에 대해 PLA는 해당 장면에 해당하는 모든 이미지에서 추출한 언어 설명을 요약하고, 이 요약된 언어를 사용하여 전체 3D 장면을 연관시킵니다.
각 이미지 뷰에 해당하는 부분 3D 장면의 경우 PLA는 해당 이미지를 브리지로 직접 사용하여 해당 3D 포인트 클라우드와 언어를 연결합니다.
보다 세밀한 3D 개체를 위해 PLA는 보다 세밀한 3D 언어 관련 방법을 제공합니다.
이러한 방식으로 연구팀은 수동 주석 문제를 직접적으로 해결하는 자연어인 3D 포인트 클라우드 쌍을 얻을 수 있습니다.
PLA는 획득된 "3D 포인트 클라우드-자연어" 쌍과 기존 데이터 세트 감독을 사용하여 3D 모델이 감지 및 분할 문제 정의를 이해할 수 있도록 합니다.
구체적으로는 특징 공간에서 각 쌍의 3D 포인트 클라우드와 자연어 사이의 거리를 줄이고 불일치하는 3D 포인트 클라우드와 자연어 설명을 밀어내기 위해 대조 학습을 사용합니다.
많은 원칙에 대해 이야기했는데 PLA는 특정 분할 작업에서 어떻게 수행됩니까?
연구원들은 주요 측정 기준으로 레이블이 지정되지 않은 카테고리에서 3D 오픈 월드 모델의 성능을 테스트했습니다.
첫째, ScanNet 및 S3DIS의 의미론적 분할 작업에서 PLA는 이전 기준 방법을 35%~65% 초과했습니다.
인스턴스 분할 작업에서도 PLA가 이전 방법에 비해 15%~50% 향상되었습니다.
이 프로젝트의 연구팀은 홍콩대학교 CVMI Lab과 ByteDance에서 왔습니다.
CVMI 연구소는 홍콩대학교 인공지능 연구실로 2020년 2월 1일에 설립되었습니다.
연구 범위는 컴퓨터 비전 및 패턴 인식, 머신 러닝/딥 러닝, 이미지/영상 콘텐츠 분석, 머신 인텔리전스 기반의 산업 빅데이터 분석을 포함합니다.
이론 주소:https://arxiv.org/pdf/2211.16312.pdf
프로젝트 소유자:https://github.com/CVMI-Lab/PLA
위 내용은 3D 모델 분할의 새로운 방법으로 손이 자유로워집니다! 수동 라벨링이 필요하지 않고 한 번의 교육만 필요하며 라벨이 지정되지 않은 카테고리도 인식 가능 |의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!