본 글은 AI 뉴미디어 큐빗(공개 계정 ID: QbitAI)의 승인을 받아 재인쇄되었습니다.
이제 AI 서클에서 손의 속도로 경쟁할 차례입니다.
아니요, 메타의 SAM이 출시된 지 며칠 안 됐는데, 국내 프로그래머들이 버프를 겹쳐서 표적 탐지, 세분화, 주요 시각 AI 기능 생성 등을 하나로 통합했습니다!
예를 들어 Stable Diffusion과 SAM을 기반으로 사진 속 의자를 소파로 완벽하게 교체할 수 있습니다.
옷과 머리 색깔을 바꾸는 것도 너무 쉽습니다.
프로젝트가 시작되자마자 출시되자 많은 사람들이 "핸드스피드가 너무 빠르다"고 감탄했습니다.
누군가가 말했습니다: 나와 아라가키 유이의 새로운 웨딩 사진이 있습니다.
위는 Gounded-SAM이 가져온 효과입니다. 이 프로젝트는 GitHub에서 1.8,000개의 별을 받았습니다.
간단히 말하면 이미지만 입력하면 이미지를 자동으로 감지하고 분할하는 제로샷 비전 애플리케이션입니다.
이 연구는 Shen Xiangyang이 창립자이자 회장인 IDEA 연구소(광동-홍콩-마카오 Greater Bay Area 디지털 경제 연구소)에서 나온 것입니다.
Grounded SAM은 주로 Grounding DINO와 SAM의 두 가지 모델로 구성됩니다.
그 중 SAM(Segment Anything)은 Meta에서 4일 전에 출시한 Zero-sample Segmentation 모델입니다.
훈련 과정에서 나타나지 않은 객체와 이미지를 포함하여 이미지/비디오의 모든 객체에 대한 마스크를 생성할 수 있습니다.
SAM이 모든 프롬프트에 대해 유효한 마스크를 반환하도록 함으로써 모델은 프롬프트가 모호하거나 여러 객체를 가리키는 경우에도 모든 가능성 중에서 합리적인 마스크를 출력할 수 있습니다. 이 작업은 모델을 사전 훈련하고 힌트를 통해 일반적인 다운스트림 분할 작업을 해결하는 데 사용됩니다.
모델 프레임워크는 주로 이미지 인코더, 힌트 인코더 및 빠른 마스크 디코더로 구성됩니다. 이미지 임베딩을 계산한 후 SAM은 50밀리초 이내에 웹의 모든 프롬프트를 기반으로 분할을 생성할 수 있습니다.
Grounding DINO는 이 연구팀의 기존 성과입니다.
이것은 제로샷 감지 모델으로, 텍스트 설명이 포함된 개체 상자와 라벨을 생성할 수 있습니다.
두 가지를 결합한 후에는 텍스트 설명을 통해 사진 속 개체를 찾을 수 있으며, SAM의 강력한 분할 기능을 사용하여 마스크를 세밀하게 분할할 수 있습니다.
이러한 기능 외에도. , 그들은 또한 처음에 표시된 제어 가능한 이미지 생성인 Stable Diffusion 능력을 중첩합니다.
Stable Diffusion이 이전에도 유사한 기능을 달성할 수 있었다는 점은 언급할 가치가 있습니다. 교체하려는 이미지 요소를 지우고 텍스트 프롬프트를 입력하기만 하면 됩니다.
이번 Grounded SAM에서는 수동 선택 단계를 저장하고 텍스트 설명을 통해 직접 제어할 수 있습니다.
또한 BLIP(Bootstrapping Language-Image Pre-training)과 결합하여 이미지 제목을 생성하고 레이블을 추출한 후 개체 상자와 마스크를 생성합니다.
현재 더 흥미로운 기능이 개발 중입니다.
예를 들어 캐릭터의 일부 확장: 옷 갈아입기, 머리 색깔, 피부색 등.
구체적인 소비 방법도 GitHub에 올려두었습니다. 프로젝트에는 Python 3.8 이상, pytorch 1.7 이상, torchvision 0.8 이상이 필요하며 관련 종속성이 설치되어야 합니다. 구체적인 내용은 GitHub 프로젝트 페이지를 참조하세요.
연구팀은 IDEA 연구소(광동-홍콩-마카오 Greater Bay Area 디지털 경제 연구소) 출신입니다.
공개 정보에 따르면 연구소는 인공 지능, 디지털 경제 산업 및 첨단 기술을 위한 국제 혁신 연구 기관입니다. 전 Microsoft Asia Research Institute의 수석 과학자이자 전 Microsoft Global Intelligence의 부사장 Dr. Shen Xiangyang 창립자이자 회장직을 맡고 있습니다.
Grounded SAM의 향후 작업을 위해 팀은 여러 가지 전망을 가지고 있습니다.
이 프로젝트의 팀원 중 상당수가 Zhihu의 AI 분야에서 적극적으로 응답하고 있다는 점을 언급할 가치가 있습니다. 이번에는 Zhihu의 Grounded SAM에 대한 질문에도 답변해 주셨습니다.
위 내용은 통합된 시각적 AI 기능! 중국 팀이 제작한 자동 이미지 감지 및 분할, 제어 가능한 Vincentian 이미지의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!