기술 주변기기 일체 포함 CVPR 2024 | Byte는 COCO 세분화된 분할보다 밀도가 높은 차세대 데이터 세트 COCONut을 제안합니다.

CVPR 2024 | Byte는 COCO 세분화된 분할보다 밀도가 높은 차세대 데이터 세트 COCONut을 제안합니다.

Apr 22, 2024 pm 04:20 PM
git 프로젝트 비디오 편집 cvpr2024 coconut

AIxiv 칼럼은 본 사이트에서 학술 및 기술 콘텐츠를 게재하는 칼럼입니다. 지난 몇 년 동안 이 사이트의 AIxiv 칼럼에는 전 세계 주요 대학 및 기업의 최고 연구실을 대상으로 한 2,000개 이상의 보고서가 접수되어 학술 교류 및 보급을 효과적으로 촉진하고 있습니다. 공유하고 싶은 훌륭한 작품이 있다면 자유롭게 기여하거나 보고를 위해 연락주시기 바랍니다. 제출 이메일: liyazhou@jiqizhixin.com; zhaoyunfeng@jiqizhixin.com

인공지능의 발달로 언어 모델과 생성 모델이 많은 성공을 거두었고, 모델을 설계하는 과정에서 모델의 매개변수 수도 늘어나고 있습니다. 세분화된 이해 작업을 위해 모델 매개변수의 수도 증가하고 있습니다. 그러나 기존 데이터 세트에는 규모와 정확성 사이에 모순이 있습니다. 예를 들어 SA-1B 데이터 세트의 마스크 중 99.1%는 기계로 생성되었지만 일부 다른 공개 데이터 세트에도 정확도가 없습니다. 문제가 있으며 이러한 데이터 세트의 크기는 일반적으로 상대적으로 작습니다.

최근 ByteDance는 최신 딥 러닝 모델의 설계 요구에 부응하여 새로운 세대의 세분화된 이해 데이터 세트를 제안했으며, 파노라마 분할을 위해 총 383K 이미지에 수동으로 주석을 달았고 마침내 5.18M에 도달했습니다. Zhang 마스크는 지금까지 COCONut이라는 인공 라벨을 사용한 최대 규모의 파노라마 분할 이해 데이터 세트입니다. 이 결과는 CVPR2024에 선정되었습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

  • 논문 링크: https://arxiv.org/abs/2404.08639
  • 코드 및 데이터 세트 링크: https://xdeng7.github.io/coconut.github.io/

영상은 COCONut의 단일 이미지에 대한 마스크 밀도와 의미 카테고리 통계를 보여줍니다. 데이터 세트의 의미가 풍부하고 마스크 분할 세분성이 좋은 것을 볼 수 있습니다. 또한 이 데이터세트는 파노라마 분할, 인스턴스 분할, 의미론적 분할, 객체 감지, 의미 제어 생성, 개방형 어휘 분할과 같은 다양한 이해 작업을 지원합니다. 여러 작업에서 데이터세트를 교체하는 것만으로도 상당한 성능 향상이 달성됩니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

주석 방법

보통 수동 주석만 사용하는 것은 비용이 많이 들고, 이는 대부분의 기존 공개 데이터 세트의 규모를 늘릴 수 없는 중요한 이유이기도 합니다. 모델에서 생성된 레이블을 직접 사용하는 일부 데이터 세트도 있지만 이러한 생성된 레이블은 모델 학습을 크게 향상시키지 못하는 경우가 많습니다. 이 기사에서도 이를 확인합니다. 따라서 본 논문에서는 수동 반자동 라벨 생성과 결합된 새로운 주석 방법을 제안합니다. 데이터 주석의 정확성을 보장할 뿐만 아니라 수작업 비용을 절감하는 동시에 주석 프로세스를 가속화할 수 있습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

주석 정확도 비교

연구원들은 같은 사진에서 COCONut과 COCO의 주석을 비교했습니다. 아래 그림의 비교에서 본 글에서 제안하는 주석 방법은 포토샵을 이용한 순수 수동 주석과 거의 동일한 정확도를 달성하면서도 주석 속도가 10배 이상 향상되었음을 알 수 있다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

COCONut 데이터세트 상세정보

기존 COCO 데이터세트와 비교하면 데이터세트의 각 카테고리별 분포는 비교적 유사하지만 각 사진에 포함된 마스크의 총량이 COCO보다 많습니다. 특히 100개가 넘는 마스크가 포함된 단일 이미지가 많은 경우 COCONut의 주석이 더 정교해지고 세부적인 분할이 더 조밀해졌음을 알 수 있습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

실험적 검증

연구원들은 더 나은 훈련 세트를 제안하는 것 외에도 기존 검증 세트가 모델 성능 개선을 잘 반영할 수 없다는 사실을 발견했습니다. 모델의 개선을 반영할 수 있는 것은 COCONut-val이라고 합니다. 아래 표에서 볼 수 있듯이, 데이터 세트와 정확도가 높은 트레이닝 세트만 교체하면 4인치 이상에 도달하는 등 모델이 크게 향상될 수 있습니다. 파노라마 분할. 그러나 훈련 세트의 크기가 증가할 경우 기존 테스트 세트로 테스트한 결과 모델의 개선이 반영되지 않은 반면, COCONut-val은 훈련량을 늘려도 모델이 여전히 뚜렷한 개선을 보이고 있음을 반영할 수 있습니다. 데이터를 설정합니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

다음 그림은 검증 세트의 의미 카테고리와 마스크 밀도를 비교한 것입니다. 새로 제안된 검증 세트가 더 까다롭고 모델의 개선 사항을 더 잘 반영할 수 있음을 알 수 있습니다.

CVPR 2024 | 字节提出新一代数据集COCONut,比COCO粒度分割更密集

더 많은 실험 결과를 보려면 원본 논문을 참조하세요. 팀은 GitHub 홈페이지에서 공개 다운로드할 수 있는 데이터 세트와 해당 모델을 제공할 것입니다.

ByteDance 지능형 생성 팀

지능형 생성 팀은 ByteDance AI 및 멀티미디어 기술 팀으로, 컴퓨터 비전, 오디오 및 비디오 편집, 특수 효과 처리 및 기타 기술 분야를 담당합니다. 풍부한 비즈니스 시나리오, 인프라 자원 및 기술 협업 분위기는 최첨단 알고리즘-엔지니어링 시스템-제품의 폐쇄 루프를 실현하여 다양한 분야에서 회사의 다양한 내부 비즈니스에 업계 최고의 콘텐츠 이해, 콘텐츠 생성 및 상호 작용을 제공하는 것을 목표로 합니다. 경험과 소비 능력, 산업 솔루션을 제공합니다.

현재 지능형 창작팀은 ByteDance가 소유한 클라우드 서비스 플랫폼인 Volcano Engine을 통해 기술 역량과 서비스를 기업에 공개했습니다. 대형 모델 알고리즘과 관련된 더 많은 직위가 열려 있습니다.

위 내용은 CVPR 2024 | Byte는 COCO 세분화된 분할보다 밀도가 높은 차세대 데이터 세트 COCONut을 제안합니다.의 상세 내용입니다. 자세한 내용은 PHP 중국어 웹사이트의 기타 관련 기사를 참조하세요!

본 웹사이트의 성명
본 글의 내용은 네티즌들의 자발적인 기여로 작성되었으며, 저작권은 원저작자에게 있습니다. 본 사이트는 이에 상응하는 법적 책임을 지지 않습니다. 표절이나 침해가 의심되는 콘텐츠를 발견한 경우 admin@php.cn으로 문의하세요.

핫 AI 도구

Undresser.AI Undress

Undresser.AI Undress

사실적인 누드 사진을 만들기 위한 AI 기반 앱

AI Clothes Remover

AI Clothes Remover

사진에서 옷을 제거하는 온라인 AI 도구입니다.

Undress AI Tool

Undress AI Tool

무료로 이미지를 벗다

Clothoff.io

Clothoff.io

AI 옷 제거제

AI Hentai Generator

AI Hentai Generator

AI Hentai를 무료로 생성하십시오.

인기 기사

R.E.P.O. 에너지 결정과 그들이하는 일 (노란색 크리스탈)
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 최고의 그래픽 설정
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
R.E.P.O. 아무도들을 수없는 경우 오디오를 수정하는 방법
3 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌
WWE 2K25 : Myrise에서 모든 것을 잠금 해제하는 방법
4 몇 주 전 By 尊渡假赌尊渡假赌尊渡假赌

뜨거운 도구

메모장++7.3.1

메모장++7.3.1

사용하기 쉬운 무료 코드 편집기

SublimeText3 중국어 버전

SublimeText3 중국어 버전

중국어 버전, 사용하기 매우 쉽습니다.

스튜디오 13.0.1 보내기

스튜디오 13.0.1 보내기

강력한 PHP 통합 개발 환경

드림위버 CS6

드림위버 CS6

시각적 웹 개발 도구

SublimeText3 Mac 버전

SublimeText3 Mac 버전

신 수준의 코드 편집 소프트웨어(SublimeText3)

GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? GO에서 플로팅 포인트 번호 작업에 어떤 라이브러리가 사용됩니까? Apr 02, 2025 pm 02:06 PM

Go Language의 부동 소수점 번호 작동에 사용되는 라이브러리는 정확도를 보장하는 방법을 소개합니다.

H5 프로젝트를 실행하는 방법 H5 프로젝트를 실행하는 방법 Apr 06, 2025 pm 12:21 PM

H5 프로젝트를 실행하려면 다음 단계가 필요합니다. Web Server, Node.js, 개발 도구 등과 같은 필요한 도구 설치. 개발 환경 구축, 프로젝트 폴더 작성, 프로젝트 초기화 및 코드 작성. 개발 서버를 시작하고 명령 줄을 사용하여 명령을 실행하십시오. 브라우저에서 프로젝트를 미리보고 개발 서버 URL을 입력하십시오. 프로젝트 게시, 코드 최적화, 프로젝트 배포 및 웹 서버 구성을 설정하십시오.

Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Gitee Pages 정적 웹 사이트 배포 실패 : 단일 파일 문제를 해결하고 해결하는 방법 404 오류? Apr 04, 2025 pm 11:54 PM

GiteEpages 정적 웹 사이트 배포 실패 : 404 오류 문제 해결 및 해결시 Gitee ...

Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Beego ORM의 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? Apr 02, 2025 pm 03:54 PM

Beegoorm 프레임 워크에서 모델과 관련된 데이터베이스를 지정하는 방법은 무엇입니까? 많은 Beego 프로젝트에서는 여러 데이터베이스를 동시에 작동해야합니다. Beego를 사용할 때 ...

GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? GO의 어떤 라이브러리가 대기업에서 개발하거나 잘 알려진 오픈 소스 프로젝트에서 제공합니까? Apr 02, 2025 pm 04:12 PM

GO의 어떤 라이브러리가 대기업이나 잘 알려진 오픈 소스 프로젝트에서 개발 했습니까? GO에 프로그래밍 할 때 개발자는 종종 몇 가지 일반적인 요구를 만납니다.

Redis Stream을 사용하여 GO Language에서 메시지 대기열을 구현할 때 User_ID 유형 변환 문제를 해결하는 방법은 무엇입니까? Redis Stream을 사용하여 GO Language에서 메시지 대기열을 구현할 때 User_ID 유형 변환 문제를 해결하는 방법은 무엇입니까? Apr 02, 2025 pm 04:54 PM

Go Language에서 메시지 대기열을 구현하기 위해 Redisstream을 사용하는 문제는 Go Language와 Redis를 사용하는 것입니다 ...

H5 페이지 생산에는 지속적인 유지 보수가 필요합니까? H5 페이지 생산에는 지속적인 유지 보수가 필요합니까? Apr 05, 2025 pm 11:27 PM

코드 취약점, 브라우저 호환성, 성능 최적화, 보안 업데이트 및 사용자 경험 개선과 같은 요소로 인해 H5 페이지를 지속적으로 유지해야합니다. 효과적인 유지 관리 방법에는 완전한 테스트 시스템 설정, 버전 제어 도구 사용, 페이지 성능을 정기적으로 모니터링하고 사용자 피드백 수집 및 유지 관리 계획을 수립하는 것이 포함됩니다.

sql.open을 사용할 때 DSN이 비어있을 때 오류가 발생하지 않습니까? sql.open을 사용할 때 DSN이 비어있을 때 오류가 발생하지 않습니까? Apr 02, 2025 pm 12:54 PM

sql.open을 사용할 때 DSN에 오류가 발생하지 않는 이유는 무엇입니까? Go Language, SQL.open ...

See all articles