CVPR 2024 시상식 전체가 발표되었습니다! 약 10,000명이 오프라인으로 컨퍼런스에 참석했으며 Google의 중국인 연구원이 최우수 논문상을 수상했습니다.-일체 포함-php.cn

베이징 시간으로 6월 20일 이른 아침, 시애틀에서 열린 최고의 국제 컴퓨터 비전 컨퍼런스인 CVPR 2024가 최우수 논문 및 기타 수상작을 공식 발표했습니다.

올해 최우수 논문 2개, 최우수 학생 논문 2개, 최우수 논문 후보 2개, 우수 학생 논문 후보 4개 등 총 10개의 논문이 상을 받았습니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

컴퓨터 비전(CV) 분야 최고의 컨퍼런스는 CVPR로, 매년 수많은 연구 기관과 대학이 참여하고 있습니다. 통계에 따르면 올해 총 1만1532편의 논문이 제출돼 2719편이 채택돼 합격률 23.6%를 기록했다.

Georgia Institute of Technology의 CVPR 2024 데이터 통계 분석에 따르면 연구 주제 관점에서 가장 많은 논문이 이미지 및 비디오 합성 및 생성(이미지 및 비디오 합성 및 생성) 주제이며, 총 329개의 논문.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

올해 전체 참가자 수는 예년보다 많았고, 오프라인 참여를 선택하는 사람들도 점점 더 많아졌습니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

우수 논문

논문 1: 생성 이미지 역학
저자: Zhengqi Li, Richard Tucker, Noah Snavely, Aleksander Holynski
기관: Google Research
논문 주소 : https://arxiv.org/pdf/2309.07906

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Zhengqi Li는 Google DeepMind의 연구 과학자입니다. 이전에는 코넬 대학교에서 컴퓨터 과학 박사 학위를 취득했으며 그곳에서 Noah Snavely 교수 밑에서 공부했습니다. 그의 연구는 2020 Google PhD Fellowship, 2020 Adobe Research Fellowship, CVPR 2019 및 CVPR 2023 Best Paper Honors, ICCV 2023 Best Student Paper Award 등 여러 상을 받았습니다.

Abstract: 이 연구는 장면 모션 모델링을 위한 이미지 공간 사전 방법을 제안합니다. 사전은 바람에 흔들리는 나무, 옷 등과 같은 물체의 자연스러운 진동 역학을 묘사하는 실제 비디오 시퀀스에서 추출된 모션 궤적 모음에서 학습됩니다. 이 연구는 푸리에 영역의 조밀한 장기 운동을 스펙트럼 볼륨으로 모델화했는데, 팀은 이것이 확산 모델을 사용한 예측에 매우 적합하다는 것을 발견했습니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

단일 이미지가 주어지면 이 연구에서 훈련된 모델은 주파수 조정 확산 샘플링 프로세스를 사용하여 스펙트럼 볼륨을 예측하며, 이는 전체 비디오에 걸쳐 있는 모션 텍스처로 변환될 수도 있습니다.运动 본 연구에서는 모션 텍스처의 진폭을 조정하여 애니메이션 모션을 줄이거나(위) 확대(아래)할 수 있습니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

이미지 기반 렌더링 모듈과 함께 예측 모션 표현은 스틸 이미지를 원활한 반복 비디오로 전환하거나 사용자가 실제 이미지의 개체와 상호 작용하여 사실적인 시뮬레이션 역학을 생성하는 등 다양한 다운스트림 애플리케이션에서 사용할 수 있습니다. .

문서 2: 텍스트-이미지 생성을 위한 풍부한 인간 피드백

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

저자: Youwei Liang, Junfeng He, Gang Li, Peizhao Li, Arseniy Klimovskiy 등

기관: 대학 of California, San Diego Branch 캠퍼스, Google Research, University of Southern California, University of Cambridge, Brandeis University
논문 주소: https://arxiv.org/pdf/2312.10240
저자 논문 칼럼을 보면 이번 연구에 많은 중국인이 참여한 것을 알 수 있다. 그 중 Youwei Liang은 그 전에는 캘리포니아대학교 샌디에고 캠퍼스 전기컴퓨터공학과 박사과정 학생이었다. 남중국농업대학교에서 정보 및 컴퓨터 과학을 전공하는 학부생 Junfeng 그는 이전에 Tsinghua University에서 석사 학위를 취득했습니다.

Abstract: 최근 T2I(텍스트-이미지) 생성 모델이 크게 발전하여 텍스트 설명에서 고해상도 이미지를 생성할 수 있습니다. 그러나 생성된 많은 이미지는 여전히 아티팩트/신뢰할 수 없으며 사실적 불일치, 열악한 미적 측면으로 인해 어려움을 겪고 있습니다.

대규모 언어 모델에 대한 인간 피드백 강화 학습(RLHF)의 성공적인 사용에서 영감을 받아 이 연구는 다음을 통해 피드백 신호를 강화합니다.
- 신뢰할 수 없거나 잘못 정렬된 이미지 영역을 텍스트로 표시
- 텍스트 프롬프트의 단어가 이미지에서 왜곡되거나 누락되었습니다.
이 연구에서는 18K 생성 이미지 데이터 세트 RichHF-18K를 만들고 RichHF-18K에 대한 풍부한 인간 피드백을 수집하고 피드백을 자동으로 예측하도록 다중 모드 변환기를 교육했습니다. 이 연구는 고품질 훈련 데이터를 선택하여 생성 모델을 미세 조정하고 개선하거나 마스크를 만들어 문제가 있는 이미지 영역을 복구하는 등 예측된 인간 피드백을 사용하여 이미지 생성을 개선할 수 있음을 보여줍니다.

최고의 논문 준우승
- 논문 1: EventPS: 이벤트 카메라를 사용한 실시간 측광 스테레오
- 저자: Bohan Yu, Jieji Ren, Jin Han, Feishi Wang, Jinxiu Liang , Boxin Shi
- 기관: Peking University, Shanghai Jiao Tong University 등
- 논문 주소: https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper. pdf
- 문서 2: pixelSplat: 확장 가능한 일반화 3D 재구성을 위한 이미지 쌍의 3D 가우스 스플랫
- 저자: David Charatan, Sizhe Lester Li, Andrea Tagliasacchi, Vincent Sitzmann
- 기관 : MIT, 사이먼 프레이저 University, Toronto University
- 논문 주소: https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalised_CVPR_2024_paper.pdf
우수 학생 논문
- 논문 1: BioCLIP : 생명나무
- 저자: Samuel Stevens , Jiaman Wu , Matthew J Thompson , Elizabeth G Campolongo , Chan Hee Song , David Edward Carlyn , Li Dong , Wasila M Dahdul , Charles Stewart , Tanya Berger -Wolf , Wei-Lun Chao, Yu Su
- 기관: Ohio State University, Microsoft Research, University of California, Irvine, Rensselaer Polytechnic Institute
- 논문 주소: https://arxiv.org/pdf/2311.18803
Abstract: 드론부터 개인 휴대폰에 이르기까지 다양한 카메라로 수집한 자연 세계의 이미지는 점점 더 풍부한 생물학적 정보 소스가 되고 있습니다. 과학 및 보존 이미지에서 생물학적으로 관련된 정보를 추출하기 위한 계산 방법과 도구, 특히 컴퓨터 비전이 폭발적으로 증가하고 있습니다. 그러나 대부분은 특정 작업을 위해 설계된 맞춤형 방법이며 새로운 문제, 상황 및 데이터 세트에 쉽게 적용되거나 확장되지 않습니다. 연구자들은 이미지에서 유기체의 일반적인 생물학적 문제에 대한 시각적 모델이 시급히 필요합니다.

이 목표를 달성하기 위해 연구에서는 가장 크고 다양한 ML 지원 생물학적 이미지 데이터 세트인 TREEOFLIFE-10M을 선별하여 출시했습니다. 이를 바탕으로 연구진은 TREEOFLIFE-10M이 포착한 생물학의 고유한 속성, 즉 식물의 풍부함과 다양성을 이용하여 생명나무(생명의 나무)를 구축하는데 주로 사용되는 기본 모델인 BIOCLIP을 개발했다. 동물과 곰팡이 이미지, 구조화된 생물학에 대한 풍부한 지식을 갖추고 있습니다. TREEOFLIFE-10M의 108개 게이트 트리 다이어그램입니다.

연구원들은 다양한 세분화된 생물학적 분류 작업에 대한 우리의 방법을 엄격하게 벤치마킹한 결과 BIOCLIP이 기존 기준보다 지속적으로 훨씬 더 나은 성능을 발휘한다는 것을 발견했습니다(절대값이 16%~17% 더 높음).
내재적 평가에 따르면 BIOCLIP은 생명나무와 일치하는 계층적 표현을 학습하여 강력한 일반성을 드러냈습니다.
논문 2: Mip-Splatting: Alias-free 3D Gaussian Splatting

논문 작성자: Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger
기관: 튀빙겐 대학교, 튀빙겐 인공 지능 센터, 상하이 과학 기술 대학교, 브라이트닝, 프라하 체코 기술 대학교
문서 주소: https://arxiv.org/abs/2311.16493

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Abstract: 최근 3D 가우스 스플래터링 기술은 새로운 뷰 합성에서 인상적인 결과를 보여 높은 충실도와 효율성 수준에 도달했습니다. 그러나 샘플링 속도를 변경하면(예: 초점 거리 또는 카메라 거리 변경) 강한 아티팩트가 나타날 수 있습니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

^{3D 가우스 스플래터는 그림 (a)와 같이 3D 개체를 이미지 평면에 투영된 3D 가우스 함수로 표현한 다음 화면 공간에서 2D 팽창을 수행하는 방식으로 작동합니다. 이 방법의 고유한 수축 편향으로 인해 축퇴된 3D 가우스 함수가 그림 (b)의 δ 함수에 표시된 것처럼 샘플링 한계를 초과하는 반면 팽창 작업으로 인해 2D와 유사하게 렌더링됩니다. 그러나 샘플링 속도(초점 거리 또는 카메라 거리를 통해)를 변경하면 강한 팽창 효과(c)와 고주파 아티팩트(d)가 관찰됩니다.}

연구팀은 이러한 현상의 원인이 3차원 주파수 제약이 부족하고 2차원 확장 필터를 사용했기 때문일 수 있음을 발견했습니다. 이 문제를 해결하기 위해 그들은 입력 뷰에서 유도된 최대 샘플링 주파수에 따라 3D 가우시안 프리미티브의 크기를 제한하여 확대 시 고주파 아티팩트를 제거하는 3D 스무딩 필터를 도입했습니다.

또한 저자 팀은 2D 박스 필터를 시뮬레이션하고 앨리어싱 및 확장 문제를 효과적으로 완화하는 2D 확장 필터를 2D Mip 필터로 교체했습니다. 연구진은 단일 규모 이미지 훈련, 다중 규모 테스트 등의 시나리오를 포함한 평가를 바탕으로 이 방법의 효율성을 검증했습니다. 최고의 학생 용지에 대한 런너 업 : SpiderMatch : 3D 모양은 글로벌 최적 성과 기하학적 일관성과 일치합니다.

링크 : https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf

종이: 이미지 처리 GNN: 초해상도의 강성 깨기
저자: Yuchuan Tian, Hanting Chen, Chao Xu, Yunhe Wang
기관: Peking University, Huawei Noah's Ark Laboratory

링크: https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution_CVPR_ 2024_페이퍼. pdf

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

종이: 부피로서의 객체: 불투명 고체의 확률론적 기하학 보기
저자: Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas
기관: 카네기 멜론 대학교

링크: https://arxiv.org/pdf/2312.15406v2

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

논문: 설명 방법을 통해 변환기와 CNN의 의사결정 메커니즘 비교
저자: Mingqi , Saeed Khorram, Li Fuxin
기관: Oregon State University

링크: https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Explanation_CVPR_202 4_종이 .pdf

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

이 컨퍼런스에서는 Longuet-Higgins Award, Young Investigator Award, Thomas S. Huang Memorial Award를 포함한 PAMI TC 상도 발표되었습니다.
Longuet-Higgins Award

올해 수상 논문은 "정확한 개체 감지 및 의미론적 분할을 위한 풍부한 기능 계층 구조"입니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

저자: Ross Girshick, Jeff Donahue, Trevor Darrell 및 Jitendra Malik
기관: UC Berkeley
논문 링크: https://arxiv.org/abs/1311.2524

젊은 연구원 상

젊은 연구원 상은 젊은 과학자들을 표창하고 그들이 계속해서 획기적인 연구를 하도록 격려하는 것을 목표로 합니다. 선정기준은 박사학위 취득 경력이 7년 미만이어야 합니다.

올해의 우승자는 Angjoo Kanazawa(UC Berkeley)와 Carl Vondrick(Columbia University)입니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

또한, Caltech의 Katie Bouman 씨가 Young Investigator Award에서 Honorable Mention을 받았습니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖

Thomas Huang Memorial Award

CVPR 2020에서 Thomas S. Huang(Huang Xutao) 교수를 기리기 위해 PAMITC Awards 위원회는 CV 연구를 인정하여 Thomas S. Huang Memorial Award 제정을 승인했습니다. , 교육 및 서비스 연구자로서 롤모델로 인정받고 있습니다. 이 상은 2021년부터 수여될 예정이다. 수혜자는 최소 7년 동안 박사 학위를 취득해야 하며, 가급적 경력 중간 단계(25년 이하)를 유지해야 합니다.

올해의 우승자는 옥스퍼드 대학교의 Andrea Vedaldi 교수입니다.

CVPR 2024全部奖项公布！近万人线下参会，谷歌华人研究员获最佳论文奖