CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎
北京時間 6 月 20 日凌晨,在西雅圖舉辦的國際電腦視覺頂會 CVPR 2024 正式公佈了最佳論文等獎項。
今年共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,另外還有2篇最佳論文提名和4篇最佳學生論文提名。
電腦視覺(CV)領域的頂級會議是CVPR,每年都會吸引大量研究機構和高校參會。根據統計,今年共提交了11532份論文,2719篇被接收,錄取率為23.6%。
根據喬治亞理工學院對CVPR 2024的數據統計分析,從研究主題來看,論文數量最多的是圖像和視頻合成與生成(Image and video synthesis and generation)主題,共329篇。
今年的與會者總數高於往年,且越來越多的人選擇了線下參會。
最佳論文
論文1:Generative Image Dynamics
作者:Zhengqi Liams、Richard Tkqi Li
論文地址:https://arxiv.org/pdf/2309.07906
:該研究提出了一種對場景運動建模圖像 - 空間先驗的方法。先驗是從集合中學到的從真實影片序列中提取的運動軌跡,描繪了物體的自然振盪動力學,例如樹木、衣服等物體在風中搖曳。研究建模傅立葉域中密集的長期運動作為頻譜體積(spectral volume),研究團隊發現這非常適合用擴散模型預測。
給定單一影像,該研究訓練的模型使用頻率協調擴散取樣過程來預測頻譜體積,也可以轉換為跨越整個影片的運動紋理(motion texture)。
下對中上(上調整時的紋理時光的感覺(頂部)或放大倍率(底部運動幅度。
與基於圖像的渲染模組一起,預測的運動表徵可用於許多下游應用,例如將靜止圖像變成無縫循環視頻,或者允許用戶與真實圖像中的對象進行交互,產生逼真的模擬動態。
論文2:Rich Human Feedback for Text-to-Image Generation
作者:Youwei Liang、Junfeng He、Gang Li、Pemihao Liangyi分校、Google研究院、南加州大學、劍橋大學、布蘭迪斯大學
論文地址:https://arxiv.org/pdf/2312.10240
- 欄我們可以從論文作者一欄看到,這項研究有多位華人參與,其中Youwei Liang 是加州大學聖迭戈分校電子與電腦工程系的博士生,在此之前,他是華南農業大學資訊與電腦科學專業的本科生;Junfeng He 來自谷歌,此前他碩士畢業於清華大學。
摘要:最近,文字到圖像(T2I)生成模型取得重大進展,能夠根據文字描述產生高解析度圖像。然而,許多生成的圖像仍然存在偽影 / 不可信、與事實不符、美觀低等問題。
受人類回饋強化學習(RLHF)成功用於大型語言模型的啟發,該研究透過以下方式來豐富回饋訊號:
用文字標記不可信或不對齊的圖像區域;
- 對文字prompt 中的單字在圖像上被扭曲或缺失的情況,進行註釋。
該研究創建了 18K 生成圖像資料集 RichHF-18K,並在 RichHF-18K 上收集了豐富的人類回饋,並訓練多模態 transformer 自主預測回饋。該研究證明預測的人類回饋可用於改進影像生成,例如透過選擇高品質的訓練資料微調和改進生成模型,或透過創建遮罩來修復有問題的影像區域。最佳論文亞軍
- 論文1:EventPS: Real-Time Photometric Stereo Using an as Camera
. Boxin Shi
機構:北京大學、上海交通大學等
論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-_Photometricsing_Stereo_Photometric05_pdf
- 論文2:pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction
- 作者:David Charatan 、 Sizhe Lester Li 、 Andrea Tagliasacchi 、M大學
- 論文地址:https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Geneizn_Scalable_Geneiz.pdf
- 最佳學生論文
- 論文1:BioCLIP: A Vision Foundation Model for the Tree of Life
作者:Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、 Elizabeth G Campolongo 、 Chan Hee Song 、 David Edward Carlyn 、 Li Dong 、 Wasila M Dahdul 、 Charles Stewart 、 Tanya Berger-Wolf , Wei-Lun Chao 、 Yu Su機構:俄亥俄州立大學、微軟研究院、加州大學歐文分校、倫斯勒理工學院
- 論文地址:https://arxiv.org/pdf/2311.18803
- 摘要
- :從無人機到個人手機,各種相機收集的自然世界影像日益成為生物資訊的豐富來源。計算方法和工具的爆炸式增長,特別是電腦視覺,用於從科學和保護圖像中提取生物學相關資訊。然而,其中大多數都是為特定任務設計的客製化方法,不容易適應或擴展到新的問題、上下文和資料集。研究者急需一個用於影像上一般生物體生物學問題的視覺模型。 為了實現這一目標,該研究策劃並發布了 TREEOFLIFE-10M,這是規模最大、最多樣化的生物圖像資料集 ML-ready。基於此,研究者開發了基礎模型BIOCLIP,主要用於建構生命之樹(tree of life),利用TREEOFLIFE-10M 捕捉到的生物學獨特屬性,即植物、動物和真菌圖像的豐富性和多樣性,以及豐富的結構化生物學知識。
TREEOFLIFE-10M 閘中 108 門的樹狀圖。
研究者在各種細粒度生物學分類任務上對本文方法進行了嚴格的基準測試,發現 BIOCLIP 的表現始終顯著優於現有基線(絕對值高出 16% 到 17%)。
內在評估表明,BIOCLIP 已經學會了符合生命之樹的分層表示,這揭示了其強大的通用性。
論文 2:Mip-Splatting:Alias-free 3D Gaussian Splatting
論文作者:Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Gegler, Andreas 機構:圖賓根大學、圖賓根人工智慧中心、上海科技大學、布賴特寧、布拉格捷克技術大學
論文地址:https://arxiv.org/abs/2311.16493
摘要:最近,3D 高斯潑濺技術在新穎視圖合成方面展示了令人印象深刻的成果,達到了高保真度和效率水平。然而,當改變取樣率時(例如透過改變焦距或攝影機距離),強烈的偽影現象可能會出現。
3D 高斯潑濺透過將 3D 物件表示為投影到影像平面上的 3D 高斯函數,隨後在螢幕空間中進行 2D 膨脹處理,如圖 (a) 所示。此方法的內在收縮偏差導致退化的 3D 高斯函數超出取樣限制,如圖 (b) 中的 δ 函數所示,而由於膨脹操作,其渲染效果類似於 2D。然而,當改變取樣率(透過焦距或相機距離)時,會觀察到強烈的膨脹效應(c)和高頻偽影(d)。
該研究團隊發現這種現象的原因可以歸因於缺乏 3D 頻率約束以及使用了 2D dilation filter。為了解決這個問題,他們引入了 3D smoothing filter,該濾波器根據輸入視圖引起的最大取樣頻率來約束 3D Gaussian primitives 的大小,從而在放大時消除高頻偽影。
此外,作者團隊用 2D Mip filter 取代 2D dilation filter,這種濾波器模擬了 2D box filter,有效地緩解了走樣和膨脹問題。研究者根據評估,包括在單尺度影像上訓練和多尺度測試等場景,驗證了這種方法的有效性。
最佳學生論文亞軍
論文:SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency
- 鏈接:https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf s : Breaking Rigidity in Super-Resolution
- 作者:Yuchuan Tian, Hanting Chen, Chao Xu, 約希.pdf
-
S
機構:卡內基美隆大學 - 連結:https://arxiv.org/pdf/2312.15406v2
- 論文:Comparing the Decision-Makingchand and via
- 機構:俄勒岡州立大學
- 連結:https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_CV0ing_thecvf.com/content/CVPR2024/papers/Jiang_CVs_thes_DeCompsion_Sviaconfer_Fes_cxes_i_alc_cx_Loma_Falom _paper.pdf
- 其他獎項
- 大會也公佈了PAMI TC 獎,包括Longuet-Higgins 獎、青年研究者獎、Thomas S. Huang 紀念獎三項。
- Longuet-Higgins 獎
- Longuet-Higgins 獎是IEEE 計算機協會模式分析與機器智能(PAMI)技術委員會在每年的CVPR 頒發的“計算機基礎貢獻獎”,表彰十年前對視覺基礎貢獻計算機視覺研究產生了重大影響的CVPR 論文。該獎項以理論化學家和認知科學家 H. Christopher Longuet-Higgins 命名。
作者:Ross Girshick, Jeff Donahue, Trevor Darrell and Jitendra Malik
-
機構:UC 柏克萊
/紙 - 1512531251353253253 月。 青年研究者獎
今年獲獎的論文是《Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation》。
青年研究者獎(Young Researcher Awards)旨在表彰年輕的科學家,鼓勵他們繼續做出開創性的工作。評選標準是獲獎者獲得博士學位的年資少於 7 年。
今年獲獎者為 Angjoo Kanazawa(UC 柏克萊)和 Carl Vondrick(哥倫比亞大學)。另外,Katie Bouman(加州理工學院)獲得了青年研究者獎榮譽提名。
Thomas Huang 紀念獎
在CVPR 2020 上,為了紀念Thomas S. Huang(黃煦濤)教授,PAMITC 獎勵委員會批准設立Thomas S. Huang 紀念獎,以表彰教育和在 Huang CV方面被公認為楷模的研究人員。該獎項從 2021 年開始頒發。獲獎者需要拿到博士學位至少 7 年,最好處於職涯發展中期(不超過 25 年)。
今年的得獎者是牛津大學教授 Andrea Vedaldi。更多資訊可參考:https://media.eventhosts.cc/Conferences/CVPR2024/OpeningRemarkSlides.pdf
/views/CVPR2024/CVPRtrends?%3AshowVizHome=no&continueFlag=6a947f6367e90acd982f7ee49a495fe2
以上是CVPR 2024全部獎項公佈!近萬人線下參會,Google華人研究員獲最佳論文獎的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

Diffusion不僅可以更好地模仿,而且可以進行「創作」。擴散模型(DiffusionModel)是一種影像生成模型。與先前AI領域大名鼎鼎的GAN、VAE等演算法,擴散模型另闢蹊徑,其主要想法是先對影像增加噪聲,再逐步去噪的過程。其中如何去噪還原原影像是演算法的核心部分。最終演算法能夠從一張隨機的雜訊影像中產生影像。近年來,生成式AI的驚人成長將文字轉換為圖像生成、視訊生成等領域的許多令人興奮的應用提供了支援。這些生成工具背後的基本原理是擴散的概念,這是一種特殊的取樣機制,克服了先前的方法中被

Kimi:一句話,十幾秒鐘,一份PPT就新鮮出爐了。 PPT這玩意兒,可太招人煩了!開個碰頭會,要有PPT;寫個週報,要做PPT;拉個投資,要展示PPT;就連控訴出軌,都得發個PPT。大學比較像是學了個PPT專業,上課看PPT,下課做PPT。或許,37年前丹尼斯・奧斯汀發明PPT時也沒想到,有一天PPT竟然如此氾濫成災。嗎嘍們做PPT的苦逼經歷,說起來都是淚。 「一份二十多頁的PPT花了三個月,改了幾十遍,看到PPT都想吐」;「最巔峰的時候,一天做了五個PPT,連呼吸都是PPT」;「臨時開個會,都要做個

北京時間6月20日凌晨,在西雅圖舉辦的國際電腦視覺頂會CVPR2024正式公佈了最佳論文等獎項。今年共有10篇論文獲獎,其中2篇最佳論文,2篇最佳學生論文,另外還有2篇最佳論文提名和4篇最佳學生論文提名。電腦視覺(CV)領域的頂級會議是CVPR,每年都會吸引大量研究機構和高校參會。根據統計,今年共提交了11532份論文,2719篇被接收,錄取率為23.6%。根據佐治亞理工學院對CVPR2024的數據統計分析,從研究主題來看,論文數量最多的是圖像和視頻合成與生成(Imageandvideosyn

快速入門PyCharm社群版:詳細安裝教學全解析導言:PyCharm是一個功能強大的Python整合開發環境(IDE),它提供了一套全面的工具,可以幫助開發人員更有效率地編寫Python程式碼。本文將詳細介紹如何安裝PyCharm社群版,並提供具體的程式碼範例,幫助初學者快速入門。第一步:下載和安裝PyCharm社群版要使用PyCharm,首先需要從其官方網站上下

我們知道LLM是在大規模電腦叢集上使用海量資料訓練得到的,本站曾介紹過不少用於輔助和改進LLM訓練流程的方法和技術。而今天,我們要分享的是一篇深入技術底層的文章,介紹如何將一堆連作業系統也沒有的「裸機」變成用來訓練LLM的電腦叢集。這篇文章來自於AI新創公司Imbue,該公司致力於透過理解機器的思維方式來實現通用智慧。當然,將一堆連作業系統也沒有的「裸機」變成用於訓練LLM的電腦叢集並不是一個輕鬆的過程,充滿了探索和試錯,但Imbue最終成功訓練了一個700億參數的LLM,並在此過程中積累

機器之能報道編輯:楊文以大模型、AIGC為代表的人工智慧浪潮已經在悄悄改變我們生活及工作方式,但絕大部分人依然不知道該如何使用。因此,我們推出了「AI在用」專欄,透過直覺、有趣且簡潔的人工智慧使用案例,來具體介紹AI使用方法,並激發大家思考。我們也歡迎讀者投稿親自實踐的創新用例。影片連結:https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ最近,獨居女孩的生活Vlog在小紅書上走紅。一個插畫風格的動畫,再配上幾句治癒系文案,短短幾天就能輕鬆狂攬上

標題:技術入門者必看:C語言和Python難易度解析,需要具體程式碼範例在當今數位化時代,程式設計技術已成為一項越來越重要的能力。無論是想要從事軟體開發、數據分析、人工智慧等領域,還是僅僅出於興趣學習編程,選擇一門合適的程式語言是第一步。而在眾多程式語言中,C語言和Python作為兩種廣泛應用的程式語言,各有其特色。本文將對C語言和Python的難易度進行解析

C語言作為一門廣泛應用的程式語言,對於想從事電腦程式設計的人來說是必學的基礎語言之一。然而,對於初學者來說,學習新的程式語言可能會有些困難,尤其是缺乏相關的學習工具和教材。在本文中,我將介紹五款幫助初學者入門C語言的程式設計軟體,幫助你快速上手。第一款程式軟體是Code::Blocks。 Code::Blocks是一個免費的開源整合開發環境(IDE),適用於
