CVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞した
北京時間6月20日早朝、シアトルで開催された最高の国際コンピュータービジョンカンファレンスCVPR 2024が、最優秀論文およびその他の賞を正式に発表した。
今年は、最優秀論文 2 件、最優秀学生論文 2 件、最優秀論文ノミネート 2 件、最優秀学生論文ノミネート 4 件を含む、合計 10 件の論文が賞を受賞しました。
コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が参加します。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。
ジョージア工科大学による CVPR 2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成 (画像とビデオの合成と生成) のテーマであり、合計では論文数は329。
今年の参加者の総数は例年よりも多く、オフラインでの参加を選択する人も増えています。
最優秀論文
論文 1: 生成画像ダイナミクス
著者: Zhengqi Li、Richard Tucker、Noah Snavely、Aleksander Holynski
-
機関: Google Research
論文アドレス: https://arxiv.org/pdf/2309.07906
Zhengqi Li は、Google DeepMind の研究科学者です。以前はコーネル大学でコンピュータ サイエンスの博士号を取得し、そこでノア スネーブリー教授の下で学びました。彼の研究は、2020 Google PhD Fellowship、2020 Adobe Research Fellowship、CVPR 2019 および CVPR 2023 Best Paper Honors、ICCV 2023 Best Student Paper Award など、いくつかの賞を受賞しています。
要約: この研究は、シーンの動きをモデル化するための画像空間事前手法を提案します。事前分布は、風に揺れる木や衣服などの物体の自然振動ダイナミクスを表す、実際のビデオ シーケンスから抽出された一連の動作軌跡から学習されます。この研究では、フーリエ領域における高密度の長期運動をスペクトル ボリュームとしてモデル化しており、チームはこれが拡散モデルによる予測に適していることを発見しました。
単一の画像が与えられた場合、この研究でトレーニングされたモデルは、周波数調整された拡散サンプリング プロセスを使用してスペクトル ボリュームを予測します。スペクトル ボリュームは、ビデオ全体にわたるモーション テクスチャに変換することもできます。この研究では、モーション テクスチャの振幅を調整することで、アニメーション モーションを縮小 (上) またはズーム (下) することができます。
論文 2: テキストから画像への生成のためのリッチヒューマンフィードバック
- 機関: 大学カリフォルニア州サンディエゴ分校、Google Research、南カリフォルニア大学、ケンブリッジ大学、ブランダイス大学
- 論文アドレス: https://arxiv.org/pdf/2312.10240
-
著者よりこの論文のコラムを見ると、多くの中国人がこの研究に参加していたことがわかります。その中で、梁佑偉氏は、以前はカリフォルニア大学サンディエゴ校の電気・コンピュータ工学科の博士課程の学生でした。華南農業大学で情報とコンピューターサイエンスを専攻する学部生、Junfeng He は Google 出身で、以前は清華大学で修士号を取得しました。
要約: 最近、テキストから画像 (T2I) 生成モデルが大幅に進歩し、テキストの説明から高解像度の画像を生成できるようになりました。しかし、生成された画像の多くは依然としてアーチファクトや信頼性の欠如、事実の不一致、美観の低下に悩まされています。
大規模な言語モデルに対するヒューマン フィードバックによる強化学習 (RLHF) の成功した使用に触発されたこの研究は、次のことによってフィードバック信号を強化します。テキスト プロンプト内の単語が画像上で歪んでいるか、欠けています。
- この研究では、18K で生成された画像データセット RichHF-18K を作成し、RichHF-18K で人間による豊富なフィードバックを収集し、フィードバックを自動的に予測するようにマルチモーダル トランスフォーマーをトレーニングしました。この研究は、高品質のトレーニング データを選択して生成モデルを微調整および改善したり、問題のある画像領域を修復するマスクを作成したりするなど、予測された人間のフィードバックを使用して画像生成を改善できることを示しています。
最優秀論文次点
論文 1: EventPS: イベントカメラを使用したリアルタイムフォトメトリックステレオ
著者: Bohan Yu、Jieji Ren、Jin Han、Feishi Wang、Jinxiu Liang 、Boxin Shi
機関: 北京大学、上海交通大学など
論文アドレス: https://openaccess.thecvf.com/content/CVPR2024/papers/Yu_EventPS_Real-Time_Photometric_Stereo_Using_an_Event_Camera_CVPR_2024_paper.pdf
- 論文 2: ピクセルスプラット: スケーラブルで一般化可能な 3D 再構成のための画像ペアからの 3D ガウス スプラット
著者: David Charatan、Sizhe Lester Li、Andrea Tagliasacchi、Vincent Sitzmann
機関: MIT、サイモン・フレイザートロント大学
論文アドレス: https://openaccess.thecvf.com/content/CVPR2024/papers/Charatan_pixelSplat_3D_Gaussian_Splats_from_Image_Pairs_for_Scalable_Generalizable_CVPR_2024_paper.pdf
最優秀学生論文
論文 1: BioCLIP : Tree of Life のビジョン財団モデル
著者: Samuel Stevens 、Jiaman Wu 、Matthew J Thompson 、Elizabeth G Campolongo 、Chan Hee Song 、David Edward Carlyn 、Li Dong 、Wasila M Dahdul 、Charles Stewart 、Tanya Berger -Wolf、Wei-Lun Chao、Yu Su
機関: オハイオ州立大学、Microsoft Research、カリフォルニア大学アーバイン校、レンセラー工科大学
論文アドレス: https://arxiv.org/pdf/2311.18803
- 要約 : ドローンから個人の携帯電話に至るまでのカメラによって収集された自然界の画像は、ますます豊富な生物学的情報源になりつつあります。科学画像や保存画像から生物学的に関連する情報を抽出するための計算手法やツール、特にコンピューター ビジョンが爆発的に増加しています。ただし、それらのほとんどは特定のタスク用に設計されたカスタマイズされた方法であり、新しい問題、コンテキスト、データセットに簡単に適応または拡張することはできません。研究者は、画像上で生物の一般的な生物学的問題を解決するための視覚的モデルを緊急に必要としています。
この目標を達成するために、研究では、最大かつ最も多様な ML 対応の生物学的画像データセットである TREEOFLIFE-10M を厳選し、リリースしました。これに基づいて、研究者らは、TREEOFLIFE-10Mによって捕捉された生物学のユニークな属性、つまり植物、動物、菌類の画像の豊かさと多様性を利用して、主に生命の樹を構築するために使用される基本モデルBIOCLIPを開発しました。 、そして豊富な構造化された生物学的知識。 TREEOFLIFE-10M の 108 ゲートの樹形図。
研究者らは、さまざまなきめの細かい生物学的分類タスクで私たちの方法を厳密にベンチマークし、BIOCLIP が既存のベースラインよりも一貫して大幅に優れたパフォーマンスを示した (絶対値で 16% ~ 17% 高い) ことを発見しました。 固有の評価は、BIOCLIP が Tree of Life と一致する階層表現を学習したことを示し、その強力な汎用性を明らかにしています。
論文 2: Mip-Splatting: Alias-free 3D Gaussian Splatting
論文著者: Zehao Yu、Anpei Chen、Binbin Huang、Torsten Sattler、Andreas Geiger
機関: テュービンゲン大学、テュービンゲン人工知能センター、上海科学技術大学、ブライトニング、プラハのチェコ工科大学
論文アドレス: https://arxiv.org/abs/2311.16493
要約: 最近、3D ガウス スプラッタリング技術は、新しいビュー合成において目覚ましい結果を示し、高い忠実度および効率レベルに達しました。ただし、サンプリング レートを変更すると (焦点距離やカメラの距離を変更するなど)、強いアーティファクトが発生する可能性があります。
3D ガウス スプラッターは、図 (a) に示すように、イメージ プレーンに投影される 3D ガウス関数として 3D オブジェクトを表現し、続いて画面空間で 2D 膨張を行うことによって機能します。この方法に固有の収縮バイアスにより、図 (b) のδ関数で示すように、縮退 3D ガウス関数がサンプリング制限を超えますが、膨張操作により 2D と同様にレンダリングされます。ただし、サンプリング レートを (焦点距離またはカメラの距離によって) 変更すると、強い膨張効果 (c) と高周波アーチファクト (d) が観察されます。
研究チームは、この現象の理由は 3D 周波数制約の欠如と 2D 拡張フィルターの使用に起因する可能性があることを発見しました。この問題を解決するために、入力ビューによって引き起こされる最大サンプリング周波数に従って 3D ガウス プリミティブのサイズを制限する 3D スムージング フィルターを導入しました。これにより、ズームイン時の高周波アーティファクトが除去されます。
さらに、著者チームは 2D 拡張フィルターを 2D Mip フィルターに置き換えました。これは 2D ボックス フィルターをシミュレートし、エイリアシングと拡張の問題を効果的に軽減します。研究者らは、単一スケール画像でのトレーニングやマルチスケールテストなどのシナリオを含む評価に基づいて、この手法の有効性を検証しました。
最優秀学生論文の次点
論文: SpiderMatch: 大域的最適性と幾何学的一貫性を備えた 3D 形状マッチング
著者: Paul Roetzer、Florian Bernard
機関: ボン大学
リンク: https://openaccess.thecvf.com/content/CVPR2024/papers/Roetzer_SpiderMatch_3D_Shape_Matching_with_Global_Optimality_and_Geometric_Consistency_CVPR_2024_paper.pdf
Pa per: 画像処理 GNN: 超解像度での剛性の打破
著者: Yuchuan Tian、Hanting Chen、Chao Xu、Yunhe Wang
機関: 北京大学、Huawei Noah's Ark Laboratory
リンク: https://openaccess.thecvf.com/content/CVPR2024/papers/Tian_Image_Processing_GNN_Breaking_Rigidity_in_Super-Resolution _CVPR_2024_論文。 pdf
論文: ボリュームとしてのオブジェクト: 不透明固体の確率的幾何学ビュー
著者: Bailey Miller、Hanyu Chen、Alice Lai、Ioannis Gkioulekas
-
In機関: カーネギーメロン大学
リンク: https://arxiv.org/pdf/2312.15406v2
論文: 説明手法によるトランスフォーマーとCNNによる意思決定メカニズムの比較
著者:チー・ジャン、 Saeed Khorram、Li Fuxin
機関: オレゴン州立大学
リンク: https://openaccess.thecvf.com/content/CVPR2024/papers/Jiang_Comparing_the_Decision-Making_Mechanisms_by_Transformers_and_CNNs_via_Description_CVPR_2024 _paper .pdf
その他賞
このカンファレンスでは、Longuet-Higgins Award、Young Investigator Award、Thomas S. Huang Memorial Award などの PAMI TC 賞も発表されました。
Longuet-Higgins Award
Longuet-Higgins Award は、年次 CVPR で IEEE Computer Society Pattern Analysis and Machine Intelligence (PAMI) 技術委員会によって授与される「Computer Vision Fundamental Contribution Award」です。 10 年前のコンピュータ ビジョン研究に大きな影響を与えた CVPR 論文。この賞は、理論化学者であり認知科学者である H. クリストファー ロンゲット=ヒギンズにちなんで名付けられました。
今年の受賞論文は「正確なオブジェクト検出とセマンティック セグメンテーションのためのリッチ機能階層」です。
著者: Ross Girshick、Jeff Donahue、Trevor Darrell、Jitendra Malik
機関: UC Berkeley
紙のリンク: https://arxiv.org/abs/1311.2524
若手研究者賞
若手研究者賞は、若い科学者を表彰し、革新的な研究を続けるよう奨励することを目的としています。選考基準は、博士課程の経験が7年未満であることです。
今年の優勝者は、アンジュー・カナザワ (カリフォルニア大学バークレー校) とカール・ヴォンドリック (コロンビア大学) です。
また、Katie Bouman (カリフォルニア工科大学) が Young Investigator Award の佳作を受賞しました。
トーマス・ファン記念賞
CVPR 2020で、トーマス・S・ファン教授(黄雪韜)を追悼し、PAMITC賞委員会はCV研究を表彰するトーマス・S・ファン記念賞の創設を承認しました。 、教育およびサービス ロールモデルとして認められる研究者。この賞は2021年から授与されます。受給者は、博士号を少なくとも 7 年間、できればキャリア中期(25 年以内)に保持している必要があります。
今年の受賞者は、オックスフォード大学のアンドレア・ヴェダルディ教授です。
詳細については、https://media.eventhosts.cc/Conferences/CVPR2024/openingRemarkSlides.pdfを参照してください。
参考リンク:
https://public.tableau .com /views/CVPR2024/CVPRtrends?%3AshowVizHome=no&ContinueFlag=6a947f6367e90acd982f7ee49a495fe2
以上がCVPR 2024 のすべての賞が発表されました!オフラインでのカンファレンスには1万人近くが参加し、Googleの中国人研究者が最優秀論文賞を受賞したの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











キミ: たった 1 文の PPT がわずか 10 秒で完成します。 PPTはとても面倒です!会議を開催するには PPT が必要であり、週次報告書を作成するには PPT が必要であり、投資を勧誘するには PPT を提示する必要があり、不正行為を告発するには PPT を送信する必要があります。大学は、PPT 専攻を勉強するようなものです。授業中に PPT を見て、授業後に PPT を行います。おそらく、デニス オースティンが 37 年前に PPT を発明したとき、PPT がこれほど普及する日が来るとは予想していなかったでしょう。 PPT 作成の大変な経験を話すと涙が出ます。 「20 ページを超える PPT を作成するのに 3 か月かかり、何十回も修正しました。PPT を見ると吐きそうになりました。」 「ピーク時には 1 日に 5 枚の PPT を作成し、息をすることさえありました。」 PPTでした。」 即席の会議をするなら、そうすべきです

拡散はより良いものを模倣するだけでなく、「創造」することもできます。拡散モデル(DiffusionModel)は、画像生成モデルである。 AI 分野でよく知られている GAN や VAE などのアルゴリズムと比較すると、拡散モデルは異なるアプローチを採用しており、その主な考え方は、最初に画像にノイズを追加し、その後徐々にノイズを除去するプロセスです。ノイズを除去して元の画像を復元する方法は、アルゴリズムの中核部分です。最後のアルゴリズムは、ランダムなノイズを含む画像から画像を生成できます。近年、生成 AI の驚異的な成長により、テキストから画像への生成、ビデオ生成など、多くのエキサイティングなアプリケーションが可能になりました。これらの生成ツールの背後にある基本原理は、以前の方法の制限を克服する特別なサンプリング メカニズムである拡散の概念です。

北京時間6月20日早朝、シアトルで開催されている最高の国際コンピュータビジョンカンファレンス「CVPR2024」が、最優秀論文やその他の賞を正式に発表した。今年は、最優秀論文 2 件と学生優秀論文 2 件を含む合計 10 件の論文が賞を受賞しました。また、最優秀論文ノミネートも 2 件、学生優秀論文ノミネートも 4 件ありました。コンピュータービジョン (CV) 分野のトップカンファレンスは CVPR で、毎年多数の研究機関や大学が集まります。統計によると、今年は合計 11,532 件の論文が投稿され、2,719 件が採択され、採択率は 23.6% でした。ジョージア工科大学による CVPR2024 データの統計分析によると、研究テーマの観点から最も論文数が多いのは画像とビデオの合成と生成です (Imageandvideosyn

LLM が大量のデータを使用して大規模なコンピューター クラスターでトレーニングされていることはわかっています。このサイトでは、LLM トレーニング プロセスを支援および改善するために使用される多くの方法とテクノロジが紹介されています。今日、私たちが共有したいのは、基礎となるテクノロジーを深く掘り下げ、オペレーティング システムさえ持たない大量の「ベア メタル」を LLM のトレーニング用のコンピューター クラスターに変える方法を紹介する記事です。この記事は、機械がどのように考えるかを理解することで一般的な知能の実現に努めている AI スタートアップ企業 Imbue によるものです。もちろん、オペレーティング システムを持たない大量の「ベア メタル」を LLM をトレーニングするためのコンピューター クラスターに変換することは、探索と試行錯誤に満ちた簡単なプロセスではありませんが、Imbue は最終的に 700 億のパラメータを備えた LLM のトレーニングに成功しました。プロセスが蓄積する

PyCharm コミュニティ版のクイック スタート: 詳細なインストール チュートリアル 完全な分析 はじめに: PyCharm は、開発者が Python コードをより効率的に作成できるようにする包括的なツール セットを提供する強力な Python 統合開発環境 (IDE) です。この記事では、PyCharm Community Edition のインストール方法を詳しく紹介し、初心者がすぐに使い始めるのに役立つ具体的なコード例を示します。ステップ 1: PyCharm Community Edition をダウンロードしてインストールする PyCharm を使用するには、まず公式 Web サイトからダウンロードする必要があります

Machine Power Report 編集者: Yang Wen 大型モデルや AIGC に代表される人工知能の波は、私たちの生活や働き方を静かに変えていますが、ほとんどの人はまだその使い方を知りません。そこで、直感的で興味深く、簡潔な人工知能のユースケースを通じてAIの活用方法を詳しく紹介し、皆様の思考を刺激するコラム「AI in Use」を立ち上げました。また、読者が革新的な実践的な使用例を提出することも歓迎します。ビデオリンク: https://mp.weixin.qq.com/s/2hX_i7li3RqdE4u016yGhQ 最近、Xiaohongshu で一人暮らしの女の子の生活 vlog が人気になりました。イラスト風のアニメーションといくつかの癒しの言葉を組み合わせれば、数日で簡単に習得できます。

タイトル: 技術初心者必読: 具体的なコード例を必要とする C 言語と Python の難易度分析 今日のデジタル時代において、プログラミング技術はますます重要な能力となっています。ソフトウェア開発、データ分析、人工知能などの分野で働きたい場合でも、単に興味があってプログラミングを学びたい場合でも、適切なプログラミング言語を選択することが最初のステップです。数あるプログラミング言語の中でも、C言語とPythonは広く使われているプログラミング言語であり、それぞれに独自の特徴があります。この記事ではC言語とPythonの難易度を分析します。

検索拡張生成 (RAG) は、検索を使用して言語モデルを強化する手法です。具体的には、言語モデルは回答を生成する前に、広範な文書データベースから関連情報を取得し、この情報を使用して生成プロセスをガイドします。このテクノロジーにより、コンテンツの精度と関連性が大幅に向上し、幻覚の問題を効果的に軽減し、知識の更新速度が向上し、コンテンツ生成の追跡可能性が向上します。 RAG は間違いなく、人工知能研究の中で最もエキサイティングな分野の 1 つです。 RAGについて詳しくは、当サイトのコラム記事「大型モデルの欠点を補うことに特化したRAGの新展開とは?」を参照してください。このレビューはそれを明確に説明しています。」しかし、RAG は完璧ではなく、ユーザーはそれを使用するときにいくつかの「問題点」に遭遇することがよくあります。最近、NVIDIA の生成 AI 高度なソリューション
