ICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞
コンピュータビジョンに関する国際会議 ICCV (International Conference on Computer Vision) が今週、フランスのパリで開幕しました
ICCV は、世界的なコンピュータビジョン分野のトップ学術会議として、隔年で開催されます。
ICCV の人気は常に CVPR と同等であり、何度も最高値を更新しました
本日の開会式で、ICCV は今年の論文データを正式に発表しました。今年の ICCV には合計 8,068 件の論文が投稿されました、そのうち 2,160 件が採択され、採択率は 26.8% で、前回の ICCV 2021 の採択率 25.9% をわずかに上回りました

論文のトピックに関しては、公式も発表 関連データが取得されました: 複数の視野角とセンサーを備えた 3D テクノロジーが最も人気があります

今日の開会式で最も重要な部分は間違いなく賞のプレゼンテーション。次に、最優秀論文、最優秀論文ノミネート、最優秀学生論文の受賞者を順次発表します。
Best Paper-Marr Award
今年の最優秀論文(マー賞) 2 つの論文がこの賞を受賞しました
最初の研究はトロント大学の研究者によって実施されました

著者: Mian Wei、Sotiris Nousias、Rahul Gulve、David B. Lindell、Kiriakos N. Kutulakos
書き直された内容: トロント大学は有名な機関です
要約: この論文では、極端な時間スケールの範囲を同時に (秒からピコ秒まで) 検討します 動的なシーンの画像化の問題、そしてそれを受動的に、あまり光を使わず、それを発する光源からのタイミング信号も使わずに行います。この場合、単一光子カメラ用の既存のフラックス推定技術は失敗するため、確率計算から洞察を引き出し、光子検出タイムスタンプのストリームで再構成されたピクセルの時変フラックスを可能にするフラックス検出理論を開発します。
この論文では、この理論を使用して、(1) パッシブ自走 SPAD カメラが低磁束条件下で達成可能な周波数帯域幅を持ち、DC ~ 31 GHz の範囲全体に及ぶことを示し、(2) 新しいフーリエ領域磁束再構成アルゴリズム、および (3) 非常に低い光子数または無視できないデッドタイムに対しても、アルゴリズムのノイズ モデルが有効なままであることを保証します。
ControlNetやSAMなどの人気論文が受賞し、ICCV 2023論文賞が発表されました。この論文は、この非同期イメージング メカニズムの可能性を実験的に示しています。(1) 大幅に異なる速度で動作する光源 (電球、プロジェクター、複数のパルス レーザー) によって照明されたシーンを同期せずに同時にイメージングする、(2) 受動的な非ライン オブ-視覚ビデオの取得; (3) 超広帯域ビデオを記録し、後で 30 Hz で再生して日常の動きを表示できますが、10 億倍遅くして光自体の伝播を表示することもできます

書き直す必要があるコンテンツは次のとおりです。2 番目の記事は、ControNet として知られているものです。

https ://arxiv. org/pdf/2302.05543.pdf
著者: Zhang Lumin、Rao Anyi、Maneesh Agrawala機関: スタンフォード大学要約: この記事は提案されています追加条件を追加することで拡散モデル(安定拡散など)を制御し、画像生成効果を向上させ、線画や線画からフルカラー画像を生成できる、to-endニューラルネットワークアーキテクチャControlNetを開発同じ深さの構造を生成し、マップ、手のキーポイントを使用して手の生成などを最適化することもできます。ControlNet の中心となるアイデアは、テキストの説明にいくつかの追加条件を追加して拡散モデル (安定拡散など) を制御することにより、生成された画像のキャラクターのポーズ、奥行き、画像構造、その他の情報をより適切に制御することです。 。
次のように書き換えられます: 画像の形式で追加の条件を入力して、モデルがキャニー エッジ検出、深度検出、セマンティック セグメンテーション、ハフ変換ライン検出、全体的なネストされたエッジ検出 (HED)、人間のポーズを実行できるようにします。認識やその他の操作を実行し、生成された画像にこの情報を保持します。このモデルを使用すると、線画や落書きを直接フルカラー画像に変換し、同じ奥行き構造の画像を生成できると同時に、手のキーポイントによるキャラクターの手の生成を最適化することもできます。

今年 4 月、Meta は「Segment Everything (SAM)」と呼ばれる AI モデルをリリースしました。これは、オブジェクト内のあらゆるオブジェクトのマスクを生成できます。画像またはビデオ。このテクノロジーはコンピュータ ビジョンの分野の研究者に衝撃を与え、「CV はもう存在しない」とさえ呼ぶ人もいました。
この注目を集めた論文が最優秀論文にノミネートされました。

書き直された内容: 現在、セグメンテーションの問題を解決するには 2 つの方法があります。 1 つ目はインタラクティブ セグメンテーションです。これは、任意のクラスのオブジェクトをセグメント化するために使用できますが、人間がマスクを繰り返し調整してメソッドをガイドする必要があります。 2 つ目は自動セグメンテーションです。これは、事前定義された特定のオブジェクト カテゴリ (猫や椅子など) をセグメント化するために使用できますが、トレーニングのために手動で注釈を付けた多数のオブジェクト (セグメント化された猫の数千または数万の例など) が必要です。 。これら 2 つの方法はいずれも、普遍的な完全自動セグメンテーション方法を提供するものではありません。
Meta によって提案された SAM は、これら 2 つの方法をうまく要約しています。インタラクティブセグメンテーションと自動セグメンテーションを簡単に実行できる単一モデルです。モデルのプロンプト可能なインターフェイスにより、ユーザーは柔軟な方法でモデルを使用できます。モデルに適切なプロンプト (クリック、ボックスの選択、テキストなど) を設計するだけで、幅広いセグメンテーション タスクを完了できます。
概要、これらの機能により、SAM は新しいタスクやドメインに適応できます。この柔軟性は画像セグメンテーションの分野では他に類を見ないものです。
詳細な紹介については、このサイトのレポートを参照してください:
CV はもう存在しませんか? Meta が「すべてを分割」AI モデルをリリース、CV が GPT-3 の瞬間を迎える可能性があるBest Student Paper研究はコーネル大学によって実施されました。この研究は、Google Research とカリフォルニア大学バークレー校の研究者によって共同で完成されました。最初の研究はコーネル工科大学の博士課程の学生、Qianqian Wang でした。彼らは共同で、完全かつグローバルに一貫した動き表現である OmniMotion を提案し、ビデオ内のすべてのピクセルに対して正確かつ完全な動き推定を実行するための新しいテスト時間最適化手法を提案しました。

- https://arxiv.org/abs/2306.05422
- プロジェクトのホームページ: https://omnimotion.github.io/
- コンピュータ ビジョンの分野では、スパース フィーチャ トラッキングとデンス オプティカル フローという 2 つのモーション推定方法が一般的に使用されています。ただし、どちらの方法にもいくつかの欠点があります。疎な特徴追跡ではすべてのピクセルの動きをモデル化できませんが、密なオプティカル フローでは長時間の動きの軌跡を捉えることができません
OmniMotion は、準 3D 正準ボリュームを使用してビデオを特徴付ける研究によって提案された新しいテクノロジーです。 OmniMotion は、ローカル空間と正準空間の間の全単射を通じてすべてのピクセルを追跡できます。この表現により、オブジェクトが遮られている場合でもグローバルな一貫性とモーション トラッキングが保証されるだけでなく、カメラとオブジェクトのモーションの任意の組み合わせのモデリングも可能になります。実験により、OmniMotion 方式は既存の SOTA 方式よりもパフォーマンスが大幅に優れていることが証明されました。

詳細な紹介については、このサイトのレポートを参照してください: Track eachいつでもどこでもピクセル、オクルージョンを恐れない「すべてを追跡」ビデオ アルゴリズムはこちら
もちろん、これらの受賞論文に加えて、今年の ICCV には多くの優れた論文が掲載されていますそれはみんなの注目に値します。最後に、受賞論文 17 件の最初のリストを示します。

以上がICCV 2023 が発表: ControlNet や SAM などの人気論文が受賞の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









でももしかしたら公園の老人には勝てないかもしれない?パリオリンピックの真っ最中で、卓球が注目を集めています。同時に、ロボットは卓球のプレーにも新たな進歩をもたらしました。先ほど、DeepMind は、卓球競技において人間のアマチュア選手のレベルに到達できる初の学習ロボット エージェントを提案しました。論文のアドレス: https://arxiv.org/pdf/2408.03906 DeepMind ロボットは卓球でどれくらい優れていますか?おそらく人間のアマチュアプレーヤーと同等です: フォアハンドとバックハンドの両方: 相手はさまざまなプレースタイルを使用しますが、ロボットもそれに耐えることができます: さまざまなスピンでサーブを受ける: ただし、ゲームの激しさはそれほど激しくないようです公園の老人。ロボット、卓球用

8月21日、2024年世界ロボット会議が北京で盛大に開催された。 SenseTimeのホームロボットブランド「Yuanluobot SenseRobot」は、全製品ファミリーを発表し、最近、世界初の家庭用チェスロボットとなるYuanluobot AIチェスプレイロボット - Chess Professional Edition(以下、「Yuanluobot SenseRobot」という)をリリースした。家。 Yuanluobo の 3 番目のチェス対局ロボット製品である新しい Guxiang ロボットは、AI およびエンジニアリング機械において多くの特別な技術アップグレードと革新を経て、初めて 3 次元のチェスの駒を拾う機能を実現しました。家庭用ロボットの機械的な爪を通して、チェスの対局、全員でのチェスの対局、記譜のレビューなどの人間と機械の機能を実行します。

もうすぐ学校が始まり、新学期を迎える生徒だけでなく、大型AIモデルも気を付けなければなりません。少し前、レディットはクロードが怠け者になったと不満を漏らすネチズンでいっぱいだった。 「レベルが大幅に低下し、頻繁に停止し、出力も非常に短くなりました。リリースの最初の週は、4 ページの文書全体を一度に翻訳できましたが、今では 0.5 ページの出力さえできません」 !」 https://www.reddit.com/r/ClaudeAI/comments/1by8rw8/something_just_feels_wrong_with_claude_in_the/ というタイトルの投稿で、「クロードには完全に失望しました」という内容でいっぱいだった。

北京で開催中の世界ロボット会議では、人型ロボットの展示が絶対的な注目となっているスターダストインテリジェントのブースでは、AIロボットアシスタントS1がダルシマー、武道、書道の3大パフォーマンスを披露した。文武両道を備えた 1 つの展示エリアには、多くの専門的な聴衆とメディアが集まりました。弾性ストリングのエレガントな演奏により、S1 は、スピード、強さ、正確さを備えた繊細な操作と絶対的なコントロールを発揮します。 CCTVニュースは、「書道」の背後にある模倣学習とインテリジェント制御に関する特別レポートを実施し、同社の創設者ライ・ジエ氏は、滑らかな動きの背後にあるハードウェア側が最高の力制御と最も人間らしい身体指標(速度、負荷)を追求していると説明した。など)、AI側では人の実際の動きのデータが収集され、強い状況に遭遇したときにロボットがより強くなり、急速に進化することを学習することができます。そしてアジャイル

貢献者はこの ACL カンファレンスから多くのことを学びました。 6日間のACL2024がタイのバンコクで開催されています。 ACL は、計算言語学と自然言語処理の分野におけるトップの国際会議で、国際計算言語学協会が主催し、毎年開催されます。 ACL は NLP 分野における学術的影響力において常に第一位にランクされており、CCF-A 推奨会議でもあります。今年の ACL カンファレンスは 62 回目であり、NLP 分野における 400 以上の最先端の作品が寄せられました。昨日の午後、カンファレンスは最優秀論文およびその他の賞を発表しました。今回の優秀論文賞は7件(未発表2件)、最優秀テーマ論文賞1件、優秀論文賞35件です。このカンファレンスでは、3 つの Resource Paper Award (ResourceAward) と Social Impact Award (

今日の午後、Hongmeng Zhixingは新しいブランドと新車を正式に歓迎しました。 8月6日、ファーウェイはHongmeng Smart Xingxing S9およびファーウェイのフルシナリオ新製品発表カンファレンスを開催し、パノラマスマートフラッグシップセダンXiangjie S9、新しいM7ProおよびHuawei novaFlip、MatePad Pro 12.2インチ、新しいMatePad Air、Huawei Bisheng Withを発表しました。レーザー プリンタ X1 シリーズ、FreeBuds6i、WATCHFIT3、スマート スクリーン S5Pro など、スマート トラベル、スマート オフィスからスマート ウェアに至るまで、多くの新しいオールシナリオ スマート製品を開発し、ファーウェイは消費者にスマートな体験を提供するフル シナリオのスマート エコシステムを構築し続けています。すべてのインターネット。宏孟志興氏:スマートカー業界のアップグレードを促進するための徹底的な権限付与 ファーウェイは中国の自動車業界パートナーと提携して、

ビジョンとロボット学習の緊密な統合。最近話題の1X人型ロボットNEOと合わせて、2つのロボットハンドがスムーズに連携して服をたたむ、お茶を入れる、靴を詰めるといった動作をしていると、いよいよロボットの時代が到来するのではないかと感じられるかもしれません。実際、これらの滑らかな動きは、高度なロボット技術 + 精緻なフレーム設計 + マルチモーダル大型モデルの成果です。有用なロボットは多くの場合、環境との複雑かつ絶妙な相互作用を必要とし、環境は空間領域および時間領域の制約として表現できることがわかっています。たとえば、ロボットにお茶を注いでもらいたい場合、ロボットはまずティーポットのハンドルを掴んで、お茶をこぼさないように垂直に保ち、次にポットの口がカップの口と揃うまでスムーズに動かす必要があります。 、そしてティーポットを一定の角度に傾けます。これ

会議の紹介 科学技術の急速な発展に伴い、人工知能は社会の進歩を促進する重要な力となっています。この時代に、分散型人工知能 (DAI) の革新と応用を目撃し、参加できることは幸運です。分散型人工知能は人工知能分野の重要な分野であり、近年ますます注目を集めています。大規模言語モデル (LLM) に基づくエージェントは、大規模モデルの強力な言語理解機能と生成機能を組み合わせることで、自然言語対話、知識推論、タスク計画などにおいて大きな可能性を示しました。 AIAgent は大きな言語モデルを引き継ぎ、現在の AI 界隈で話題になっています。アウ
