Yann LeCun: ViT は遅くて非効率です。リアルタイム画像処理は依然として畳み込みに依存しています。
Transformer 統合の時代においても、コンピューター ビジョンの CNN の方向性を研究する必要はありますか?
今年の初めに、OpenAI の大規模ビデオ モデル Sora により、Vision Transformer (ViT) アーキテクチャが普及しました。それ以来、ViT と従来の畳み込みニューラル ネットワーク (CNN) のどちらがより強力であるかについての議論が続いています。
最近、ソーシャルメディアで活動しており、チューリング賞を受賞したMetaの主任科学者ヤン・ルカン氏も、ViTとCNNの間の紛争に関する議論に参加しました。
この事件の原因は、Comma.aiのCTOであるHarald Schäfer氏が最新の研究を披露していたことにありました。彼は(最近の多くの AI 学者と同様に)Yann LeCun の表現をヒントに、チューリング賞の大物は純粋な ViT は実用的ではないと信じているが、私たちは最近コンプレッサーを純粋な ViT に変更しましたが、すぐに得られるものはなく、トレーニングには時間がかかります。効果はとても良いです。
たとえば、左側の画像は 224 バイトのみに圧縮されており、右側は元の画像です。
はわずか 14×128 であり、これは自動運転の世界モデルとしては非常に大きく、大量のデータをトレーニングに入力できることを意味します。仮想環境でのトレーニングは、エージェントが適切に機能するためにポリシーに従ってトレーニングする必要がある実際の環境よりも安価です。仮想トレーニングの解像度が高いほど動作は良くなりますが、シミュレーターが非常に遅くなるため、現時点では圧縮が必要です。
彼のデモンストレーションは AI サークルでの議論を引き起こし、1X の人工知能担当副社長である Eric Jang は、その結果は素晴らしいと答えました。
ハラルド氏は ViT を賞賛し続けました: これはとても美しい建築です。
ここで誰かが攻撃を始めました。ルカンのような達人は時々イノベーションのペースについていけないことがあります。
しかし、Yann LeCun は即座に反応し、ViT が実用的ではないと言っているわけではなく、今では誰もがそれを使用していると主張しました。彼が言いたいのは、ViT は遅すぎて非効率であるため、高解像度の画像やビデオのタスクのリアルタイム処理には適さないということです。
Yann LeCun も、ニューヨーク大学の助教授である Cue Xie Saining 氏であり、彼の研究は、方法が正しければ CNN が ViT と同じくらい優れていることを ConvNext で証明しました。
彼は続けて、自己注意ループに固執する前に、プーリングとストライドを備えた少なくともいくつかの畳み込み層が必要であると述べています。
セルフアテンションが順列と同等である場合、低レベルの画像やビデオの処理にはまったく意味がなく、フロントエンドで単一のストライドを使用してパッチ化することもできません。さらに、画像やビデオの相関関係は局所的に非常に集中しているため、世界的な注目は無意味であり、拡張性がありません。
より高いレベルでは、フィーチャがオブジェクトを表すと、セルフ アテンション ループを使用することが理にかなっています。重要なのは、オブジェクトの位置ではなく、オブジェクト間の関係と相互作用です。このハイブリッド アーキテクチャは、メタ研究科学者の Nicolas Carion とその共著者によって完成された DETR システムによって先駆的に開発されました。
DETR の研究が登場して以来、Yann LeCun は、自分のお気に入りのアーキテクチャは低レベルの畳み込み/ストライド/プーリングと高レベルのセルフ アテンション ループであると述べました。
Yann LeCun が 2 番目の投稿でそれを要約しました。低レベルではストライドまたはプーリングによる畳み込みを使用し、高レベルではセルフ アテンション ループを使用し、オブジェクトを表すために特徴ベクトルを使用します。
彼はまた、テスラの完全自動運転 (FSD) が低レベルで畳み込み (またはより複雑なローカル演算子) を使用し、より高いレベルでよりグローバルなループ (おそらくセルフ アテンションを使用する) を組み合わせていると確信しています。したがって、低レベルのパッチ埋め込みで Transformer を使用することは完全に無駄です。
宿敵マスクは未だにコンボリューションルートを使っているのでしょうね。
Xie Senin 氏も、ViT は 224x224 の低解像度画像に非常に適していると考えていますが、画像解像度が 100 万 x 100 万に達したらどうなるでしょうか?現時点では、畳み込みが使用されるか、共有重みを使用して ViT がパッチおよび処理されますが、これは本質的には畳み込みです。
したがって、Xie Senin 氏は、その瞬間、畳み込みネットワークはアーキテクチャではなく、考え方であることに気づいたと述べました。
この見解は、Yann LeCun によって認められています。
Google DeepMind の研究者である Lucas Beyer 氏も、従来の畳み込みネットワークのゼロ パディングのおかげで、「畳み込み ViT」(ViT + 畳み込みではなく) がうまく機能すると確信していると述べました。
ViT と CNN の間のこの議論は、将来別のより強力なアーキテクチャが登場するまで続くことが予測されます。
以上がYann LeCun: ViT は遅くて非効率です。リアルタイム画像処理は依然として畳み込みに依存しています。の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











作曲家では、AIは主に、依存関係の推奨、依存関係の競合解決、コードの品質改善を通じて、開発効率とコードの品質を改善します。 1。AIは、プロジェクトのニーズに応じて適切な依存関係パッケージを推奨できます。 2。AIは、依存関係の競合に対処するためのインテリジェントなソリューションを提供します。 3。AIはコードをレビューし、コードの品質を改善するための最適化の提案を提供します。これらの機能を通じて、開発者はビジネスロジックの実装にもっと集中できます。

暗号通貨市場では、Altcoinsは投資家に潜在的に高いリターン資産と見なされることがよくあります。市場には多くのアルトコインがありますが、すべてのアルトコインが期待される利点をもたらすわけではありません。この記事では、ゼロファンデーションを持つ投資家向けの詳細なガイドを提供し、2025年に買いだめに相当する5つのAltcoinsを紹介し、これらの投資を通じて50倍安定した利益を上げるという目標を達成する方法を説明します。

通貨サークルの上位10の暗号通貨交換のランキング:1。Binance:世界をリードし、効率的な取引とさまざまな金融商品を提供します。 2。OKX:革新的で多様であり、さまざまなトランザクションタイプをサポートしています。 3。Huobi:安定した信頼性、高品質のサービス。 4。Coinbase:初心者やシンプルなインターフェイスに優しい。 5。Kraken:強力なツールを備えたプロのトレーダーにとって最初の選択肢。 6。BITFINEX:効率的な取引、豊富な取引ペア。 7。Bittrex:安全コンプライアンス、規制協力。 8。Poloniexなど。

多くの場合、実質的なストーリーによって推進される市場では、実際の機能が見逃される可能性があります。ピコインは、2025年のコンセンサスに先立って、コミュニティの支援と制度的利益の向上を通じて勢いを増しています。多くの場合、実質的なストーリーによって推進される市場では、実際の機能を見逃すのは簡単です。ピコイン(PI)は2025年にコンセンサスに達する前に勢いを獲得しましたが、カルダノ(ADA)はより速く動いているときに新しい競合他社に直面し、別のプロジェクトが異なるものを提供しています。 Web3aiの暗号通貨はまだ販売前の状態にありますが、トレンドを追いかけることではなく、ユーザーがQuantum Hedge Fandsが使用する同じタイプのツールにアクセスできることは懸念事項です。

以下は、2025年のグローバルデジタル通貨交換アプリの権威ある包括的なランキングです。これは、トランザクションボリューム、セキュリティ、コンプライアンス、ユーザーエクスペリエンスなどの多次元データに基づいてコンパイルされ、市場動向を正確に把握するのに役立ちます。

通貨サークルの上位10の仮想通貨交換アプリ:1。Binance、2。Okx、3。Huobi、4。Coinbase、5。Kraken、6。Bitfinex、7。Bybit、8。Kucoin、9。Gemini、10。Bitstamp、これらのプラットフォームは、取引量、セキュリティ、ユーザーエクスペリエンスに人気があります。

WordPress WebサイトでCookieの使用方法を知りたいですか? Cookieは、ユーザーのブラウザに一時情報を保存するための便利なツールです。この情報を使用して、パーソナライズと行動ターゲティングを通じてユーザーエクスペリエンスを強化できます。この究極のガイドでは、プロフェッショナルのようにWordPressCookiesを設定、取得、削除する方法を紹介します。注:これは高度なチュートリアルです。 HTML、CSS、WordPress Webサイト、PHPに習熟する必要があります。クッキーとは何ですか?ユーザーがWebサイトにアクセスすると、Cookieが作成および保存されます。

Huobi APKV10.50.0ダウンロードガイド:1。記事の直接リンクをクリックします。 2.正しいダウンロードパッケージを選択します。 3。登録情報を入力します。 4. Huobi取引プロセスを開始します。
