目次
なぜ「十分ではない」のか?
著者: 改訂しました、レビューしてください
トップカンファレンスで拒否された論文
ホームページ テクノロジー周辺機器 AI なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

Jan 26, 2024 pm 04:48 PM
ai

2023 年、AI 大型モデルの分野で有力なプレーヤーである Transformer の地位が挑戦され始めます。 「Mamba」と呼ばれる新しいアーキテクチャが登場しました。これは、言語モデリングの点で Transformer に匹敵し、さらにはそれを超える可能性がある選択的状態空間モデルです。同時に、Mamba はコンテキストの長さが増加するにつれて線形スケーリングを実現できるため、100 万ワード長のシーケンスを処理でき、実際のデータを処理する際の推論スループットが 5 倍向上します。この画期的な性能向上は目を引くものであり、AI分野の発展に新たな可能性をもたらします。

リリースから 1 か月以上経ち、Mamba は徐々にその影響力を発揮し始め、MoE-Mamba、Vision Mamba、VMamba、U-Mamba、MambaByte などの多くのプロジェクトを生み出しました。 . . Mamba は、Transformer の欠点を継続的に克服する大きな可能性を示しています。これらの開発は、Mamba の継続的な開発と進歩を示しており、人工知能の分野に新たな可能性をもたらしています。

しかし、この新進気鋭の「スター」は、2024 年の ICLR 会議で挫折に遭遇しました。最新の公開結果によると、マンバの論文はまだ保留中であるが、決定待ちの欄にその名前が表示されるだけで、延期されたのか却下されたのかは判断できない。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

全体的に、Mamba は 4 人のレビュアーからそれぞれ 8/8/6/3 の評価を受けました。これほどの評価を受けたにもかかわらず拒否されるのは本当に不可解だという人もいた。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

その理由を理解するには、低いスコアを付けた査読者のコメントを確認する必要があります。

論文レビュー ページ: https://openreview.net/forum?id=AL1fq05o7H

なぜ「十分ではない」のか?

レビューのフィードバックで、「3: 拒否、十分ではない」というスコアを付けたレビューアーは、Mamba に関するいくつかの意見を説明しました:

モデル設計についての考え:

  • Mamba の動機は、注意ベースのモデルの効率を向上させながら、再帰的モデルの欠点に対処することです。この方向に沿った多くの研究があります: S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、および多くの効率的な Transformer モデル (例: [5])。これらすべてのモデルはほぼ線形の複雑さを達成しており、著者はモデルのパフォーマンスと効率の点で Mamba をこれらの作品と比較する必要があります。モデルのパフォーマンスに関しては、いくつかの簡単な実験 (Wikitext-103 の言語モデリングなど) で十分です。
  • アテンションベースの Transformer モデルの多くは長さの汎化能力を示します。つまり、モデルは短いシーケンス長でトレーニングし、より長いシーケンス長でテストできます。例としては、相対位置エンコーディング (T5) や Alibi [6] などがあります。 SSM は一般に連続的であるため、Mamba にはこの長さの汎化能力があるのでしょうか?

実験に関する考察:

  • 著者は、より強力なベースラインと比較する必要があります。著者らは、モデル アーキテクチャの動機として H3 が使用されたと述べていますが、実験では H3 と比較しませんでした。 [7] の表 4 によると、Pile データセットでは、H3 の ppl はそれぞれ 8.8 (1.25 M)、7.1 (3.55 M)、および 6.0 (1.3B) であり、Mamba よりも大幅に優れています。著者らはH3との比較を示す必要がある。
  • 事前トレーニング済みモデルについては、著者はゼロサンプル推論の結果のみを示しています。この設定はかなり制限されており、結果は Mamba の有効性を十分に裏付けていません。著者らには、入力シーケンスが自然に非常に長い (たとえば、arXiv データセットの平均シーケンス長が 8k を超える) 文書の要約など、長いシーケンスを使った実験をさらに行うことをお勧めします。
  • 著者は、主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者らは、基本的に長い配列を理解するための標準ベンチマークである LRA (Long Range Arena) 上のより多くのベースラインと比較する必要があります。
  • #メモリ ベンチマークがありません。セクション 4.5 は「速度とメモリのベンチマーク」というタイトルですが、速度の比較のみが示されています。さらに、作成者は、図 8 の左側で、モデル層、モデル サイズ、畳み込みの詳細など、より詳細な設定を提供する必要があります。著者らは、シーケンス長が非常に長い場合 (図 8 左)、FlashAttention が最も遅くなる理由について、何らかの直観を提供できますか?

さらに、別のレビュー担当者も Mamba の欠点を指摘しました。モデルには、Transformers と同様に、トレーニング中に依然として二次メモリが必要です。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

著者: 改訂しました、レビューしてください

すべての査読者の意見を要約した後、著者チームも論文の内容を改訂および改善し、新しい実験結果と追加を追加しました。分析:

  • H3 モデルの評価結果を追加

著者はサイズを 125M-2.7 Pretrained にダウンロードしましたB パラメータを使用して H3 モデルを作成し、一連の評価を実行しました。 Mamba はすべての言語評価において大幅に優れており、これらの H3 モデルは二次注意を使用したハイブリッド モデルであるのに対し、線形時間 Mamba 層のみを使用した著者の純粋なモデルはすべての指標において大幅に優れていることに注目する価値があります。

事前学習済み H3 モデルとの評価比較は次のとおりです:

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした


  • ##完全にトレーニングされたモデルをより大きなモデル サイズに拡張します

下の図に示すように、同じ数値に基づいてトレーニングされた 3B オープンソースを使用します。トークン数(300B) モデルと比較して、すべての評価結果において Mamba が優れています。これは 7B スケール モデルにも匹敵します。Mamba (2.8B) を OPT、Pythia、および RWKV (7B) と比較すると、Mamba がすべてのベンチマーク スコアで最高の平均スコアと最高/2 位を達成しています。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした


    #トレーニング長を超える長さの外挿結果を示します
  • #著者は、事前トレーニングされた 3B パラメーター言語モデルの長さの外挿を評価するための画像を添付しました:

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした画像位置ごとの平均損失 (対数の可読性) が にプロットされています。最初のトークンにはコンテキストがないため、混乱度は高くなりますが、Mamba とベースライン Transformer (Pythia) の両方の混乱度は、コンテキストの長さ (2048) でトレーニングする前に増加します。興味深いことに、Mamba の可解決性は、トレーニング コンテキストを超えて、最大約 3000 の長さまで大幅に向上します。

著者は、長さの外挿がこの記事のモデルの直接的な動機ではなく、追加の機能として扱っていることを強調しています。

ここでのベースライン モデル (Pythia) は長さの外挿を念頭に置いてトレーニングされていないため、より一般的な他の Transformer バリアント (T5 や Alibi 相対位置エンコーディングなど) が存在する可能性があります。

相対位置エンコーディングを使用して Pile でトレーニングされたオープン ソース 3B モデルが見つからないため、この比較はできません。
  1. Mamba は、Pythia と同様、トレーニング時に長さの外挿を考慮しないため、比較できません。 Transformer には、長さ一般化アイソメトリックの能力を向上させるための多くのテクニック (さまざまな位置埋め込みなど) があるのと同じように、将来の研究では、同様の機能のための SSM 固有のテクニックを導き出すことが興味深いかもしれません。
  2. WikiText-103 から新しい結果を追加
    著者は複数の論文の結果を分析しました。 Mamba が WikiText-103 上で、他の 20 以上の最先端の二次二次シーケンス モデルよりも大幅に優れたパフォーマンスを発揮することを示しています。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

# それにもかかわらず、2 か月が経過し、この記事がこの論文です。まだ「決定保留中」のプロセスにあり、「承認」または「拒否」の明確な結果はありません。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

トップカンファレンスで拒否された論文

主要な AI トップカンファレンスでは、「投稿数の爆発的増加」が頭の痛い問題であるため、査読者のエネルギーは必然的に限られます。間違い。これにより、YOLO、transformer XL、Dropout、サポート ベクター マシン (SVM)、知識蒸留、SIFT、Google 検索エンジンの Web ページ ランキング アルゴリズム PageRank など、歴史上の多くの有名な論文が拒否されることになりました (「有名な YOLO と PageRank」を参照)影響力のある研究が最高の CS 会議によって拒否されました。」)

ディープラーニングの三大巨頭の一人であるヤン・ルカン氏ですら、断られることの多い大手製紙メーカーでもあります。たった今、同氏は、1887回引用されている論文「グラフ構造データに関する深層畳み込みネットワーク」もトップカンファレンスで拒否されたとツイートした。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

ICML 2022 の期間中、彼は「3 つの論文を投稿し、3 つが拒否された」ことさえありました。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

したがって、論文がトップカンファレンスで拒否されたからといって、その論文に価値がないというわけではありません。上記で拒否された論文の中には、他の学会への移籍を選択した論文も多く、最終的には採択されました。そのため、ネチズンはマンバに対し、陳丹祁などの若い学者が設立したCOLMに切り替えるよう提案した。 COLM は言語モデリング研究に特化した学術会場であり、言語モデル テクノロジの開発の理解、改善、コメントに重点を置いており、Mamba のような論文にはより良い選択となる可能性があります。

なぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こした

しかし、Mamba が最終的に ICLR に受け入れられるかどうかに関係なく、Mamba は影響力のある作品となり、コミュニティに突破口を見せることができました。のトランスフォーマー シャックルは、従来のトランスフォーマー モデルを超えた探求に新たな活力を注入しました。

以上がなぜ ICLR はマンバの論文を受け入れなかったのでしょうか? AIコミュニティが大きな議論を巻き起こしたの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

mysqlはjsonを返すことができますか mysqlはjsonを返すことができますか Apr 08, 2025 pm 03:09 PM

MySQLはJSONデータを返すことができます。 json_extract関数はフィールド値を抽出します。複雑なクエリについては、Where句を使用してJSONデータをフィルタリングすることを検討できますが、そのパフォーマンスへの影響に注意してください。 JSONに対するMySQLのサポートは絶えず増加しており、最新バージョンと機能に注意を払うことをお勧めします。

酸性特性を理解する:信頼できるデータベースの柱 酸性特性を理解する:信頼できるデータベースの柱 Apr 08, 2025 pm 06:33 PM

データベース酸属性の詳細な説明酸属性は、データベーストランザクションの信頼性と一貫性を確保するための一連のルールです。データベースシステムがトランザクションを処理する方法を定義し、システムのクラッシュ、停電、または複数のユーザーの同時アクセスの場合でも、データの整合性と精度を確保します。酸属性の概要原子性:トランザクションは不可分な単位と見なされます。どの部分も失敗し、トランザクション全体がロールバックされ、データベースは変更を保持しません。たとえば、銀行の譲渡が1つのアカウントから控除されているが別のア​​カウントに増加しない場合、操作全体が取り消されます。 TRANSACTION; updateaccountssetbalance = balance-100wh

MySQLはダウンロード後にインストールできません MySQLはダウンロード後にインストールできません Apr 08, 2025 am 11:24 AM

MySQLのインストール障害の主な理由は次のとおりです。1。許可の問題、管理者として実行するか、SUDOコマンドを使用する必要があります。 2。依存関係が欠落しており、関連する開発パッケージをインストールする必要があります。 3.ポート競合では、ポート3306を占めるプログラムを閉じるか、構成ファイルを変更する必要があります。 4.インストールパッケージが破損しているため、整合性をダウンロードして検証する必要があります。 5.環境変数は誤って構成されており、環境変数はオペレーティングシステムに従って正しく構成する必要があります。これらの問題を解決し、各ステップを慎重に確認して、MySQLを正常にインストールします。

MySQLの主な鍵はヌルにすることができます MySQLの主な鍵はヌルにすることができます Apr 08, 2025 pm 03:03 PM

MySQLプライマリキーは、データベース内の各行を一意に識別するキー属性であるため、空にすることはできません。主キーが空になる可能性がある場合、レコードを一意に識別することはできません。これにより、データの混乱が発生します。一次キーとして自己挿入整数列またはUUIDを使用する場合、効率やスペース占有などの要因を考慮し、適切なソリューションを選択する必要があります。

See all articles