ホームページ テクノロジー周辺機器 AI Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

Jan 26, 2024 pm 02:57 PM
ai データ

昨年 12 月、CMU とプリンストンの 2 人の研究者が Mamba アーキテクチャをリリースし、即座に AI コミュニティに衝撃を与えました。

その結果、誰もが「トランスフォーマーの覇権を覆す」と期待していたこの論文が、今日、リジェクトの疑いがあることが明らかになった? !

今朝、コーネル大学准教授のサーシャ・ラッシュ氏は、基礎的研究であると期待されているこの論文がICLR 2024によって拒否されたようであることを初めて発見しました。

そして、「正直、わかりません。もし拒否されたら、チャンスはありますか?」と言いました。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

OpenReview でわかるように、4 人のレビュー担当者が与えたスコアは 3、6、8、8 です。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

このスコアでは論文がリジェクトされることはないかもしれませんが、3 ポイントという低いスコアも法外です。

Niu Wen が 3 得点を挙げ、LeCun も苦情を言いに来ました。

この論文は、CMU とプリンストン大学の 2 人の研究者によって発表されました。 . 新しいアーキテクチャMambaが提案されています。

この SSM アーキテクチャは、言語モデリングにおいて Transformers に匹敵し、5 倍の推論スループットを持ちながら線形に拡張することもできます。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

論文アドレス: https://arxiv.org/pdf/2312.00752.pdf

At当時この論文は発表されるやいなやAIコミュニティに衝撃を与え、ついにTransformerを打倒するアーキテクチャが誕生したと多くの人が言いました。

さて、マンバの論文は却下される可能性が高く、多くの人はそれを理解できません。

チューリングの巨人ルカン氏もこの議論に参加し、同様の「不正義」に遭遇したと述べた。

「当時、私が最も多く引用されていたと思います。Arxiv に投稿した論文だけでも 1,880 回以上引用されましたが、決して採用されませんでした。」

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

LeCun は、畳み込みニューラル ネットワーク (CNN) を使用した光学式文字認識とコンピューター ビジョンの研究で有名です。光学式文字認識とコンピュータ ビジョンで、2019 年にチューリング賞を受賞。

しかし、2015年に発表された彼の論文「グラフ構造データに基づく深層畳み込みネットワーク」は、トップカンファレンスに一度も受け入れられていません。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

論文アドレス: https://arxiv.org/pdf/1506.05163.pdf

深さ学習 AI 研究者のセバスチャン・ラシュカ氏は、それにもかかわらず、Mamba は AI コミュニティに大きな影響を与えていると述べました。

最近、MoE-Mamba や Vision Mamba など、Mamba アーキテクチャに基づく研究の大きな波が押し寄せています。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

興味深いことに、マンバに低いスコアが与えられたというニュースを伝えたサーシャ・ラッシュも、今日そのような研究に基づいた新しい論文を発表しました—マンババイト。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

実際、Mamba アーキテクチャには、「たった 1 つの火花が草原の火を引き起こす可能性がある」という考え方がすでに組み込まれています。学術界においても、その影響力はますます広がっています。

一部のネチズンは、Mamba の論文が arXiv を占拠し始めるだろうと言いました。

「たとえば、トークンのない選択的状態空間モデルである MambaByte を提案しているこの論文を目にしました。基本的に、これは Mamba SSM を元のトークンからの直接学習に適応させています。」

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

Mamba 紙の Tri Dao も本日、この研究を紹介しました。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

このような人気のある論文に低いスコアが与えられたため、査読者はマーケティングにまったく注意を払っていないのではないかと言う人もいます。声が大きいです。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

Mamba の論文が低いスコアを与えられた理由

Mamba の論文が与えられた理由スコアが低いのですが、それは何ですか?

レビューに 3 のスコアを付けたレビュー担当者の信頼レベルは 5 であることがわかります。これは、このスコアを非常に確信していることを意味します。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

レビューでは、彼が提起した質問は 2 つの部分に分かれていました。1 つはモデルの設計に対する質問で、もう 1 つは実験に対する質問でした。 。

モデル設計

- Mamba の設計動機は、ループ モデルのパフォーマンスを向上させながら、ループ モデルの欠点を解決することです。 Transformer モデルの効率。この方向に沿った研究は数多くあります: S4-diagonal [1]、SGConv [2]、MEGA [3]、SPADE [4]、および多くの効率的な Transformer モデル ([5] など)。これらのモデルはすべてほぼ線形の複雑さを達成しており、著者はモデルのパフォーマンスと効率の点で Mamba とこれらの作品を比較する必要があります。モデルのパフォーマンスに関しては、いくつかの簡単な実験 (Wikitext-103 での言語モデリングなど) で十分です。

#- アテンションベースの Transformer モデルの多くは、長さを一般化する機能を備えています。つまり、モデルを短いシーケンス長でトレーニングしてから、より長いシーケンス長でテストを実行できます。例としては、相対位置エンコーディング (T5) や Alibi [6] などがあります。 SSM は一般に連続的であるため、Mamba にはこの長さの汎化能力があるのでしょうか?

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

実験

- 著者はより強力なベースラインと比較する必要があります。著者らは、H3 がモデル アーキテクチャの動機として使用されたことを認めています。ただし、実験的には H3 と比較できませんでした。 [7] の表 4 からわかるように、Pile データセットでは、H3 の ppl はそれぞれ 8.8 (125M)、7.1 (355M)、および 6.0 (1.3B) であり、Mamba よりも大幅に優れています。著者は H3 との比較を示す必要があります。

#- 事前トレーニング済みモデルについては、作成者はゼロショット推論の結果のみを示しています。この設定は非常に限定的であり、結果は Mamba の有効性をあまりよく示していません。著者らには、入力シーケンスが当然非常に長くなる(たとえば、arXiv データセットの平均シーケンス長が 8k を超える)ドキュメントの要約など、長いシーケンスを使った実験をさらに行うことをお勧めします。

#- 著者は、彼の主な貢献の 1 つは長いシーケンスのモデリングであると主張しています。著者らは、基本的に長い配列を理解するための標準ベンチマークである LRA (Long Range Arena) 上のより多くのベースラインと比較する必要があります。

# - メモリ ベンチマークがありません。セクション 4.5 は「速度とメモリのベンチマーク」というタイトルですが、速度の比較のみをカバーしています。さらに、作成者は、図 8 の左側で、モデル層、モデル サイズ、畳み込みの詳細など、より詳細な設定を提供する必要があります。著者らは、シーケンス長が非常に長い場合に FlashAttend が最も遅くなる理由について直感的な説明を提供できますか (図 8 左)。

査読者の疑念について、著者も下調べをして、いくつかの実験データを考え出して反論しました。

たとえば、モデル設計に関する最初の質問に関して、著者は、チームが小規模なベンチマークではなく、大規模な事前トレーニングの複雑さに意図的に焦点を当てたと述べました。

それにもかかわらず、Mamba は WikiText-103 で提案されているすべてのモデルなどを大幅に上回っており、これは言語の一般的な結果から予想されることです。

まず、ハイエナの論文とまったく同じ環境で Mamba を比較しました [Poli、表 4.3]。報告されたデータに加えて、私たちは独自の強力な Transformer ベースラインも調整しました。

その後、モデルを Mamba に変更しました。これにより、Transformer よりも 1.7 ppl、元のベースラインの Transformer よりも 2.3 ppl 改善されました。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

「メモリ不足ベンチマーク」について、著者は次のように述べています:

ほとんどの深さのシーケンスの場合モデル (FlashAttend を含む) と同様に、メモリ使用量はアクティベーション テンソルのサイズのみです。実際、Mamba はメモリ効率が非常に高いため、A100 80GB GPU 上の 125M モデルのトレーニング メモリ要件も測定しました。各バッチは長さ 2048 のシーケンスで構成されます。これを、私たちが知っている中で最もメモリ効率の高い Transformer 実装 (torch.compile を使用したカーネル フュージョンおよび FlashAttendant-2) と比較しました。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

反論の詳細については、https://openreview.net/forum?id=AL1fq05o7H

をご覧ください。 全体として、査読者のコメントは著者によって対処されていますが、これらの反論は査読者によって完全に無視されています。

誰かがこの査読者の意見に「要点」を見つけました: おそらく彼は rnn が何なのか理解していませんか?

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

その一部始終を見たネチズンは、全過程を読むのが苦痛だったと言っており、論文の著者は非常に丁寧な回答をしていましたが、査読者 迷うことも、再評価することもありません。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

信頼度 5 で 3 点を与え、著者の十分に根拠のある反論は無視してください。この種の査読者は迷惑すぎます。バー。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

他の 3 人のレビュー担当者は、6、8、8 という高いスコアを付けました。

6 点を獲得したレビューアーは、「モデルはトレーニング中に Transformer のような二次記憶を依然として必要とする」という弱点を指摘しました。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

#8 点を獲得した査読者は、この記事の弱点は単に「いくつかの関連著作への引用が欠如していること」であると述べました。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

8 点を与えた別の査読者は、「実証的な部分が非常に徹底的で、結果は強力である」とこの論文を賞賛しました。

弱点すら見つかりませんでした。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

#このように大きく異なる分類については説明が必要です。しかし、メタレビューアーのコメントはまだありません。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

ネチズンは「学術界も衰退した!」と叫びました。

コメント欄で魂の拷問について質問がありましたが、3 という低いスコアを付けたのは誰ですか? ?

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

明らかに、この論文は非常に低いパラメータでより良い結果を達成しており、GitHub コードも明確で誰でもテストできるため、この論文が勝利しました。広く賞賛されているので、誰もがそれはとんでもないことだと考えています。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

「なんてことだ」と単純に叫ぶ人もいます。たとえ Mamba アーキテクチャが LLM の状況を変えることができなかったとしても、Mamba は長いシーケンスで複数の用途に使用できる信頼性の高いモデルです。 。このスコアを獲得するということは、今日の学術界が衰退したことを意味するのでしょうか?

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

誰もが感動のため息をつきました。幸いなことに、これは 4 件のコメントのうちの 1 件にすぎません。他のレビューアーは高得点を付けました。現時点では、最終 A です。まだ決定は下されていない。

査読者は疲れすぎて判断力を失ったのではないかと推測する人もいます。

もう 1 つの理由は、状態空間モデルのような新しい研究の方向性が、トランスフォーマー分野で大きな成果を上げている一部の査読者や専門家を脅かす可能性があることです。状況は非常に複雑です。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

マンバの論文が 3 ポイントを獲得したのは、業界では単なるジョークだという人もいます。

彼らは非常に詳細なベンチマークを比較することに重点を置いていますが、この論文の本当に興味深い部分はエンジニアリングと効率です。非常に狭い分野のサブセットの時代遅れのベンチマークに基づいているにもかかわらず、SOTA のみを気にしているため、研究は死につつあります。

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

「理論が足りず、プロジェクトが多すぎます。」

Transformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かす

現時点では、この「謎の事件」はまだ明らかになっておらず、AI コミュニティ全体が結果を待っています。

以上がTransformer の画期的な研究は反対され、ICLR のレビューで疑問が生じました。国民はブラックボックス操作を非難、ルカン氏も同様の経験を明かすの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

MySQLインストール後にデータベースのパフォーマンスを最適化する方法 MySQLインストール後にデータベースのパフォーマンスを最適化する方法 Apr 08, 2025 am 11:36 AM

MySQLパフォーマンスの最適化は、インストール構成、インデックス作成、クエリの最適化、監視、チューニングの3つの側面から開始する必要があります。 1。インストール後、INNODB_BUFFER_POOL_SIZEパラメーターやclose query_cache_sizeなど、サーバーの構成に従ってmy.cnfファイルを調整する必要があります。 2。過度のインデックスを回避するための適切なインデックスを作成し、説明コマンドを使用して実行計画を分析するなど、クエリステートメントを最適化します。 3. MySQL独自の監視ツール(ShowProcessList、ShowStatus)を使用して、データベースの健康を監視し、定期的にデータベースをバックアップして整理します。これらの手順を継続的に最適化することによってのみ、MySQLデータベースのパフォーマンスを改善できます。

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

See all articles