ホームページ テクノロジー周辺機器 AI DeepMind 氏「AI モデルは減量する必要があり、自己回帰が主流になる」

DeepMind 氏「AI モデルは減量する必要があり、自己回帰が主流になる」

Apr 27, 2023 pm 04:49 PM
ai deepmind 体重が減る

Transformer を中心とした自己回帰的注意プログラムは、規模の難しさを克服するのが常に困難でした。この目的を達成するために、DeepMind/Google は最近、そのようなプログラムを効果的にスリム化するための良い方法を提案する新しいプロジェクトを設立しました。

DeepMind 氏「AI モデルは減量する必要があり、自己回帰が主流になる」

DeepMind と Google Brain によって作成された Perceiver AR アーキテクチャは、潜在空間への入力と出力の組み合わせプロパティを計算するという、リソースを大量に消費するタスクを回避します。代わりに、彼らは潜在空間に「因果マスキング」を導入し、それによって典型的な Transformer の自己回帰順序を実現しました。

人工知能/ディープラーニングの分野における最も印象的な開発トレンドの 1 つは、モデルのサイズがますます大きくなっているということです。この分野の専門家らは、規模は業績に直接関係していることが多いため、この規模拡大の波は今後も続く可能性が高いと述べている。

しかし、プロジェクトの規模はますます大きくなり、消費されるリソースも当然増加するため、ディープラーニングは社会的および倫理的レベルで新たな問題を引き起こすようになりました。このジレンマは、ネイチャーなどの主流科学誌の注目を集めています。

このため、AI プログラムという古い言葉「効率」に立ち返る必要があるかもしれませんが、さらなる効率化の余地はあるのでしょうか?

DeepMind 部門と Google Brain 部門の科学者たちは、コンピューティング リソースの使用効率を向上させることを期待して、昨年発売したニューラル ネットワーク Perceiver を最近修正しました。

新しいプログラムの名前は Perceiver AR です。ここでの AR は「自己回帰」に由来しており、これは今日ますます増えている深層学習プログラムのもう 1 つの開発方向でもあります。自己回帰は、マシンが出力をプログラムへの新しい入力として使用できるようにする手法であり、再帰的な操作により、複数の要素が相互に関連するアテンション マップを形成します。

Google が 2017 年に発売した人気のニューラル ネットワーク Transformer にも、この自己回帰特性があります。実際、後の GPT-3 と Perceiver の最初のバージョンでは、自己回帰的な技術的路線が継続されました。

Perceiver AR が登場する前は、今年 3 月に発売された Perceiver IO が Perceiver の 2 番目のバージョンで、さらに遡ると昨年の今頃リリースされた Perceiver の最初のバージョンでした。

Perceiver の最初の革新は、Transformer を使用し、テキスト、音声、画像などのさまざまな入力を柔軟に吸収できるように調整し、特定の種類の入力への依存から脱却することです。これにより、研究者は複数の入力タイプを使用してニューラル ネットワークを開発できるようになります。

時代の流れの一員として、Perceiver は他のモデル プロジェクトと同様に、異なる入力モードと異なるタスク ドメインを混合するために自己回帰注意メカニズムを使用し始めました。このようなユースケースには、Google の Pathways、DeepMind の Gato、Meta の data2vec も含まれます。

今年の 3 月、Perceiver の最初のバージョンの作成者である Andrew Jagle と彼の同僚チームは、「IO」バージョンをリリースしました。新しいバージョンでは、Perceiver でサポートされる出力タイプが強化され、テキスト言語、オプティカル フロー フィールド、オーディオビジュアル シーケンス、さらには順序のないシンボルのセットなど、さまざまな構造を含む多数の出力が可能になります。 Perceiver IO は、ゲーム「StarCraft 2」の操作命令を生成することもできます。

この最新の論文では、Perceiver AR は長いコンテキストに対する一般的な自己回帰モデリングを実装することができました。しかし、研究中に、Jaegle と彼のチームは、さまざまなマルチモーダル入出力タスクを処理するときにモデルをどのようにスケールするかという新しい課題にも遭遇しました。

問題は、Transformer の自己回帰品質、および同様に入力から出力へのアテンション マップを構築するプログラムでは、最大数十万要素という大規模な配布サイズが必要であることです。

これは、注意メカニズムの致命的な弱点です。より正確には、アテンション マップの確率分布を構築するには、すべてに注意を払う必要があります。

#Jagle と彼のチームが論文で述べたように、入力内で相互に比較する必要があるものの数が増加するにつれて、モデルによるコンピューティング リソースの消費量はますます誇張されます。 #この種の長いコンテキスト構造と Transformer の計算の性質の間には矛盾があります。トランスフォーマーは入力に対してセルフアテンション操作を繰り返し実行するため、計算要件は入力の長さに対して二次関数的に、またモデルの深さに対して線形的に増加します。入力データが増えるほど、観測されたデータ内容に対応する入力タグも多くなり、入力データのパターンはより微妙で複雑になり、生成されたパターンをモデル化するにはより深い層を使用する必要があります。コンピューティング能力が限られているため、Transformer ユーザーはモデル入力を切り詰めるか (より遠くのパターンの観察を防ぐ)、またはモデルの深さを制限する (その結果、複雑なパターンをモデル化する表現力が失われます) ことを余儀なくされます。

実際、Perceiver の最初のバージョンでは、Transformer の効率を向上させることも試みました。つまり、アテンションを直接実行するのではなく、入力の潜在的な表現に対してアテンションを実行することでした。このようにして、大規模な入力配列を処理するための計算能力要件を、「大規模なディープ ネットワークに対応する計算能力要件から (切り離す)」ことができます。

DeepMind 氏「AI モデルは減量する必要があり、自己回帰が主流になる」

Perceiver AR、標準の Transformer ディープ ネットワーク、および強化された Transformer XL の比較。

潜在部分では、入力表現が圧縮されるため、より効率的な注意エンジンになります。このようにして、「ディープネットワークでは、計算のほとんどが実際にセルフアテンションスタック上で行われ」、無数の入力を操作する必要がなくなります。

しかし、基礎となる表現には順序の概念がないため、Perceiver は Transformer のような出力を生成できないため、課題はまだ存在します。自己回帰では順序が重要であり、各出力は、後の積ではなく、その前の入力の積である必要があります。

しかし、各潜在モデルは位置に関係なくすべての入力に注意を払うため、「各モデルの出力が以前の入力にのみ依存する必要がある自己回帰生成の場合」、Perceiver は直接適用できないと研究者らは書いています。 ."

Perceiver AR に関しては、研究チームはさらに一歩進んで、自動回帰を可能にするためにシーケンスを Perceiver に挿入しました。

ここで重要なのは、入力と潜在表現に対していわゆる「因果マスキング」を実行することです。入力側では、因果マスキングは「クロスアテンション」を実行しますが、基礎となる表現側では、プログラムが指定されたシンボルの前にあるもののみに注意を払うように強制されます。この方法では、Transformer の方向性が復元され、それでも総計算量を大幅に削減できます。

その結果、Perceiver AR は、より多くの入力に基づいて Transformer に匹敵するモデリング結果を達成できますが、パフォーマンスは大幅に向上しています。

彼らは、「Perceiver AR は、合成コピー タスクにおいて、少なくとも 100,000 トークン離れた長いコンテキスト パターンを完全に識別して学習できます。」と書いていますが、それに比べて、Transformer には 2048 トークンというハード リミットがあります。 、コンテキストが長くなり、プログラム出力がより複雑になります。

純粋なデコーダを広く使用する Transformer および Transformer-XL アーキテクチャと比較して、Perceiver AR はより効率的であり、ターゲットの予算に応じてテスト中に使用される実際のコンピューティング リソースを柔軟に変更できます。

論文では、同じ注意条件下では、Perceiver AR の計算にかかる実時間は大幅に短縮され、同じ計算能力バジェットの下でより多くのコンテキスト (つまり、より多くの入力シンボル) を吸収できると書いています。

Transformer のコンテキストの長さは 2048 トークンに制限されています。これは、6 つのレイヤーのみをサポートすることに相当します。これは、より大きなモデルとより長いコンテキストには大量のメモリが必要となるためです。同じ 6 層構成を使用して、Transformer-XL メモリのコンテキストの合計長を 8192 トークンまで拡張できます。 Perceiver AR はコンテキストの長さを 65k マーカーまで拡張でき、さらに最適化すると 100k を超えることも予想されます。

これらすべてにより、コンピューティングがより柔軟になります。「テスト中に特定のモデルが生成する計算量をより適切に制御できるため、速度とパフォーマンスの安定したバランスを実現できます。」

また、Jaegle らは、このアプローチは単語記号に限定されず、あらゆる入力タイプに有効であると書いています。たとえば、画像内のピクセルをサポートできます。

因果関係マスキング手法が適用されている限り、並べ替え可能な入力に対して同じプロセスが機能します。たとえば、画像の RGB チャネルは、シーケンス内の各ピクセルの R、G、B カラー チャネルを順番または順不同でデコードすることにより、ラスター スキャン順序で並べ替えることができます。

著者らは Perceiver に大きな可能性を見出し、論文で「Perceiver AR はロングコンテキストの汎用自己回帰モデルの理想的な候補です。」と書いています。計算効率が高くなると、別の追加の不安定要因に対処する必要があります。著者らは、研究コミュニティが最近、「スパース性」(つまり、一部の入力要素に割り当てられる重要性を制限するプロセス)を通じて自己回帰的注意の計算要件を削減しようとしていると指摘しています。

DeepMind 氏「AI モデルは減量する必要があり、自己回帰が主流になる」

同じ実測時間内で、Perceiver AR は同じレイヤー数でより多くの入力を実行できます。 . シンボルを実行するか、同じ数の入力シンボルの実行で計算時間を大幅に短縮します。著者らは、この優れた柔軟性が大規模ネットワークの一般的な効率向上手法につながる可能性があると考えています。

しかし、スパーシティには独自の欠点もあります。主な欠点は、柔軟性が高すぎることです。この論文では、「スパース手法を使用する欠点は、このスパース性を手動調整またはヒューリスティック手法で作成する必要があることです。これらのヒューリスティックは特定のフィールドにのみ適用できることが多く、調整が難しいことがよくあります。」と述べています。 2017年にリリースされたプロジェクトはまばらなプロジェクトです。

彼らは次のように説明しました。「対照的に、私たちの仕事では、アテンション層でスパースパターンを手動で作成する必要はありませんが、どのロングコンテキスト入力がより多くの注意を必要とし、通過する必要があるかをネットワークが自律的に学習できるようになります。ネットワークは伝播します。」

論文はまた、「最初のクロスアテンション操作はシーケンス内の位置の数を減らし、スパース学習の一種とみなすことができます。」

と付け加えています。この方法で学習されたスパース性自体は、今後数年間で深層学習モデル ツールキットの別の強力なツールになる可能性があります。

以上がDeepMind 氏「AI モデルは減量する必要があり、自己回帰が主流になる」の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

AI Hentai Generator

AI Hentai Generator

AIヘンタイを無料で生成します。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? vue.jsのストリングをオブジェクトに変換するためにどのような方法が使用されますか? Apr 07, 2025 pm 09:39 PM

vue.jsのオブジェクトに文字列を変換する場合、標準のjson文字列にはjson.parse()が推奨されます。非標準のJSON文字列の場合、文字列は正規表現を使用して処理し、フォーマットまたはデコードされたURLエンコードに従ってメソッドを削減できます。文字列形式に従って適切な方法を選択し、バグを避けるためにセキュリティとエンコードの問題に注意してください。

VueおよびElement-UIカスケードドロップダウンボックスVモデルバインディング VueおよびElement-UIカスケードドロップダウンボックスVモデルバインディング Apr 07, 2025 pm 08:06 PM

VueとElement-UIカスケードドロップダウンボックスv-Modelバインディング共通ピットポイント:V-Modelは、文字列ではなく、カスケード選択ボックスの各レベルで選択した値を表す配列をバインドします。 SelectedOptionsの初期値は、nullまたは未定義ではなく、空の配列でなければなりません。データの動的読み込みには、非同期でデータの更新を処理するために非同期プログラミングスキルを使用する必要があります。膨大なデータセットの場合、仮想スクロールや怠zyな読み込みなどのパフォーマンス最適化手法を考慮する必要があります。

vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? vue.js文字列タイプの配列をオブジェクトの配列に変換する方法は? Apr 07, 2025 pm 09:36 PM

概要:Vue.js文字列配列をオブジェクト配列に変換するための次の方法があります。基本方法:定期的なフォーマットデータに合わせてマップ関数を使用します。高度なゲームプレイ:正規表現を使用すると、複雑な形式を処理できますが、慎重に記述して考慮する必要があります。パフォーマンスの最適化:大量のデータを考慮すると、非同期操作または効率的なデータ処理ライブラリを使用できます。ベストプラクティス:コードスタイルをクリアし、意味のある変数名とコメントを使用して、コードを簡潔に保ちます。

Vue Axiosのタイムアウトを設定する方法 Vue Axiosのタイムアウトを設定する方法 Apr 07, 2025 pm 10:03 PM

Vue axiosのタイムアウトを設定するために、Axiosインスタンスを作成してタイムアウトオプションを指定できます。グローバル設定:Vue.Prototype。$ axios = axios.create({Timeout:5000});単一のリクエストで:this。$ axios.get( '/api/users'、{timeout:10000})。

インストール後にMySQLの使用方法 インストール後にMySQLの使用方法 Apr 08, 2025 am 11:48 AM

この記事では、MySQLデータベースの操作を紹介します。まず、MySQLWorkBenchやコマンドラインクライアントなど、MySQLクライアントをインストールする必要があります。 1. mysql-uroot-pコマンドを使用してサーバーに接続し、ルートアカウントパスワードでログインします。 2。CreatedAtaBaseを使用してデータベースを作成し、データベースを選択します。 3. createTableを使用してテーブルを作成し、フィールドとデータ型を定義します。 4. INSERTINTOを使用してデータを挿入し、データをクエリし、更新することでデータを更新し、削除してデータを削除します。これらの手順を習得することによってのみ、一般的な問題に対処することを学び、データベースのパフォーマンスを最適化することでMySQLを効率的に使用できます。

Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Laravelの地理空間:インタラクティブマップと大量のデータの最適化 Apr 08, 2025 pm 12:24 PM

700万のレコードを効率的に処理し、地理空間技術を使用したインタラクティブマップを作成します。この記事では、LaravelとMySQLを使用して700万を超えるレコードを効率的に処理し、それらをインタラクティブなマップの視覚化に変換する方法について説明します。最初の課題プロジェクトの要件:MySQLデータベースに700万のレコードを使用して貴重な洞察を抽出します。多くの人は最初に言語をプログラミングすることを検討しますが、データベース自体を無視します。ニーズを満たすことができますか?データ移行または構造調​​整は必要ですか? MySQLはこのような大きなデータ負荷に耐えることができますか?予備分析:キーフィルターとプロパティを特定する必要があります。分析後、ソリューションに関連している属性はわずかであることがわかりました。フィルターの実現可能性を確認し、検索を最適化するためにいくつかの制限を設定しました。都市に基づくマップ検索

リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です リモートシニアバックエンジニア(プラットフォーム)がサークルが必要です Apr 08, 2025 pm 12:27 PM

リモートシニアバックエンジニアの求人事業者:サークル場所:リモートオフィスジョブタイプ:フルタイム給与:$ 130,000- $ 140,000職務記述書サークルモバイルアプリケーションとパブリックAPI関連機能の研究開発に参加します。ソフトウェア開発ライフサイクル全体をカバーします。主な責任は、RubyonRailsに基づいて独立して開発作業を完了し、React/Redux/Relay Front-Endチームと協力しています。 Webアプリケーションのコア機能と改善を構築し、機能設計プロセス全体でデザイナーとリーダーシップと緊密に連携します。肯定的な開発プロセスを促進し、反復速度を優先します。 6年以上の複雑なWebアプリケーションバックエンドが必要です

MySQLを解決する方法は開始できません MySQLを解決する方法は開始できません Apr 08, 2025 pm 02:21 PM

MySQLの起動が失敗する理由はたくさんあり、エラーログをチェックすることで診断できます。一般的な原因には、ポートの競合(ポート占有率をチェックして構成の変更)、許可の問題(ユーザー許可を実行するサービスを確認)、構成ファイルエラー(パラメーター設定のチェック)、データディレクトリの破損(テーブルスペースの復元)、INNODBテーブルスペースの問題(IBDATA1ファイルのチェック)、プラグインロード障害(エラーログのチェック)が含まれます。問題を解決するときは、エラーログに基づいてそれらを分析し、問題の根本原因を見つけ、問題を防ぐために定期的にデータをバックアップする習慣を開発する必要があります。

See all articles