トランスフォーマー + ワールド モデル、深層強化学習を節約できるか?
多くの人が知っているように、李世ドル、柯潔、その他の国際トップ棋士を破ったAlphaGoには、李世ドルを破った第一世代AlphaGo Leeと、第二世代AlphaGo Masterという3回のバージョンがあった。柯潔を破り、前2世代を破った第3世代AlphaGo Zero。
AlphaGo のチェスのスキルは世代を重ねるごとに向上する可能性がありますが、その背後には実は AI テクノロジーにおける明らかな傾向があり、強化学習の割合が増加しています。
近年、強化学習はさらなる「進化」を遂げており、この「進化した」強化学習を人々は深層強化学習と呼んでいます。
しかし、深層強化学習エージェントのサンプル効率は低いため、実際の問題への応用は大きく制限されます。
最近、この問題を解決するために多くのモデルベースの方法が設計されており、世界モデルの想像力による学習は最も著名な方法の 1 つです。
ただし、シミュレートされた環境とのほぼ無制限のインタラクションは魅力的に聞こえますが、世界モデルは長期間にわたって正確さを維持する必要があります。
シーケンス モデリング タスクにおける Transformer の成功に触発されて、コーネル大学の Vincent Micheli、Eloy Alonso、François Fleure は IRIS を導入しました。これは、離散オートエンコーダと自己回帰トランスフォーマー。
Atari 100k ベンチマークでは、わずか 2 時間のゲームプレイに相当し、IRIS は人間による正規化平均スコア 1.046 を達成し、26 試合中 10 試合で人間を上回りました。
以前、LeCun は強化学習は行き詰まりにつながるだろうと述べたことがあります。
現在、コーネル大学の Vincent Micheli、Eloy Alonso、Francois Fleure らがワールド モデルと強化学習 (より正確には深層強化) を統合しているようです。学習中)、その2つをつなぐ架け橋がトランスフォーマーです。
深層強化学習の違い
人工知能テクノロジーというと、多くの人が思い浮かべるのは深層学習です。
実はAIの分野ではディープラーニングは今でも活発に行われていますが、多くの問題点も明らかになってきています。
現在、深層学習で最も一般的に使用されている方法は教師あり学習です。教師あり学習は「参照回答による学習」として理解できますが、その特徴の 1 つは、データを学習に使用する前にデータにラベルを付ける必要があることです。しかし現在、大量のデータはラベルのないデータであり、ラベルを付けるコストは非常に高くなっています。
この状況を受けて、「人工知能と同じくらいの知能がある」と冗談を言う人もいたほどです。
多くの専門家を含む多くの研究者が、ディープラーニングが「間違っている」かどうかを熟考しています。
そこで、強化学習が台頭し始めました。
強化学習は教師あり学習や教師なし学習とは異なり、エージェントを使って試行錯誤を繰り返し、その結果に応じてAIに賞罰を与える学習です。これは、DeepMind がさまざまなチェスやカード AI、ゲーム AI を作成するための手法です。この道の信奉者は、報酬インセンティブが正しく設定されている限り、強化学習によって最終的には本物の AGI が作成されると信じています。
しかし、強化学習にも問題があり、LeCun 氏の言葉を借りると、「強化学習では、最も単純なタスクを実行するようにモデルをトレーニングするために、膨大な量のデータが必要です。」
つまり、強化学習と深層学習が結合されて、深層強化学習になりました。
深層強化学習、強化学習は骨格、深層学習は魂です。これは何を意味しますか?深層強化学習の主な動作メカニズムは、実際には基本的に強化学習と同じですが、このプロセスを完了するためにディープ ニューラル ネットワークが使用される点が異なります。
さらに、一部の深層強化学習アルゴリズムは、既存の強化学習アルゴリズムにディープ ニューラル ネットワークを追加するだけで、新しい深層強化学習アルゴリズムのセットを実装します。非常に有名な深層強化学習アルゴリズム DQN は、その典型的な例です。
トランスフォーマーの魅力
トランスフォーマーは 2017 年に初めて登場し、Google の論文「Attending is All You Need」で提案されました。
Transformer が登場するまで、言語タスクにおける人工知能の進歩は他の分野の発展に比べて遅れていました。マサチューセッツ大学ローウェル校のコンピューター科学者、アンナ・ラムシスキー氏は、「過去 10 年間に起こった深層学習革命において、自然言語処理はやや後発の存在でした。ある意味、NLP はコンピューター ビジョン、Transformer に比べて遅れをとっていたのです」と述べています。
近年、Transformer 機械学習モデルは、ディープ ラーニングとディープ ニューラル ネットワーク テクノロジーの進歩の主なハイライトの 1 つとなっています。主に自然言語処理の高度なアプリケーションに使用されます。 Google は、検索エンジンの結果を強化するためにこれを使用しています。
Transformer は、テキストの分析と予測に重点を置いた単語認識などのアプリケーションですぐにリーダーになりました。これは、数千億の単語をトレーニングして一貫した新しいテキストを生成できる OpenAI の GPT-3 のようなツールの波を引き起こしました。
現在、Transformer アーキテクチャは進化を続け、言語タスクから他のドメインまで拡張し、さまざまなバリエーションに拡張されています。たとえば、Transformer は時系列予測に使用されており、DeepMind のタンパク質構造予測モデル AlphaFold の背後にある重要な革新でもあります。
トランスフォーマーは、最近コンピューター ビジョンの分野にも参入しており、多くの複雑なタスクにおいて、徐々に畳み込みニューラル ネットワーク (CNN) に取って代わりつつあります。
ワールドモデルとトランスフォーマーが手を組む、他の人はどう思うか
コーネル大学の研究結果について、一部の海外ネットユーザーは次のようにコメントした。は環境からのショットの長さであり、GPU でのトレーニングには 1 週間かかります。」
また、次のような疑問を持つ人もいます。つまり、このシステムは特に正確な潜在世界モデルに基づいて学習するのでしょうか?モデルには事前トレーニングは必要ありませんか?
さらに、コーネル大学の Vincent Micheli らの研究結果は画期的な進歩ではないと感じている人もいます。「彼らは、世界モデル、vqvae、俳優評論家を訓練しただけのようで、それらはすべて、 2 時間のエクスペリエンス (および約 600 エポック) からの再生バッファー。」
参考: https://www.reddit.com/r/MachineLearning/comments/x4e4jx/r_transformers_are_sample_efficient_world_models/
以上がトランスフォーマー + ワールド モデル、深層強化学習を節約できるか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

AI Hentai Generator
AIヘンタイを無料で生成します。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック









Kujiale ソフトウェアに触れたばかりの多くのユーザーは、Kijiale がどのようにモデリングするかについてあまり詳しくありません? 次の記事で Kujiale 独自のモデリングの手順を説明します。 Kujiale プラットフォームに入る Kujiale で、クリックしてデザインと装飾のインターフェイスに入ります。設計インターフェイスで、左側の業界ライブラリをクリックし、業界ライブラリ内の全住宅ハードウェア インストール ツールをクリックします。家全体のハードデコレーションツールでは、モデリング操作を行うことができます。

李世ドル、柯潔らトップ国際棋士を破ったAlphaGoは、李世ドルを破った初代AlphaGo Lee、柯潔を破った第2世代AlphaGo名人、合計3回の反復があったことは多くの人が知っている。 、最初の 2 つを破った第 2 世代の AlphaGo Master、第 3 世代の AlphaGo Zero。 AlphaGo のチェスのスキルが世代を重ねるごとに向上していく理由は、実は AI テクノロジーにおける明らかな傾向、つまり強化学習の割合の増加によるものです。近年、強化学習はさらなる「進化」を遂げており、この「進化した」強化学習を人々は深層強化学習と呼んでいます。ただし、深層強化学習エージェントのサンプル効率は低いため、実際の問題への適用は大幅に制限されます。最近の

ワンクリックでプレイ可能なゲームワールドを生成します。公開されてからまだ 2 週間しか経っていませんが、Google の世界モデルも登場し、その機能はさらに強力になっているようです。生成される仮想世界は「自律的で制御可能」です。たった今、Google は生成 AI の新しいパラダイム、生成インタラクティブ環境 (Genie、生成インタラクティブ環境) を定義しました。 Genie は、1 つの画像プロンプトからプレイ可能なインタラクティブな環境を生成できる 110 億パラメータのベース ワールド モデルです。私たちは、これまで見たことのない画像を表示させて、私たち自身の想像上の仮想世界と対話することができます。合成画像、写真、さらには手描きのスケッチであっても、Genie はそれらから無限の再生可能な世界を生成できます。ゲ

インターネットの普及に伴い、Web アプリケーションの需要はますます高まっています。以前は、PHP、Java、Python などの言語を使用して Web アプリケーションを構築していましたが、新しいテクノロジーが継続的に出現したため、現在では Web アプリケーションの構築に Golang を使用することを選択しています。 Golang の中でも Iris は非常に優れた Web フレームワークであり、他の主流の Web フレームワークと同等の機能と使いやすさを備えています。この記事では、Iris フレームワークを使用した Web アプリケーション構築の基本について説明します。

go 言語モデリング ライブラリの公式 Web サイトには、1. シンプルかつ強力な ORM ライブラリである GORM、2. 高性能で使いやすい XORM、3. データベース アクセスとデータを処理するためのシンプルな API を提供する beego ORM が含まれています。マッピング ; 4. sqlx、軽量データベース ツール ライブラリ; 5. gorp、データの永続性とクエリを処理するためのシンプルな API を提供します。

人工知能と機械学習技術の急速な発展に伴い、ディープラーニングは人工知能の分野で人気のある技術の 1 つになりました。 Python は、学びやすく使いやすいプログラミング言語として、多くのディープラーニング実践者にとって選ばれる言語となっています。この記事では、Python でディープ モデリングを使用する方法を紹介します。 1. Python 環境のインストールと構成 まず、Python と関連する深層学習ライブラリをインストールする必要があります。現在、Python で最も一般的に使用されている深層学習ライブラリは TensorFlow と PyT です。

Numpy は、Python で最も一般的に使用される数学ライブラリの 1 つであり、最高の数学関数と演算の多くが統合されています。 Numpy は、統計、線形代数、画像処理、機械学習、ニューラル ネットワークなどの分野で広く使用されています。データ分析とモデリングの観点から、Numpy は不可欠なツールの 1 つです。この記事では、Numpy で一般的に使用される数学関数と、これらの関数を使用してデータ分析とモデリングを実装するためのサンプル コードを紹介します。 1. 配列を作成する Numpy の array() 関数を使用して数値を作成します。

最近、生成 AI 技術の台頭により、多くの新しい自動車製造勢力が視覚言語モデルと世界モデルの新しい方法を模索しており、エンドツーエンドのインテリジェント運転新技術が共通の研究方向になっているようです。先月、Li Autoはエンドツーエンド+VLMビジュアル言語モデル+ワールドモデルの第3世代自動運転技術アーキテクチャをリリースした。このアーキテクチャは、インテリジェントな運転動作を体現し、AI の情報処理効率を向上させ、複雑な道路状況を理解して対応する能力を強化します。 Li Xiang 氏はかつて、ほとんどのアルゴリズムでは識別して処理することが難しい稀な運転環境に直面しても、視覚言語モデルである VLM (Visual Language Model) が理論的に自動運転の能力を体系的に向上させることができると公開共有で述べました。
