LeCun最新專訪：為什麼物理世界終將成為LLM的「死穴」？-人工智慧-PHP中文網

#LLM 的限制

ビデオ予測

JEPA (ジョイントエンベディング予測アーキテクチャ)

強化学習

AGI

humanoid robots

首頁

科技週邊

人工智慧

LeCun最新專訪：為什麼物理世界終將成為LLM的「死穴」？

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Mar 11, 2024 pm 12:52 PM

開源 agi 機器人技術

在人工智慧領域，很少有像 Yann LeCun 這樣的學者，在 65 歲的年齡還能高度活躍於社群媒體。

Yann LeCun 在人工智慧領域以直率的批評者形象為人所知。他一直積極支持開源精神，並領導 Meta 的團隊推出了備受青睞的 Llama 2 模型，成為開源大模型領域的領導者。儘管許多人對人工智慧的未來感到焦慮，擔心可能出現的末日情景，但LeCun卻持不同看法，堅信人工智慧的發展對社會將帶來正面影響，尤其是超級智慧的到來。

近日，LeCun 又一次來到Lex Fridman 的播客，展開了一場接近三個小時的對談，內容涉及開源的重要性、LLM 的局限性、為什麼人工智慧末日論者是錯誤的，以及通往AGI 的道路等主題。

LeCun最新專訪：為什麼物理世界終將成為LLM的「死穴」？

觀看頁面：https://youtu.be/5t1vTLU7s40?feature=shared

我們從這場播客內容中精選了一些有參考價值的觀點，以下是相關內容：

#LLM 的限制

Lex Fridman：你說過，自回歸LLM 並不是我們在超人類智慧方面取得進展的方式。為什麼它們不能帶我們一路走下去？

Yann LeCun：出於多種原因。首先，智能行為有許多特徵。例如，理解世界的能力、理解物理世界的能力、記憶和檢索事物的能力、持久性記憶、推理能力和計劃能力。這是智慧系統或實體、人類、動物的四個基本特徵。 LLM 無法做到這些，或者只能以非常原始的方式做到這些，而且並不真正了解物理世界。 LLM 並沒有真正的持久記憶，無法真正推理，當然也無法計劃。因此，如果你期望系統變得智能，但卻無法做這些事情，那麼你就犯了一個錯誤。這並不是說自回歸 LLM 沒有用。它們當然有用，但它們並不有趣，我們無法圍繞它們建立整個應用程式生態系統。但作為邁向人類水平智慧的通行證，它們缺少必要的組成部分。

透過感官輸入，我們看到的資訊比透過語言看到的資訊多得多，儘管我們有直覺，但我們學到的大部分內容和知識都是透過我們的觀察和與現實世界的互動，而不是透過語言。我們在生命最初幾年學到的一切，當然還有動物學到的一切，都與語言無關。

Lex Fridman：也就是你所說的，LLM 缺乏對物理世界的理解？所以，直覺物理學、關於物理空間、關於物理現實的常識推理對你來說沒有什麼特別之處。這是 LLM 無法做到的巨大飛躍？

Yann LeCun：我們今天使用的LLM 無法做到這一點，原因有很多，但最主要的原因是LLM 的訓練方式是：你獲取一段文本，刪除文本中的一些單詞，屏蔽它們，用空白token 代替它們，然後訓練一個遺傳神經網絡來預測缺失的單詞。如果你以一種特殊的方式建立這個神經網絡，讓它只能查看左側的單字或它試圖預測的單詞，那麼你所擁有的系統基本上就是試圖預測文本中的下一個單字。因此，你可以給它輸入一段文字、一個提示，然後讓它預測下一個單字。它永遠無法準確預測下一個單字。

因此，它要做的就是產生字典中所有可能單字的機率分佈。事實上，它並不預測單字。它預測的是作為子單字單位的詞塊，因此很容易處理預測中的不確定性，因為字典中可能出現的單字數量有限，你只需計算它們的分佈。然後，系統就會從該分佈中選出一個字。當然，在該分佈中，選取機率較高的字的幾率會較高。因此，你從該分佈中採樣，實際產生一個單詞，然後將該單詞移入輸入中，這樣系統就不會預測第二個單詞了。

這就是所謂的自回歸預測，這也是為什麼這些 LLM 應該被稱為「自回歸 LLMs」，但我們只是稱之為 LLM。這個過程與在產生一個單字之前的過程是有區別的。

あなたと私が話すとき、そして私たちは二人ともバイリンガルなので、何を言おうとしているのかを考えますが、それは私たちが言おうとしている言語とは比較的独立しています。私たちが数学的な概念について話すとき、私たちが考えていることや与えようとしている答えは、それをフランス語で表現するか、ロシア語で表現するか、英語で表現するかとは何の関係もありません。

レックス・フリッドマン: チョムスキーは目を丸くしましたが、それはわかりました。つまり、言語の前に存在し、それにマップされる、より大きな抽象概念が存在するということですか?

ヤン・ルクン: 私たちの考え方の多くは、そうです。

レックス・フリッドマン: あなたのユーモアは抽象的ですか?あなたがツイートするとき、そしてそのツイートが時々少しスパイシーな場合、ツイートが英語にマッピングされる前に、脳内に抽象的な表現ができていますか?

Yann LeCun: テキストに対する読者の反応を想像するための抽象的な表現が実際にあります。しかし、数学的な概念について考えたり、木で何を作りたいかを想像したりすることは、言語とはまったく関係がありません。特定の言語で内なる独白をしているわけではありません。あなたは物事のメンタルモデルを想像しています。つまり、この水筒を 90 度回転させたらどうなるかを想像してみてください。それは言語とは関係ありません。私たちの思考のほとんどは、より抽象的な表現レベルで行われていることは明らかです。出力が言語の場合、私たちは何を言うかを計画します。筋肉の動きを出力する代わりに、答えを作る前に計画を立てます。

LLM はそんなことはせず、ただ本能的に一言一句言うだけです。これは、誰かがあなたに質問し、あなたがそれに答えるという、潜在意識の動きのようなものです。答えを考える暇はありませんでしたが、答えは簡単でした。したがって、注意を払う必要はなく、自動的に反応します。これがLLMが行うことです。答えについてはあまり考えません。多くの知識を蓄積しているため、ある程度のことは取得できますが、答えを計画せずに次から次へとトークンを吐き出すだけです。

Lex Fridman: トークンごとの生成は必然的に単純化されますが、世界モデルが十分に複雑であれば、一連のトークンが生成される可能性が高く、これは難解なものになります。

Yann LeCun: しかし、これは、これらのシステムが実際に世界の永遠のモデルを持っているという前提に基づいています。

ビデオ予測

#レックスフリッドマン: それで、本当の質問は... を深く理解したモデルを構築できるかということです。世界？

Yann LeCun: 予測に基づいてそれを構築できますか。答えはおそらくイエスです。しかし、単語を予測することで構築できるでしょうか?答えはおそらくノーです。言語は弱い帯域幅や低い帯域幅に非常に弱く、十分な情報がありません。したがって、世界のモデルを構築するということは、世界を見て、なぜ世界がそのように進化するのかを理解することを意味します。そして、世界モデルの追加のコンポーネントは、あなたが行うかもしれない行動の結果として世界がどのように進化するかを予測できることです。取る。

つまり、本当のモデルは次のとおりです。時間 T における世界の状態についての私の考えは次のとおりであり、私が取る可能性のある行動は次のとおりです。時間 T 1 で予測される世界の状態は何ですか?さて、世界情勢は世界のすべてを表す必要はありません。この作戦の計画に関連する十分な情報を表す必要があるだけで、必ずしもすべての詳細を表す必要はありません。

さて、ここで問題が起こります。生成モデルではこれを行うことはできません。したがって、生成モデルはビデオでトレーニングする必要があります。私たちは 10 年間それを試みてきました。つまり、ビデオを撮影し、システムにビデオを表示し、ビデオのリマインダーを予測するように求められます。何が起こるかを予測すること。

必要に応じて、大きなビデオのモックアップを作成できます。これを行うというアイデアは長い間存在しており、FAIR では私と同僚の何人かが 10 年間それを試みてきましたが、LLM では同じトリックを実際には実行できません。なぜなら、LLM は私と同じだからです。一連の単語の後にどの単語が続くかを正確に予測することはできませんが、単語の分布を予測することはできます。さて、ビデオを見る場合、しなければならないことはビデオ内のすべての可能なフレームの分布を予測することですが、それを正しく行う方法はわかりません。

高次元の連続空間上の分布を有用な方法で表現する方法がわかりません。それが主な問題であり、世界は言葉よりもはるかに複雑で情報が豊富であるため、私たちがこれを行うことができます。テキストは離散的ですが、ビデオは高次元で連続的です。これには詳細がたくさんあります。したがって、この部屋のビデオを撮影し、ビデオ内でカメラがパンしている場合、パンしながら部屋に何が起こるかをすべて予測することはできません。また、システムは、カメラがパンしたときに部屋に何が映るかを予測できません。おそらくそれは、そこが部屋であり、そこに光があり、壁があるなどということを予測しているのでしょう。壁の絵がどのように見えるか、ソファの質感がどのように見えるかを予測することはできません。もちろん、カーペットの質感を予測する方法はありません。したがって、それらの詳細をすべて予測することはできません。

したがって、これに対処する可能性のある方法の 1 つは、私たちが研究してきたものですが、いわゆる潜在変数を使用してモデルを構築することです。潜在変数はニューラルネットワークに入力されます。ニューラルネットワークは、まだ感知していない世界に関するすべての情報を表すことになっています。微妙な点も含めてピクセルを適切に予測できるようにするには、システムの予測能力を強化する必要があります。カーペット、ソファ、壁の絵画のテクスチャです。

私たちは、ダイレクトニューラルネットワーク、GAN、VAE、さまざまな正規化オートエンコーダを試してきました。また、これらの方法を使用して画像やビデオの適切な表現を学習し、画像分類システムなどへの入力として使用できるようにすることも試みています。基本的に失敗しました。

画像またはビデオの破損したバージョンから欠落部分を予測しようとするすべてのシステムは、基本的に次のことを行います。画像またはビデオを取得し、それを破損するか、何らかの方法で変換してから、破損したバージョンから完全なビデオまたは画像を再構築して、できればオブジェクト認識やセグメンテーションなどに使用できる適切な画像表現をシステム内で開発してください。このアプローチは基本的に完全な失敗ですが、テキストに関しては非常にうまく機能します。これが LLM に使用される原理です。

レックス・フリッドマン: 失敗はどこから来たのでしょうか?重要な情報をすべて画像にうまく埋め込むなど、画像をうまく表現するのは難しいですか?ビデオを形成するのは、イメージとイメージ、イメージとイメージの間の一貫性でしょうか。あなたの失敗方法をすべて集めて編集したらどうなるでしょうか?

Yann LeCun: まず、何がうまくいかないのかをお話ししなければなりません。他にもうまくいくことがあるからです。したがって、うまくいかないのは、画像の表現を学習するようにシステムをトレーニングし、破損した画像から良好な画像を再構築するようにシステムをトレーニングすることです。

私たちは、このための一連のテクニックを持っており、それらはすべてノイズ除去オートエンコーダーの変形です。FAIR の私の同僚の何人かは、MAE (マスクドオートエンコーダー) と呼ばれるものを開発しました。つまり、基本的には LLM などのようなもので、テキストを破損してシステムをトレーニングしますが、画像を破損し、そこからパッチを削除して、巨大なニューラルネットワークをトレーニングしてそれを再構築します。得られる特徴は良くありません、そしてあなたはそれが良くないことを知っています。なぜなら、同じアーキテクチャをトレーニングしても、ラベル付きデータや画像のテキスト説明などを使用して教師付きでトレーニングすると、良い表現が得られます。認識タスクのパフォーマンスは、この種の自己教師あり再トレーニングを行う場合よりもはるかに優れています。

構造は良好であり、エンコーダーの構造も良好ですが、画像を再構成するようにシステムをトレーニングしても、画像の長く良好な一般的な特徴が生成されるわけではありません。。では、代替手段は何でしょうか?別のアプローチはジョイント埋め込みです。

JEPA (ジョイントエンベディング予測アーキテクチャ)

#Lex Fridman:: ジョイントエンベディングアーキテクチャと LLM の根本的な違いは何ですか? JEPA は私たちを AGI に連れて行ってくれますか?

Yann LeCun: まず、LLM のような生成アーキテクチャとどう違うのですか? LLM または再構成を通じてトレーニングされたビジョンシステムが入力を生成します。生成される生の入力は破損も変換もされていないため、すべてのピクセルを予測する必要があり、システムが実際にすべてのピクセルとすべての詳細を予測するには多くのリソースが必要です。 JEPA では、すべてのピクセルを予測する必要はなく、入力の抽象表現のみを予測する必要があります。これは多くの点ではるかに簡単です。したがって、JEPA システムがトレーニング時に行う必要があるのは、入力からできるだけ多くの情報を抽出することですが、比較的予測が容易な情報のみを抽出することです。したがって、世の中には予測できないことがたくさんあります。たとえば、自動運転車が道路や道路を走行している場合、道路の周囲に木があり、風の強い日である可能性があります。つまり、木の葉は、予測できない、気にしない、予測したくない、半混沌としたランダムな方法で動きます。したがって、エンコーダで基本的にこれらの詳細をすべて削除する必要があります。葉が動いていることはわかりますが、何が起こっているのか正確にはわかりません。したがって、表現空間で予測する場合、すべての葉のすべてのピクセルを予測する必要はありません。これははるかに単純であるだけでなく、システムが本質的に世界の抽象表現を学習できるようになり、モデル化および予測できるものは保持され、残りはエンコーダーによってノイズとして扱われ、削除されます。

したがって、表現の抽象化レベルが高まります。考えてみれば、これは間違いなく私たちがやってきたことです。私たちが現象を説明するときは常に、特定の抽象レベルで説明します。私たちはあらゆる自然現象を説明するために場の量子論を常に使用しているわけではありません。それは不可能。したがって、場の量子論から原子理論、分子、化学、材料、現実世界の具体的な物体に至るまで、世界で何が起こっているかを記述するために、私たちは複数のレベルの抽象化を持っています。したがって、すべてを最低レベルでシミュレートすることはできません。そして、これはまさに JEPA の背後にあるアイデアであり、抽象表現を自己教師付きで学習し、階層的に学習するというものです。それがスマートシステムの重要な部分だと思います。言語に関して言えば、言語はすでにある程度抽象的であり、多くの予測不可能な情報が排除されているため、これを行う必要はありません。したがって、結合埋め込みを行ったり抽象度を高めたりすることなく、単語を直接予測できます。

レックス・フリッドマン: あなたは言語について話していますが、私たちは抽象的な表現を無料で与えられているので、言語を使用するのがあまりにも怠惰です。そして今、私たちはズームインして、インテリジェントシステム全般についてよく考えてください。私たちは物理的な現実と混乱した現実に対処しなければなりません。そして、あなたは本当にそれをしなければなりません、完全で豊かで詳細な現実から、推論できることやそのようなものに基づいて現実の抽象的な表現に飛び移るのです。

ヤン・ルカン: その通りです。予測によって学習する自己教師ありアルゴリズムは、表現空間であっても、入力データがより冗長であれば、より多くの概念を学習します。データの冗長性が高いほど、データの内部構造をより正確に捕捉できます。したがって、知覚入力や視覚などの感覚入力には、テキストよりもはるかに冗長な構造が存在します。言語は圧縮されているため、実際にはより多くの情報を表す場合があります。おっしゃる通りですが、それは冗長性が少ないことも意味するので、自己監視はそれほど良くありません。

Lex Fridman: 視覚データの自己教師ありトレーニングと言語データの自己教師ありトレーニングを組み合わせることができますか?たとえ 10 ～ 13 個のトークンについて話しているとしても、そこには大量の知識が含まれています。これらの 10 ～ 13 個のトークンは、Reddit のくだらない内容、すべての書籍や記事の内容、人間の知性がこれまでに作成したすべてのものを含む、人間が理解したすべてを表します。

ヤン・ルカン: そうですね、最終的にはそうです。しかし、あまりにも早すぎると、不正行為に誘導される危険があると思います。そして実際、これはまさに人々が視覚言語モデルを使って現在行っていることです。私たちは基本的に不正行為を行っており、欠陥のある視覚システムが画像やビデオから適切な表現を学習できるよう、言語を杖として利用しています。

これの問題は、画像を与えることで言語モデルを改善することはできますが、猫や犬の知能や世界理解のレベルにさえ到達しないことです。彼らには言語がないからです。彼らは言語を持っていませんが、どの LLM よりもはるかによく世界を理解しています。彼らは非常に複雑な行動を計画し、一連の行動の結果を想像することができます。言語と組み合わせる前に、どのようにして機械にこれを学習させるのでしょうか?これを言語と組み合わせれば、明らかに結果が得られますが、それまでは、世界がどのように機能するかをシステムに学習させる方法に集中する必要があります。

実際、私たちが使用しているテクノロジーは対照的ではありません。したがって、アーキテクチャが非生成的であるだけでなく、私たちが使用する学習手順も非比較的です。私たちは 2 つのテクノロジーを持っています。 1 つは蒸留法に基づくもので、この原理を使用する方法は多数あります。DeepMind には BYOL と呼ばれる方法があり、いくつかの FAIR、vcREG と呼ばれる方法、および I-JEPA と呼ばれるものがあります。 vcREG は蒸留方法ではありませんが、I-JEPA と BYOL は確かに蒸留方法であると言わなければなりません。同じくFAIR社から出ているDINOやDINOと呼ばれるものもあります。これらのメソッドの原理は、完全な入力 (イメージなど) をエンコーダーを通して実行して表現を生成し、その後入力を破棄または変換して、本質的に同じエンコーダーを介して実行しますが、いくつかのニュアンスが異なります。予測子を訓練します。

予測子は非常に単純な場合もあれば、予測子が存在しない場合もありますが、予測子は最初の破損していない入力と破損した入力の間の関係を予測するようにトレーニングされます。ただし、トレーニングするのは 2 番目のブランチだけです。破損した入力を受け取るネットワークの部分のみをトレーニングします。他のネットワークにはトレーニングは必要ありません。ただし、これらは同じ重みを共有しているため、最初のネットワークを変更すると、2 番目のネットワークも変更されます。さまざまなトリックを使用することで、先ほど説明したような、システムが基本的に入力を無視するシステムのクラッシュを防ぐことができます。したがって、この方法は非常に有効です。この点では、FAIR で開発した 2 つの技術、DINO と I-JEPA が非常に効果的です。

最新バージョンは V-JEPA と呼ばれます。基本的には I-JEPA と同じ考え方ですが、ビデオに適用しただけです。したがって、ビデオ全体を撮影して、その一部をブロックすることができます。実際にマスクしているのはタイムパイプであり、ビデオ全体の各フレームのクリップ全体です。

これは、ビデオの適切な表現を学習できる最初のシステムです。そのため、これらの表現を教師付き分類器ヘッドに入力すると、かなり高い精度で情報を伝えることができます。ビデオ内でどのようなアクションが行われているか。したがって、これほどの品質のものを入手するのはこれが初めてです。

結果は、私たちのシステムが表現を使用して、いくつかのオブジェクトが消えたり、オブジェクトが突然ある場所から別の場所にジャンプしたりするため、ビデオが物理的に可能か完全に不可能かを判断できることを示しているようです。形が変わったりとか。

レックス・フリッドマン: これにより、車を運転できるほど十分に理解できる世界のモデルを構築できるでしょうか?

ヤン・ルカン: 到着するまでに時間がかかる場合があります。このアイデアに基づいたロボットシステムがすでにいくつか存在しています。必要なのは、少し修正したバージョンです。完成したビデオがあり、このビデオを未来にタイムシフトすることを想像してください。したがって、ビデオの先頭だけが表示され、元のビデオの後半が表示されない、またはビデオの後半のみがブロックされます。その後、JEPA システムまたは私が説明したようなシステムをトレーニングして、遮られたビデオの完全な表現を予測できます。ただし、予測子にアクションを提供する必要もあります。例えば、車輪が右に10度くらい回転しますよね？

つまり、これが車載カメラであり、ハンドルの角度がわかっている場合は、見えるものがどのように変化するかをある程度予測できるはずです。明らかに、ビューに表示されるオブジェクトの詳細をすべて予測することはできませんが、抽象表現のレベルでは、何が起こるかを予測できる場合があります。これで、次のような内部モデルができました。「これは、時間 T における世界の状態についての私の考えであり、私が取っている行動は次のとおりです。ここでは、T プラス 1、T プラスデルタ T、T プラス 2秒世界情勢の予測」、それが何であれ。このようなモデルがある場合は、計画に使用できます。これで、LMS ではできないこと、つまり、やりたいことを計画することができるようになりました。したがって、特定の結果を達成したとき、または特定の目標を達成したとき。

つまり、たくさんの目標を持つことができます。こんな物体があって手を開いたら落ちるだろうということが予測できます。特定の力でテーブルに押し付けると、テーブルが動きます。同じ力でテーブルを押してもおそらく動かないでしょう。その結果、私たちは頭の中に世界の内的モデルを持ち、それによって特定の目標を達成するための一連の行動を計画することができます。さて、この世界モデルがある場合、一連のアクションを想像し、その一連のアクションの結果を予測し、ボトルをテーブルの左側に移動するなど、最終状態が特定の目標をどの程度満たしているかを測定することができます。をクリックしてから、この目標を最小限に抑えるための一連のアクションを計画するを実行します。

私たちは学習について話しているのではなく、推論する時間について話しているのです。つまり、それが計画なのです。最適制御において、これは非常に古典的なことです。それはモデル予測制御と呼ばれます。一連の命令に対応する一連の状態を予測する、制御したいシステムのモデルがあります。そして、ロールモデルに基づいて、システムの最終状態が設定した目標を満たすように、一連の指示を計画しています。 1960 年代初頭のコンピューターの出現以来、ロケットの軌道はこのように計画されてきました。

強化学習

#Lex Fridman: 共同埋め込みアーキテクチャを支持して生成モデルを放棄するという提案はありますか?あなたはしばらくの間、強化学習を批判してきました。これは法廷証言のように感じられ、先ほど話したエネルギーベースのモデルを支持して確率モデルを放棄し、正則化手法を支持して対照的な手法を放棄しています。

Yann LeCun: 完全に放棄すべきではないと思いますが、非常にサンプリングされているため、使用は最小限に抑えるべきだと思います。非効率的な。したがって、システムをトレーニングする正しい方法は、まず最初に世界の適切な表現と世界のモデルを一次観察 (および場合によってはわずかな相互作用) から学習させることです。

レックスフリッドマン: なぜ RLHF はこれほどうまく機能するのでしょうか?強化学習のヤン・ルカン氏。

オープンソース

Yann LeCun

#: 人工知能産業を所有し、何も持たない独自のバイアス AI システムを構築する唯一の方法は、どのグループでも特化したシステムを構築できるオープンソースプラットフォームを用意することです。歴史の避けられない方向性は、AI システムの大部分がオープンソースプラットフォーム上に構築されることです。

メタは、広告または商業クライアントから資金提供を受けてサービスを提供するビジネスモデルを中心に展開します。

たとえば、WhatsApp を通じて顧客と会話することでピザ店を支援できる LLM がある場合、顧客はピザを注文するだけで済み、システムは次のように尋ねます。ご希望の材料やサイズなど。」商人がその代金を支払う、それがモデルだ。

それ以外の、より古典的なサービスシステムの場合は、広告によってサポートされたり、いくつかのモードを持つことができます。しかし問題は、十分な規模の潜在的な顧客ベースがあり、とにかくその顧客のためにシステムを構築する必要がある場合、それをオープンソースとしてリリースしても害はありません。

レックス・フリッドマン: メタの賭けは、我々はもっとうまくやれるだろうか？

ヤン・ルカン

: いいえ。私たちはすでに巨大なユーザーベースと顧客ベースを持っています。

他の人がアプリケーションを構築できるように、オープンソースシステムや基本モデル、基本モデルを提供することに問題はありません。これらのアプリがお客様にとって役立つ場合は、お客様から直接購入できます。彼らはプラットフォームを改善するかもしれません。実際、私たちはこれが起こるのを見てきました。 LLaMA 2 は何百万回もダウンロードされ、何千人もの人々がプラットフォームを改善する方法についてアイデアを出してきました。したがって、これにより、システムを幅広いユーザーが利用できるようにするプロセスが明らかにスピードアップし、何千もの企業がこのシステムを使用してアプリケーションを構築しています。したがって、このテクノロジーから収益を生み出す Meta の能力は、基礎となるモデルのオープンソース配布の影響を受けません。

ラマ 3

レックスフリッドマン: LLaMA 3 について最も興奮していることは何ですか?

Yann LeCun

: LLaMA にはさまざまなバージョンが存在します。これらは以前の LLaMA を改良したもので、より大きく、より優れた、マルチモダリティです。ある種のこと。そして、将来の世代には、世界がどのように機能するかを実際に理解できる計画システムが存在し、おそらくビデオで訓練されているため、私が考えたタイプの推論と計画を実行できる可能性のある世界のモデルが存在するでしょう。前に話しました。

#これにはどのくらい時間がかかりますか?この方向の研究はいつ製品ラインに導入されるのでしょうか?私には分かりませんし、教えることもできません。基本的に、そこに到達するまでにいくつかのブレークスルーを通過する必要がありますが、私たちは研究を公開しているため、人々は私たちの進歩を監視することができます。そこで、先週、ビデオトレーニングシステムへの第一歩となるV-JEPAの取り組みを公開しました。

次のステップは、このビデオの創造性に基づいて世界モデルをトレーニングすることです。 DeepMind も同様の研究を行っており、カリフォルニア大学バークレー校も世界モデルとビデオに関する研究を行っています。多くの人がこれに取り組んでいます。良いアイデアがたくさん出てくると思います。私の賭けでは、これらのシステムは JEPA の軽量システムになり、生成モデルではなくなり、将来何が起こるかがわかるでしょう。

30 年以上前、私たちが組み合わせネットワークと初期のニューラルネットワークに取り組んでいたとき、私は人間レベルの知能、つまり世界を理解し、記憶し、計画できるシステムへの道を見出しました。、理由。実現する可能性のある前進できるアイデアがいくつかあり、私はそれに本当に興奮しています。

私が気に入っているのは、私たちがどういうわけか良い方向に進んでいて、おそらく私の脳がホワイトソースになる前に、または私が引退しなければならない前に成功するかもしれないということです。

レックスフリッドマン: あなたの興奮のほとんどは依然として理論的な側面、つまりソフトウェアの側面にありますか?

Yann LeCun: 私は何年も前までハードウェア担当でした。スケールは必要ですが、十分ではありません。もしかしたら10年先まで生きられるかもしれないが、それでも短い距離を走らなければならない。もちろん、エネルギー効率の点で前進すればするほど、努力の面でも進歩が見られます。消費電力を削減しなければなりません。現在、GPU は 0.5 キロワットから 1 キロワットを消費します。人間の脳は約 25 ワットの電力を消費しますが、GPU が消費する電力は人間の脳よりもはるかに少ないです。これに匹敵するには10万か100万の力が必要なので、私たちはかなり離れています。

AGI

レックス・フリッドマン: GI はすぐには登場しないとよく言いますが、その背後にある根底にある直感は何ですか?

ヤン・ルカン: SF とハリウッドによって広まった、誰かが AGI または人間レベルの AI、あるいはその秘密を発見するだろうという考えAMI (名前は何でも構いません) をインストールし、マシンの電源を入れても AGI があるということは起こりません。

これは段階的なプロセスとなります。ビデオから世界がどのように機能するかを理解し、適切な表現を学習できるシステムは実現するのでしょうか?人間で観察される規模とパフォーマンスに達するまでには、1 日や 2 日ではなく、かなりの時間がかかるでしょう。

システムが物事を記憶するために大量の連想メモリを持つことを許可しますか?はい、しかしそれは明日も起こりません。私たちはいくつかの基礎的な技術を開発する必要があります。私たちはこれらのテクノロジーをたくさん持っていますが、それらを完全なシステムで動作させるのは別の話です。

おそらく、前に説明した目標駆動型 AI アーキテクチャのような、推論して計画できるシステムができるようになるでしょうか?はい、ただし、正しく動作するまでにはしばらく時間がかかります。これらすべてが連携して機能するようになるまでには、また、これに基づいて階層的計画や階層的表現を学習し、当面のさまざまな状況に合わせて人間の脳が行うように構成できるシステムが開発されるまでには、少なくとも 10 年以上かかるでしょう。 , なぜなら、まだ見えていない問題、まだ遭遇していない問題がたくさんあるため、この枠組みの中で簡単な解決策があるかどうかはわかりません。

過去 10 年ほどの間、AGI はもうすぐそこまで来ているという人々の主張を聞いてきましたが、それらはすべて間違っています。

IQ は人間について何かを測定できますが、人間の形態は比較的均一であるためです。ただし、これは一部のタスクには関連するが、他のタスクには関連しない可能性がある能力を測定するだけです。しかし、簡単にできる基本的なことがまったく異なる他の知的存在について話しているのであれば、それは意味がありません。したがって、知性とはスキルの集合体であり、新しいスキルを効率的に習得する能力です。特定の知的エンティティが所有する、またはすぐに学習できるスキルのセットは、別の知的エンティティのスキルのセットとは異なります。これは多次元的なものであるため、スキルセットは測定できない高次元の空間であり、2 つのものを比較して、一方が他方よりも優れているかどうかを確認することはできません。それは多次元です。

レックス・フリッドマン: あなたは、いわゆる AI 破滅論者に対してよく声を上げ、彼らの見解と、彼らが間違っていると思う理由を説明しています。

Yann LeCun: AI 終末論者たちは、AI がどのようにして逃走または制御し、本質的に私たち全員を殺すことができるのか、さまざまな災害シナリオを想像しています。、これは多くの仮定に基づいていますが、そのほとんどが間違っています。

The first hypothesis is that the emergence of superintelligence will be an event and at some point we will discover the secrets and we will open a superintelligent machine because we have never done this before passed, so it will take over the world and kill us all. This is wrong. This won't be an event.

We will have systems that are as smart as cats, they have all the characteristics of human intelligence, but their level of intelligence may be like a cat or a parrot or something. Then, we gradually improve their intelligence. While making them smarter, we also need to set up some guardrails on them and learn how to set up guardrails to make them behave more normally.

In nature, it seems that the more intelligent species will eventually dominate the other species, sometimes even intentionally, and sometimes just by mistake to differentiate the other species.

So you’re thinking, “Well, if AI systems are smarter than us, they’re definitely going to wipe us out, if not on purpose, just because they don’t care about us,” which is Absurd - The first reason is that they will not become a species that competes with us and will not have the desire to dominate, because the desire to dominate must be something inherent in intelligent systems. It is deeply ingrained in humans and is shared by baboons, chimpanzees, and wolves, but not in orangutans. This desire to dominate, obey, or otherwise gain status is unique to social species. Non-social species like orangutans have no such desire and are just as smart as we are.

humanoid robots

Lex Fridman: Do you think there will be millions of humanoid robots walking around soon?

Yann LeCun: It won’t be soon, but it will happen.

The next ten years, I think the robotics industry is going to be very interesting, the rise of the robotics industry has been 10, 20 years in the making and there's not really a Appear. The main question remains Moravec's Paradox, how do we get these systems to understand how the world works and plan actions? In this way, we can complete truly professional tasks. What Boston Dynamics did was basically through a lot of hand-crafted dynamic models and careful planning in advance, which is very classic robotics with a lot of innovation and a little bit of perception, but it was still not enough and they couldn't make a home robot.

Additionally, we are still some distance away from fully autonomous L5 driving, such as a system that can train itself like a 17-year-old through 20 hours of driving.

So we won’t make significant progress in robotics until we have a model of the world, a system that can train itself to understand how the world works.

以上是LeCun最新專訪：為什麼物理世界終將成為LLM的「死穴」？的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn