ホームページ ハードウェアチュートリアル ハードウェアのレビュー 大きなモデルは独自の言語を理解しています。 MITの論文で大規模モデルの「思考プロセス」が明らかに

大きなモデルは独自の言語を理解しています。 MITの論文で大規模モデルの「思考プロセス」が明らかに

Aug 17, 2024 pm 03:40 PM
言語 モデル mit 検出器 理解する 自分の

大きなモデルは、現実世界についての独自の理解を形成することができます!

MIT の研究によると、モデルの能力が高まるにつれて、現実の理解は単純な模倣を超える可能性があります。

たとえば、大きなモデルが匂いを嗅いだことがない場合、それは匂いを理解できないことを意味しますか?

研究により、理解を容易にするためにいくつかの概念を自発的にシミュレートできることが判明しました。

この研究は、将来、大規模モデルが言語と世界をより深く理解できるようになると期待されていることを意味します。この論文は、トップカンファレンスICML 24に採択されました。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

この論文の著者は、中国人の博士課程学生 Charles Jin と、その指導教員である MIT コンピュータ人工知能研究所 (CSAIL) の Martin Rinard 教授です。

この研究では、著者は大規模なモデルにコードテキストのみを学習するように依頼したところ、モデルがその背後にある意味を徐々に理解していることがわかりました。

リナード教授は、この研究は現代の人工知能の中核となる問題に直接取り組んでいると述べました -

大規模モデルの能力は単に大規模な統計的相関によるものなのか、それともモデルが扱う現実の問題の有意義な理解を生み出すのかと? ?

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

△出典:MIT公式ウェブサイト

同時に、この研究は多くの議論を引き起こしました。

一部のネチズンは、大型モデルは人間とは異なる言語理解をするかもしれないが、この研究は少なくともモデルが訓練データを記憶するだけではないことを示していると述べた。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

大規模モデルに純粋なコードを学習させましょう

大規模モデルが意味レベルの理解を生み出すことができるかどうかを調査するために、著者はプログラム コードとそれに対応する入力と出力で構成される合成データ セットを構築しました。

これらのコード プログラムは、Karel と呼ばれる教育言語で書かれており、主に 2D グリッド世界でナビゲートするロボットのタスクを実装するために使用されます。

このグリッドの世界は 8x8 のグリッドで構成されており、各グリッドには障害物、マーカー、またはオープン スペースを含めることができます。ロボットはグリッド間を移動し、マーカーの配置/ピックアップなどの操作を実行できます。

カレル言語には、move (1 歩進む)、turnLeft (左に 90 度回転)、turnRight (右に 90 度回転)、pickMarker (マーカーを拾う)、putMarker (マーカーを配置) の 5 つの原始操作が含まれており、プログラムは次で構成されます。これらの原始的な操作のシーケンス。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

著者は、500,000 のカレル プログラムを含むトレーニング セットをランダムに生成し、各プログラムの長さは 6 ~ 10 でした。

各トレーニング サンプルは、5 つの入力状態、5 つの出力状態、および完全なプログラム コードの 3 つの部分で構成されます。入力状態と出力状態は特定の形式の文字列にエンコードされます。

このデータを使用して、著者らは標準の Transformer アーキテクチャの CodeGen モデルのバリアントをトレーニングしました。

トレーニング プロセス中、モデルは各サンプルの入出力情報とプログラム プレフィックスにアクセスできますが、プログラム実行の完全な軌跡と中間状態を確認することはできません。

トレーニング セットに加えて、著者はモデルの汎化パフォーマンスを評価するために 10,000 個のサンプルを含むテスト セットも構築しました。

言語モデルがコードの背後にあるセマンティクスを把握しているかどうかを研究し、同時にモデルの「思考プロセス」を深く理解するために、著者は線形分類器と単一/二重隠れ層MLP。

検出器の入力はプログラムトークンの生成過程における言語モデルの隠れた状態であり、予測ターゲットはプログラム実行の中間状態であり、特にロボットの向き(方向)、初期位置に対するオフセットを含みます。 (位置)、障害物に正面を向いているか(障害物)、この3つの特徴です。

生成モデルのトレーニング プロセス中、著者は 4000 ステップごとに上記 3 つの特徴を記録し、検出器のトレーニング データ セットを形成するために生成モデルの隠れた状態も記録しました。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

大規模モデル学習の 3 段階

言語モデルによって生成されたプログラムの多様性、複雑さ、その他の指標の変化をトレーニング プロセスとともに観察することにより、著者はトレーニング プロセスを 3 つの段階に分割しました -

せせらぎ (ナンセンス) ステージ: 出力プログラムの反復性が高く、検出器の精度が不安定です。

文法習得段階: プログラムの多様性が急速に増加し、生成精度がわずかに増加し、混乱が減少します。これは、言語モデルがプログラムの構文構造を学習したことを示しています。

意味の獲得段階: プログラムの多様性と構文構造の習熟度は安定していますが、生成精度と検出器のパフォーマンスは大幅に向上しており、言語モデルがプログラムの意味を学習していることを示しています。

具体的には、喃語段階はトレーニング プロセス全体の最初の 50% を占めます。たとえば、トレーニングが約 20% に達すると、どのような仕様が入力されても、モデルは固定プログラム (「pickMarker」を 9 回繰り返す) のみを生成します。 。

文法習得段階はトレーニング プロセスの 50% から 75% にあり、カレル プログラムにおけるモデルの複雑さは大幅に低下しています。これは、言語モデルがカレル プログラムの統計的特性によりよく適応し始めていることを示しています。生成されたプログラムの精度はそれほど向上していません (約 10% から約 25%) が、依然としてタスクを正確に完了できません。

セマンティック獲得段階は、プログラムの精度が約 25% から 90% 以上に大幅に向上しました。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

さらなる実験により、検出器は時刻 t における同時タイム ステップを予測できるだけでなく、後続のタイム ステップのプログラム実行ステータスも予測できることがわかりました。

たとえば、生成モデルが時間 t にトークン「move」を生成し、時間 t+1 に「turnLeft」を生成すると仮定します。

同時に、時間 t でのプログラムの状態は、ロボットが北を向いており、座標 (0,0) に位置していることですが、時間 t+1 では、ロボットは西を向いていることになります。順位は変わらず。

検出器が時刻 t の言語モデルの隠れ状態から、ロボットが時刻 t+1 に西を向くことをうまく予測できた場合、それは、「turnLeft」を生成する前に、隠れ状態に既にこの効果が含まれていることを意味します。操作ステータス変更情報。

この現象は、モデルが生成されたプログラム部分の意味を理解しているだけでなく、生成の各ステップで、次に生成されるコンテンツをすでに予測および計画しており、予備的な未来志向の推論スキルを示していることを示しています。

しかし、この発見はこの研究に新たな疑問をもたらしました -

実験で観察された精度の向上は本当に生成モデルの向上なのか、それとも検出器自身の推論の結果なのでしょうか?

この疑問を解決するために、著者は意味検出介入実験を追加しました。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程”

実験の基本的な考え方は、プログラム操作の意味解釈ルールを変更することであり、「反転」と「敵対的」の2つの方法に分けられます。

「flip」は命令の意味を強制的に反転します。たとえば、「turnRight」は「turn left」と強制的に解釈されます。ただし、この種の反転を実行できるのは「turnLeft」と「turnRight」だけです。 「敵対的」は強制することです。 以下の表に示すように、すべての命令に対応するセマンティクスがランダムにシャッフルされます。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程” 生成モデルの隠れ状態が意味情報ではなくプログラムの構文構造のみをエンコードしている場合でも、検出器は同じパフォーマンスで隠れ状態から変更された意味情報を抽出できるはずです。

逆に、検出器のパフォーマンスが大幅に低下した場合、検出器によって示されたパフォーマンスの向上は、生成モデルの隠れ状態が実際のセマンティクスをエンコードしているためであることを意味します。

実験結果は、両方の新しいセマンティクスの下で検出器のパフォーマンスが大幅に低下することを示しています。

「敵対的」モードでは特により顕著であり、これは、このモードのセマンティクスが元のセマンティクスと大幅に異なるという特徴とも一致します。

 大模型对语言有自己的理解!MIT 论文揭示大模型“思维过程” これらの結果は、検出器が「意味論的マッピングを自ら学習する」可能性を強く排除し、生成モデルが実際にコードの意味を把握していることをさらに裏付けています。

論文アドレス:

https://icml.cc/virtual/2024/poster/34849

参考リンク:

[ 1 ] https://news.mit.edu/2024/llms-develop-own-言語能力としての現実理解改善-0814

[ 2 ] https://www.reddit.com/r/LocalLLaMA/comments/1esxkin/llms_develop_their_own_ Understanding_of_reality/

以上が大きなモデルは独自の言語を理解しています。 MITの論文で大規模モデルの「思考プロセス」が明らかにの詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

このウェブサイトの声明
この記事の内容はネチズンが自主的に寄稿したものであり、著作権は原著者に帰属します。このサイトは、それに相当する法的責任を負いません。盗作または侵害の疑いのあるコンテンツを見つけた場合は、admin@php.cn までご連絡ください。

ホットAIツール

Undresser.AI Undress

Undresser.AI Undress

リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover

AI Clothes Remover

写真から衣服を削除するオンライン AI ツール。

Undress AI Tool

Undress AI Tool

脱衣画像を無料で

Clothoff.io

Clothoff.io

AI衣類リムーバー

Video Face Swap

Video Face Swap

完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

ホットツール

メモ帳++7.3.1

メモ帳++7.3.1

使いやすく無料のコードエディター

SublimeText3 中国語版

SublimeText3 中国語版

中国語版、とても使いやすい

ゼンドスタジオ 13.0.1

ゼンドスタジオ 13.0.1

強力な PHP 統合開発環境

ドリームウィーバー CS6

ドリームウィーバー CS6

ビジュアル Web 開発ツール

SublimeText3 Mac版

SublimeText3 Mac版

神レベルのコード編集ソフト(SublimeText3)

世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです 世界で最も強力なオープンソース MoE モデルが登場。GPT-4 に匹敵する中国語機能を備え、価格は GPT-4-Turbo のわずか 1% 近くです May 07, 2024 pm 04:13 PM

従来のコンピューティングを超える能力を備えているだけでなく、より低コストでより効率的なパフォーマンスを実現する人工知能モデルを想像してみてください。これは SF ではありません。世界で最も強力なオープンソース MoE モデルである DeepSeek-V2[1] が登場しました。 DeepSeek-V2 は、経済的なトレーニングと効率的な推論の特徴を備えた強力な専門家混合 (MoE) 言語モデルです。これは 236B のパラメータで構成されており、そのうち 21B は各マーカーをアクティブにするために使用されます。 DeepSeek67B と比較して、DeepSeek-V2 はパフォーマンスが優れていると同時に、トレーニング コストを 42.5% 節約し、KV キャッシュを 93.3% 削減し、最大生成スループットを 5.76 倍に高めます。 DeepSeek は一般的な人工知能を研究する会社です

AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました AI が数学研究を破壊する!フィールズ賞受賞者で中国系アメリカ人の数学者が上位 11 件の論文を主導 | テレンス・タオが「いいね!」しました Apr 09, 2024 am 11:52 AM

AI は確かに数学を変えつつあります。最近、この問題に細心の注意を払っている陶哲軒氏が『米国数学協会会報』(米国数学協会会報)の最新号を送ってくれた。 「機械は数学を変えるのか?」というテーマを中心に、多くの数学者が意見を述べ、そのプロセス全体は火花に満ち、ハードコアで刺激的でした。著者には、フィールズ賞受賞者のアクシャイ・ベンカテシュ氏、中国の数学者鄭楽軍氏、ニューヨーク大学のコンピューター科学者アーネスト・デイビス氏、その他業界で著名な学者を含む強力な顔ぶれが揃っている。 AI の世界は劇的に変化しています。これらの記事の多くは 1 年前に投稿されたものです。

Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Google は大喜び: JAX のパフォーマンスが Pytorch や TensorFlow を上回りました! GPU 推論トレーニングの最速の選択肢となる可能性があります Apr 01, 2024 pm 07:46 PM

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 こんにちは、電気アトラスです!ボストン・ダイナミクスのロボットが復活、180度の奇妙な動きにマスク氏も恐怖 Apr 18, 2024 pm 07:58 PM

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました MLP に代わる KAN は、オープンソース プロジェクトによって畳み込みまで拡張されました Jun 01, 2024 pm 10:03 PM

今月初め、MIT やその他の機関の研究者らは、MLP に代わる非常に有望な代替案である KAN を提案しました。 KAN は、精度と解釈可能性の点で MLP よりも優れています。また、非常に少数のパラメーターを使用して、多数のパラメーターを使用して実行する MLP よりも優れたパフォーマンスを発揮できます。たとえば、著者らは、KAN を使用して、より小規模なネットワークと高度な自動化で DeepMind の結果を再現したと述べています。具体的には、DeepMind の MLP には約 300,000 個のパラメーターがありますが、KAN には約 200 個のパラメーターしかありません。 KAN は、MLP が普遍近似定理に基づいているのに対し、KAN はコルモゴロフ-アーノルド表現定理に基づいているのと同様に、強力な数学的基礎を持っています。以下の図に示すように、KAN は

テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! テスラのロボットは工場で働く、マスク氏:手の自由度は今年22に達する! May 06, 2024 pm 04:13 PM

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行​​い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム FisheyeDetNet: 魚眼カメラに基づいた最初のターゲット検出アルゴリズム Apr 26, 2024 am 11:37 AM

目標検出は自動運転システムにおいて比較的成熟した問題であり、その中でも歩行者検出は最も初期に導入されたアルゴリズムの 1 つです。ほとんどの論文では非常に包括的な研究が行われています。ただし、サラウンドビューに魚眼カメラを使用した距離認識については、あまり研究されていません。放射状の歪みが大きいため、標準のバウンディング ボックス表現を魚眼カメラに実装するのは困難です。上記の説明を軽減するために、拡張バウンディング ボックス、楕円、および一般的な多角形の設計を極/角度表現に探索し、これらの表現を分析するためのインスタンス セグメンテーション mIOU メトリックを定義します。提案された多角形モデルの FisheyeDetNet は、他のモデルよりも優れたパフォーマンスを示し、同時に自動運転用の Valeo 魚眼カメラ データセットで 49.5% の mAP を達成しました。

オックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24) オックスフォード大学の最新情報!ミッキー:2D画像を3D SOTAでマッチング! (CVPR\'24) Apr 23, 2024 pm 01:20 PM

前に書かれたプロジェクトのリンク: https://nianticlabs.github.io/mickey/ 2 枚の写真が与えられた場合、それらの写真間の対応関係を確立することで、それらの間のカメラのポーズを推定できます。通常、これらの対応は 2D 対 2D であり、推定されたポーズはスケール不定です。いつでもどこでもインスタント拡張現実などの一部のアプリケーションでは、スケール メトリクスの姿勢推定が必要なため、スケールを回復するために外部深度推定器に依存します。この論文では、3D カメラ空間でのメトリックの対応を予測できるキーポイント マッチング プロセスである MicKey を提案します。画像全体の 3D 座標マッチングを学習することで、相対的なメトリックを推測できるようになります。

See all articles