新しいタイトル: 大規模モデルが遅い理由を明らかにする: 人間の心のアルゴリズムの新しい方向性
AI 研究者は人間の直感を無視することがよくありますが、実際には私たち自身もその微妙さを完全には理解していません。最近、バージニア工科大学とマイクロソフトの研究チームは、LLM のパフォーマンスを確保し、大幅なコスト削減を達成するために、直感的な能力とアルゴリズム手法を組み合わせた思考アルゴリズム (AoT) を提案しました。
#大規模な言語モデルには、次のような特徴があります。最近非常に急速に開発が進んでおり、一般的な問題の解決、コードの生成、指示に従う際に顕著な能力を実証しています
初期のモデルは直接応答戦略に依存しているにもかかわらず、現在の研究は線形推論パスに移行しています問題をサブタスクに分割して解決策を見つけるか、コンテキストを変更して外部メカニズムを利用してトークン生成を変更します。
人間の認知と同様に、初期の LLM 戦略は、衝動的な意思決定を特徴とする即時システム 1 (素早い反応) を模倣しているように見えました。対照的に、思考連鎖 (CoT) や最小から最大へのプロンプト (L2M) などの新しい方法は、システム 2 (遅い思考) の内省的な性質を反映しています。 LLM の算術推論能力は、中間推論ステップを統合することによって向上できることは注目に値します。
#ただし、タスクにより深い計画と広範な頭の探求が必要な場合、これらの方法の限界が明らかになります。自己一貫性を組み込んだ CoT (CoT-SC) は、複数の LLM 出力を使用して合意結果に達することができますが、詳細な評価が欠如しているため、モデルが間違った方向に進む可能性があります。 2023 年に登場する Tree of Thinking (ToT) は注目すべきソリューションです。 1 つの LLM はアイデアの生成に使用され、もう 1 つの LLM はそれらのアイデアの利点を評価するために使用され、その後「一時停止、評価、継続」のサイクルが続きます。ツリー検索に基づくこの反復プロセスは、特に長時間継続するタスクの場合に明らかに効果的です。研究者らは、この開発は、人間が自身の作業記憶の制限を回避するためにツールを使用するのと同様に、LLM を強化するための外部ツールの使用であると考えています。
一方で、強化された LLM 手法にはいくつかの欠点もあります。明らかな問題は、クエリの数と計算要件が大幅に増加することです。 GPT-4 などのオンライン LLM API へのクエリごとに大幅なオーバーヘッドが発生し、遅延が増加します。これはリアルタイム アプリケーションにとって特に重要です。これらのクエリの待ち時間が蓄積すると、シナリオの全体的な効率が低下する可能性があります。インフラストラクチャ側では、絶え間ない対話によりシステムにストレスがかかり、帯域幅が制限され、モデルの可用性が低下する可能性があります。さらに、環境への影響も無視できません。頻繁なクエリにより、すでにエネルギー集約型のデータセンターのエネルギー消費が増加し、二酸化炭素排出量がさらに増加します。
研究者の最適化目標は、十分なパフォーマンスを達成しながら、現在のマルチクエリ推論方法で使用されるクエリの数を大幅に削減することです。このような最適化により、モデルが世界の知識の熟練した適用を必要とするタスクを処理できるようになり、人々が AI リソースをより責任を持って熟練的に使用できるようになります。
システム 1 からシステム 2 の進化まで LLM について考えると、アルゴリズムという重要な要素が浮上していることがわかります。アルゴリズムは体系的であり、人々が問題空間を探索し、戦略を策定し、解決策を構築する方法を提供します。多くの主流文献はアルゴリズムを LLM の外部ツールと見なしていますが、LLM の固有の生成再帰能力を考慮すると、この反復ロジックを導き、アルゴリズムを LLM に内部化できるでしょうか?
バージニア工科大学とマイクロソフトの研究者チームは、人間の推論の高度さとアルゴリズム アプローチの系統的精度を統合し、この 2 つを融合することで LLM を強化しました。
既存の研究によると、人間は複雑な問題を解決するとき、本能的に過去の経験を利用して、1 つの詳細に狭く焦点を当てるのではなく、包括的に考えるようになるそうです。 LLM の生成範囲はそのトークン制限によってのみ制限されており、人間の作業記憶の障害を突破する運命にあるようですこの観察に触発されて、研究者は LLM が可能かどうかを調査し始めました。すべて LLM の生成サイクル内で、以前の中間ステップを参照して実行不可能なオプションを排除する階層的な考え方。人間は直感が得意ですが、アルゴリズムは組織的かつ体系的な探索が得意です。 CoT などの現在のテクノロジーは、この相乗効果の可能性を回避し、LLM のオンサイト精度に重点を置きすぎる傾向があります。 LLM の再帰機能を活用することで、研究者らは人間とアルゴリズムのハイブリッド アプローチを構築しました。このアプローチは、最初の候補から実証済みのソリューションまで、探索の本質を捉えるアルゴリズムの例を使用することで実現されます。
これらの観察に基づいて、研究者たちは思考のアルゴリズム (AoT) を提案しました。
#書き直す必要がある内容は次のとおりです: 論文: https://arxiv.org/pdf/2308.10379.pdf
思考アルゴリズム
研究者らは、研究戦略の中心にあるのは、現在の文脈学習パラダイムの大きな欠点の認識であると述べています。 CoT は思考のつながりの一貫性を向上させることができますが、時折問題が発生し、中間ステップが間違ってしまうことがあります。
この現象を説明するために、研究者たちは実験を計画しました。算術タスク (11 − 2 = など) で text-davinci-003 をクエリする場合、研究者は同等の出力 (15 − 5 = 10、8 2 = 10 など) を生成する複数のコンテキスト方程式を先頭に追加します。
この偏りを軽減するには、例をより多様にすることが実行可能な解決策になる可能性がありますが、これにより出力の分布がわずかに変化する可能性があります。失敗した試行 (ランダム検索など) をいくつか追加するだけでは、実際には問題を解決せずにモデルが再試行するよう意図せずに誘導される可能性があります。アルゴリズムの動作の本質 (失敗した検索とその後の回復が重要であり、これらの試みから学ぶことも重要です) を理解して、研究者が状況に応じた例を組み込む方法は、検索アルゴリズム、特に深さ優先検索 (DFS) のパターンに従うことです。幅優先検索 (BFS)。図 1 に例を示します。
この文書の主な焦点は、ツリー検索問題に似たタスクのクラスです。
このタイプのタスクの主な問題は、それを分解して、各部分に対して実行可能なソリューションを構築する必要があります。次に、特定のパスを採用するか破棄するかを決定する必要があり、可能性がより高いパスを再評価することを選択する可能性があります。研究者のアプローチは、統合生成スキャンで各サブセットのクエリ問題を解決するで、LLM の反復機能を活用することです。 LLM インタラクションを 1 つまたは 2 つに限定することで、このアプローチは以前のコンテキスト上の候補からの洞察を自然に統合し、ソリューション ドメインの深い探索を必要とする複雑な問題を解決できます。研究者らはまた、マインドのサイズと、トークンの効率を向上させるために LLM に提供すべきコンテキストの例の種類についての洞察も提供します。ツリー検索アルゴリズムの主要なコンポーネントと新しいフレームワークでのそれらの表現を以下に紹介します
#1. サブ問題に分解します。
問題が与えられた場合、実際の問題解決の側面に目を向けなくても、実行可能な推論パスを記述する検索ツリーを構築することは、すでに困難な作業です。どのような分解でも、サブタスク間の相互関係だけでなく、各問題の解決のしやすさも考慮する必要があります。 単純な複数桁の加算を例に挙げます。コンピュータにとって数値を 2 進数に変換するのは効率的ですが、人間は 10 進数の方が直感的であると感じることがよくあります。また、部分問題が同じであっても、実行方法が異なる場合もある。直感があれば、解決策へのステップ間の近道を見つけることができますが、直感がなければ、より詳細なステップが必要になる場合があります。 正しいプロンプト (つまり、コンテキスト アルゴリズムの例) を作成するには、これらの微妙な点が非常に重要であり、信頼性の高いパフォーマンスのために LLM に必要なトークンの最小数が決まります。これは、コンテキストに対する LLM の制約を満たすだけでなく、同量のトークンを使用してコンテキストに共鳴する問題を解決する LLM の能力にとっても重要です。 #2. サブ質問に対する解決策を提案します。 現在の主流の方法の 1 つは、LLM トークンの出力確率を直接サンプリングすることです。この方法は 1 回限りの回答には有効ですが (一定の制限はあります)、サンプル シーケンスを後続のプロンプトに統合する必要がある場合や、後続のプロンプトで評価する必要がある場合など、一部のシナリオには対応できません。モデルのクエリを最小限に抑えるために、研究者らはノンストップのソリューション作成プロセスを使用しました。つまり、生成を一時停止することなく、主要な副問題に対する解決策を直接かつ継続的に生成します。 書き直された内容: このアプローチには多くの利点があります。まず、生成されたすべての回答は同じ共有コンテキスト内にあるため、評価のために回答ごとに個別のモデル クエリを生成する必要がなくなります。第 2 に、最初は直観に反しているように思えるかもしれませんが、孤立したマーカーまたはマーカー グループの確率が必ずしも意味のある選択につながるとは限りません。図 4 は、単純な図式を示しています #3. 副次的な問題の見通しを測定します。 上で述べたように、既存の手法は追加のヒントに依存してツリー ノードの可能性を特定し、探索方向の決定に役立てています。私たちの観察によれば、LLM は本質的に、文脈上の例にカプセル化できる場合、有望な候補を優先する傾向があることがわかりました。これにより、複雑なプロンプト エンジニアリングの必要性が減り、直観的であろうと知識主導型であろうと、洗練されたヒューリスティックの統合が可能になります。同様に、新しい方法にはばらばらのプロンプトが含まれていないため、生成された同じ結果内で候補の実現可能性を即座に評価できます。 4. より良いノードに戻ります。 次にどのノードを探索するか (前のノードへの遡行を含む) の決定は、基本的に、選択したツリー検索アルゴリズムに依存します。これまでの研究では、検索プロセスにコーディング メカニズムなどの外部手法を採用していましたが、これでは広範な魅力が制限され、追加のカスタマイズが必要になります。この論文で提案する新しい設計は主に DFS 法を採用し、枝刈りによって補完されます。目標は、同じ親ノードを持つ子ノード間の近接性を維持することにより、LLM がリモート機能よりもローカル機能を優先するように促すことです。さらに、研究者らは、BFS ベースの AoT 手法のパフォーマンス指標も提案しました。研究者らは、状況に応じた例から洞察を収集するモデル本来の機能を活用することで、追加のカスタマイズ メカニズムの必要性を排除できると述べています。 研究者たちは、24 ポイントと 5x5 のミニ ワード パズルで実験を実施しました。結果は、AoT メソッドが単一プロンプトメソッド (標準メソッド、CoT、CoT-SC など) よりもパフォーマンスが優れており、外部メカニズムを使用するメソッド (ToT など) 表 1 から、ツリー検索に LLM を使用する方法は、CoT/CoT-SC と組み合わせた標準のプロンプト設計方法よりも大幅に優れていることが明確にわかります。
ディスカッション 図 5 に示すように、AoT は DFS バージョンよりも全体的に使用するノードの数が少なくなります。 DFS は探索するサブツリーの選択に統一戦略を採用しますが、AoT の LLM は固有のヒューリスティックを統合します。基本アルゴリズムのこの拡張は、LLM の再帰的推論機能の利点を反映しています アルゴリズムの選択は AoT のパフォーマンスにどのような影響を与えますか? #表 5 は、3 つの AoT バリアントすべてが単一クエリの CoT よりも優れていることを示すことが実験で判明しました。 #この結果は、アルゴリズムが何であれ、ランダム検索バリアントでのランダムな試行または深さ優先検索 (DFS) または幅方向のバックトラッキングのいずれかによって、潜在的なエラーを検索して再検討するため、予想どおりです。 -first search (BFS) 構成。構造化検索の効率、AoT の DFS バージョンと AoT の BFS バージョンは両方とも、AoT のランダム バージョンより優れていることは注目に値します。これは、ソリューション発見におけるアルゴリズムの洞察の利点を強調しています。ただし、BFS バージョンの AoT は、DFS バージョンの AoT よりも遅れています。研究者らは、BFS バージョンの AoT のエラーをさらに分析することで、DFS バージョンの AoT と比較して、BFS バージョンの AoT は最適な操作 を特定するのがより難しいことを発見しました。 AoT の動作を調整する場合、アルゴリズム例の検索ステップ数に注意する必要があります。 検索ステップの総数の影響を図 6 に示します。このうち、AoT (長い) と AoT (短い) は、それぞれ、元の AoT 生成結果と比べて長いバージョンと短いバージョンを表します。 研究結果は、検索ステップにより、LLM の検索速度に暗黙的なバイアスが生じます。たとえ間違ったステップが取られたとしても、有望な方向性を模索することを重視することが依然として重要であることに注意することが重要です。実験
以上が新しいタイトル: 大規模モデルが遅い理由を明らかにする: 人間の心のアルゴリズムの新しい方向性の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











DDREASE は、ハード ドライブ、SSD、RAM ディスク、CD、DVD、USB ストレージ デバイスなどのファイル デバイスまたはブロック デバイスからデータを回復するためのツールです。あるブロック デバイスから別のブロック デバイスにデータをコピーし、破損したデータ ブロックを残して正常なデータ ブロックのみを移動します。 ddreasue は、回復操作中に干渉を必要としないため、完全に自動化された強力な回復ツールです。さらに、ddasue マップ ファイルのおかげでいつでも停止および再開できます。 DDREASE のその他の主要な機能は次のとおりです。 リカバリされたデータは上書きされませんが、反復リカバリの場合にギャップが埋められます。ただし、ツールに明示的に指示されている場合は切り詰めることができます。複数のファイルまたはブロックから単一のファイルにデータを復元します

0.この記事は何をするのですか?私たちは、多用途かつ高速な最先端の生成単眼深度推定モデルである DepthFM を提案します。従来の深度推定タスクに加えて、DepthFM は深度修復などの下流タスクでも最先端の機能を実証します。 DepthFM は効率的で、いくつかの推論ステップ内で深度マップを合成できます。この作品について一緒に読みましょう〜 1. 論文情報タイトル: DepthFM: FastMonocularDepthEstimationwithFlowMatching 著者: MingGui、JohannesS.Fischer、UlrichPrestel、PingchuanMa、Dmytr

Google が推進する JAX のパフォーマンスは、最近のベンチマーク テストで Pytorch や TensorFlow のパフォーマンスを上回り、7 つの指標で 1 位にランクされました。また、テストは最高の JAX パフォーマンスを備えた TPU では行われませんでした。ただし、開発者の間では、依然として Tensorflow よりも Pytorch の方が人気があります。しかし、将来的には、おそらくより大規模なモデルが JAX プラットフォームに基づいてトレーニングされ、実行されるようになるでしょう。モデル 最近、Keras チームは、ネイティブ PyTorch 実装を使用して 3 つのバックエンド (TensorFlow、JAX、PyTorch) をベンチマークし、TensorFlow を使用して Keras2 をベンチマークしました。まず、主流のセットを選択します

Boston Dynamics Atlas は正式に電動ロボットの時代に突入します!昨日、油圧式アトラスが歴史の舞台から「涙ながらに」撤退したばかりですが、今日、ボストン・ダイナミクスは電動式アトラスが稼働することを発表しました。ボストン・ダイナミクス社は商用人型ロボットの分野でテスラ社と競争する決意を持っているようだ。新しいビデオが公開されてから、わずか 10 時間ですでに 100 万人以上が視聴しました。古い人が去り、新しい役割が現れるのは歴史的な必然です。今年が人型ロボットの爆発的な年であることは間違いありません。ネットユーザーは「ロボットの進歩により、今年の開会式は人間のように見え、人間よりもはるかに自由度が高い。しかし、これは本当にホラー映画ではないのか?」とコメントした。ビデオの冒頭では、アトラスは仰向けに見えるように地面に静かに横たわっています。次に続くのは驚くべきことです

iPhone のモバイル データ接続に遅延や遅い問題が発生していませんか?通常、携帯電話の携帯インターネットの強度は、地域、携帯ネットワークの種類、ローミングの種類などのいくつかの要因によって異なります。より高速で信頼性の高いセルラー インターネット接続を実現するためにできることがいくつかあります。解決策 1 – iPhone を強制的に再起動する 場合によっては、デバイスを強制的に再起動すると、携帯電話接続を含む多くの機能がリセットされるだけです。ステップ 1 – 音量を上げるキーを 1 回押して放します。次に、音量小キーを押して、もう一度放します。ステップ 2 – プロセスの次の部分は、右側のボタンを押し続けることです。 iPhone の再起動が完了するまで待ちます。セルラーデータを有効にし、ネットワーク速度を確認します。もう一度確認してください 修正 2 – データ モードを変更する 5G はより優れたネットワーク速度を提供しますが、信号が弱い場合はより適切に機能します

テスラのロボット「オプティマス」の最新映像が公開され、すでに工場内で稼働可能となっている。通常の速度では、バッテリー(テスラの4680バッテリー)を次のように分類します:公式は、20倍の速度でどのように見えるかも公開しました - 小さな「ワークステーション」上で、ピッキング、ピッキング、ピッキング:今回は、それがリリースされたハイライトの1つビデオの内容は、オプティマスが工場内でこの作業を完全に自律的に行い、プロセス全体を通じて人間の介入なしに完了するというものです。そして、オプティマスの観点から見ると、自動エラー修正に重点を置いて、曲がったバッテリーを拾い上げたり配置したりすることもできます。オプティマスのハンドについては、NVIDIA の科学者ジム ファン氏が高く評価しました。オプティマスのハンドは、世界の 5 本指ロボットの 1 つです。最も器用。その手は触覚だけではありません

世界は狂ったように大きなモデルを構築していますが、インターネット上のデータだけではまったく不十分です。このトレーニング モデルは「ハンガー ゲーム」のようであり、世界中の AI 研究者は、データを貪欲に食べる人たちにどのように餌を与えるかを心配しています。この問題は、マルチモーダル タスクで特に顕著です。何もできなかった当時、中国人民大学学部のスタートアップチームは、独自の新しいモデルを使用して、中国で初めて「モデル生成データフィード自体」を実現しました。さらに、これは理解側と生成側の 2 つの側面からのアプローチであり、両方の側で高品質のマルチモーダルな新しいデータを生成し、モデル自体にデータのフィードバックを提供できます。モデルとは何ですか? Awaker 1.0 は、中関村フォーラムに登場したばかりの大型マルチモーダル モデルです。チームは誰ですか?ソフォンエンジン。人民大学ヒルハウス人工知能大学院の博士課程学生、ガオ・イージャオ氏によって設立されました。

マルチモーダル文書理解機能のための新しい SOTA!アリババの mPLUG チームは、最新のオープンソース作品 mPLUG-DocOwl1.5 をリリースしました。これは、高解像度の画像テキスト認識、一般的な文書構造の理解、指示の遵守、外部知識の導入という 4 つの主要な課題に対処するための一連のソリューションを提案しています。さっそく、その効果を見てみましょう。複雑な構造のグラフをワンクリックで認識しMarkdown形式に変換:さまざまなスタイルのグラフが利用可能:より詳細な文字認識や位置決めも簡単に対応:文書理解の詳しい説明も可能:ご存知「文書理解」 「」は現在、大規模な言語モデルの実装にとって重要なシナリオです。市場には文書の読み取りを支援する多くの製品が存在します。その中には、主にテキスト認識に OCR システムを使用し、テキスト処理に LLM と連携する製品もあります。
