AIの急速な進歩は、数年前からの期待を超えて、機械能力の境界を押し広げています。 大規模な推論モデル(LRMS、OpenAI-O1によって例示)は、段階的なアプローチを通じて複雑な問題に取り組む洗練されたシステムです。 これらのモデルは問題を解決するだけではありません。それらは系統的に推論し、強化学習を採用して論理を改良し、詳細な一貫したソリューションを生成します。しばしば「スロー思考」と呼ばれるこの意図的なプロセスは、論理的な明確さを高めます。 ただし、大きな制限が残っています。知識のギャップ。 LRMSは、エラーを伝播する不確実性に遭遇し、最終的な精度を損なう可能性があります。 モデルサイズの増加やデータセットの拡大などの従来のソリューションは、役立ちますが、制限があり、さらには非常に複雑な推論に苦しんでいる検索の発電(RAG)メソッドもあります。
中国の人民大学とティンゥア大学の研究者によって開発された枠組みであるSearch-O1は、これらの制限に取り組んでいます。 タスクの命令、質問、動的に取得した知識をまとまりのある推論チェーンにシームレスに統合し、論理的なソリューションを促進します。 Search-O1は、エージェントのRAGメカニズムとReason-in-DocumentsモジュールでLRMを拡張して、取得した情報を改良します。目次
フレームワークは、関連するドキュメントを動的に検索して抽出し、それらを正確な推論ステップに変換し、完全なソリューションが得られるまでプロセスを改良します。 それは、伝統的な推論(知識のギャップによって妨げられている)と基本的なRAGメソッド(推論の流れを混乱させる)を上回ります。 知識統合とコヒーレンスを維持するためのエージェントメカニズムを通じて、Search-O1は信頼できる正確な推論を保証し、AIでの複雑な問題解決の新しい基準を確立します。
Search-O1は、論理的な流れを破壊せずに外部の知識検索をシームレスに統合することにより、LRMの知識のギャップに取り組みます。 この調査では、従来の推論、エージェントラグ、および検索O1フレームワークの3つのアプローチを比較しました。
。 正確な情報がなければ、モデルは仮定に依存しており、潜在的にエラーにつながる可能性があります。
2。エージェントラグ
3。 search-o1
Search-O1は、Reason-in-Documentsモジュールでエージェントラグを強化します。このモジュールは、取得したドキュメントを簡潔な推論ステップに改良し、論理的な流れを維持しながら外部知識をシームレスに統合します。 現在のクエリ、取得ドキュメント、および進化する推論チェーンを考慮すると、決定的な答えに達するまで、コヒーレントな相互接続されたステップを反復的に生成します。
ベンチマーク全体の Reason-in-Documentsモジュールの影響:このモジュールは、直接およびぼろきれのアプローチよりも利点を提供し、焦点を絞った推論を確保しました。
3段階の化学反応の最終製品での炭素原子の数を決定することは、例として機能します。 伝統的な方法は、
トランスシンナムアルデヒドの構造に欠けているなど、知識のギャップに遭遇するときに闘っていますtrans-cinnamaldehyde
"の構造)。ただし、長く、しばしば無関係な回収された文書を直接組み込むと、推論プロセスが混乱し、冗長性と接線情報による一貫性が減少します。
3つの挑戦的な推論タスクが評価されました:
1。科学QA(gpoqa)
直接的な推論:
qwq-32b(83.2%)は直接的な方法で最も効果がありましたが、search-o1
QWEN2.5-CODER-32B(22.5%)およびQWQ-32B(33.0%)は、search-o1
(33.0%)。
特定のタスクに優れているいくつかの方法は、すべてのカテゴリでバランスの取れたパフォーマンスを実証しました。
モデルの戦略
モデルは、最終製品には11の炭素原子が含まれていると結論付けました(9から始まり、グリニャード反応から1つ、最終ステップでもう1つを追加します)。 答えは11です
重要な洞察
効果的な知識の使用:ターゲット検索に記入された知識のギャップ。
反復的な推論:
以上がsearch-o1は、AI推論の論理フローをどのように改善しますか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。