Marco-O1対Llama 3.2:どちらが良いですか?
OpenaiのO1モデルは、複雑な問題に取り組む高度な機能により、大きな推論モデル(LRMS)の分野でかなりの興奮を生み出しています。この基盤に基づいて、Marco-O1は、数学やコーディングなどの伝統的な分野を強調するだけでなく、さまざまなドメインにわたってオープンエンドの問題解決を優先する新しいLRMとして発生します。 MARCO-O1の重要な焦点は、O1モデルがその推論能力を明確な基準と定量化可能な報酬を欠く領域に一般化できる程度を調査することです。この調査は、従来のメトリックが適用されない現実世界のシナリオでLRMの潜在的なアプリケーションを理解するために重要です。
学習目標
- 考え方の微調整やモンテカルロツリー検索など、Marco-O1モデルの背後にあるアーキテクチャと重要なテクニックを理解してください。
- Marco-O1が、さまざまなドメインにわたる複雑でオープンエンドの問題解決タスクの推論戦略をどのように適応させるかを調べます。
- モデルの出力の自己評価を促すことにより、推論の精度を改善する上での反射メカニズムの役割を分析します。
- 高度な推論シナリオでの出力の深さと説明に焦点を当てて、Marco-O1とLlama 3.2の推論能力を比較します。
- 数学的、論理的、多言語タスクを含む、実際の問題解決におけるMARCO-O1の実用的なアプリケーションを調べます。
この記事は、データサイエンスブログソンの一部として公開されました。
目次
- Marco-O1とは何ですか?
- 高度な推論のためのテクニック
- ラマ3.2とは何ですか?
- Ollamaを使用してGoogle Colabでモデルを実行しています
- 比較を始めましょう:Marco-O1 vs Llama 3.2
- タスク1:論理的推論
- タスク2:ストロベリーテスト
- タスク3:ジオメトリベースの推論
- タスク4:ステップバイステップの推論
- タスク5:脆弱な数学的コンテキスト
- タスク6:矛盾した情報
- 結果:Marco-O1対Llama 3.2
- 結論
- よくある質問
Marco-O1とは何ですか?
Marco-O1は、オープンエンドの問題解決タスクに取り組むように設計されたAlibaba International Digital CommerceのMarcopoloチームによって開発された高度な推論モデルです。
QWEN2アーキテクチャに基づいて構築されており、洗練されたチェーンオブシェアの組み合わせ(COT)の微調整とモンテカルロツリーサーチ(MCTS)技術を使用して、その推論機能を強化します。
トレーニングデータセット
フィルター処理されたオープンO1 COTデータセット、Marco-O1 COTデータセット、およびMarco-O1命令データセットの組み合わせとQWEN2-7B-Instructを微調整することにより、Marco-O1は複雑なタスクの取り扱いを改善しました。
- Open-O1 COTデータセット:ヒューリスティックフィルタリングを介して洗練されて、構造化された推論パターンを促進します。
- MARCO-O1 COTデータセット: MCTSを使用して生成され、複雑な推論経路を策定します。
- MARCO命令データセット:多様なタスク全体の指導中の機能の強化に焦点を当てています。
下の画像は、MARCO-01の推論プロセスを示しており、Open-01 CotやMarco-01 Cotなどのデータセットの使用を詳述しています。このプロセスには、迅速なパスの選択、MCTの実行、およびより良い精度のために監視された微調整を適用することが含まれます。これは、自信のスコアで最終回答の生成につながります。
高度な推論のためのテクニック
これは、AIモデルが複数のステップを介した推論、意思決定の最適化、より正確な予測と応答のための不確実性の組み込みなど、複雑なタスクを処理できるようにする洗練された方法に焦点を当てています。
ソリューションスペース拡張バイアモンテカルロツリー検索
MCTSは、ランダムサンプリングを通じてすべての可能な答えを調査することにより、ユーザークエリに対する最良の回答を決定するために使用されます。上記の図に示すように、MCTSでは、さまざまな推論パスと黄色のnodesspeciveがさらなる探索のために選択されています。緑色のノードは最終的な回答を表し、「選択」や「バックアップ」などの矢印は、システムが選択肢を評価および改良する方法を示しています。
自信スコア
システムは、確率(式に示されている)を使用して回答を生成した後、最終出力を改良した後に信頼性スコアを計算します。
アクション戦略
このモデルは、広いレベルの推論(ステップレベル)とマルチステップ推論(ミニステップレベル)の2つのレベルで動作できます。
MCTS検索では、さまざまなレベルの粒度が調査されました。モデルの検索スペースを拡張し、問題解決機能を強化するために、手順は「ミニステップ」と呼ばれる64または32トークンの小さな単位に分割されました。この細かい粒度により、モデルは推論パスをより詳細に探索することができました。
考えた後の反省
「待ってください!多分私はいくつかの間違いを犯しました!ゼロから再考する必要があります。」各思考プロセスの終わりに。これにより、モデルはその推論ステップを自己反映し、再評価するよう促します。この反射は、特に元のモデルが最初に誤って解決した困難な問題について、モデルの大幅な改善をもたらしました。
重要な機能
- オープンエンドの推論:標準の回答ドメイン(数学やコーディングなど)に優れている従来のモデルとは異なり、Marco-O1はオープンエンドの解像度を強調しており、明確な標準が存在しない広範なアプリケーションに適しています。
- ソリューションの探索: MCTS実装により、モデルは、決定を下す前にさまざまな動きを検討しているチェスプレーヤーに似た複数のソリューションパスを探索できます。このアプローチは、問題解決のための最も有望な戦略を特定するのに役立ちます。
- 柔軟な推論戦略: MARCO-O1は、遭遇する問題の種類に基づいて推論戦略を適応させ、複雑なタスクを管理可能なステップに効果的に分割します。
アプリケーション
MARCO-O1は特に効果的です。
- 従来の答えが十分ではないかもしれない複雑な問題解決シナリオ。
- 数学的推論タスク。
- 微妙な理解を必要とする洗練された翻訳タスク。
ラマ3.2とは何ですか?
Llama 3.2モデルには、モバイルおよびエッジデバイス向けに設計された10億(1b)および30億(3b)パラメーターテキストモデルが含まれており、要約や命令以下などのアプリケーションの効率的なパフォーマンスに焦点を当てています。
モデルアーキテクチャ
Llama 3.2は、公的に利用可能なソースから9兆個のトークンで事前に処理され、より大きなモデル(LLAMA 3.1など)の知識蒸留技術を組み込み、パフォーマンスを維持しながらパフォーマンスを強化しました。
重要な機能
- エッジデバイス用に最適化されている:モデルは軽量になるように設計されており、モバイルデバイスとエッジデバイスでの展開に適しています。
- 拡張コンテキストの長さ: llama 3.2は、コンテキスト長の長さをサポートしています。
- 多言語の対話のサポート:モデルは多言語のユースケースに最適化されており、複数の言語での相互作用を必要とするアプリケーションで効果的になります。
アプリケーション
Llama 3.2 3bは、特定の分野、特に推論タスクで顕著なパフォーマンスを実証しました。 ARCチャレンジでは、78.6のスコアを達成し、Gemmaの76.7を上回りましたが、Phi-3.5-Miniのすぐ後ろに87.4を獲得しました。同様に、Hellawagのベンチマークでは、Llama 3.2 3bは69.8を獲得し、Gemmaを上回り、PHIと競争力を維持しました。
したがって、Python実装の次の実例では、2つのモデル(Marco-O1とLlama 3.2 3b)に関する推論に基づいた質問の比較評価を行います。この比較評価は、主に、MARCO-O1からの出力が推論ベースの質問に実際に優れているかどうかを確認するために行われます。
Ollamaを使用してGoogle Colabでモデルを実行しています
Ollamaは、ユーザーがローカルで(CPUモードとGPUモードで)大きな言語モデルを簡単にセットアップして実行できるようにする高度なAIツールです。以下の手順でOllamaを使用してGoogle Colabでこれらのモデルを実行する方法について説明します。
ステップ1:ライブラリのインストール
以下に必要なすべてのライブラリをインストールします。
!sudo aptアップデート !sudo apt install -y pciutils !ピップインストールlangchain-ollama !curl -fssl https://ollama.com/install.sh | sh !ピップインストールollama == 0.4.2
ステップ2:Google ColabでOllamaを実行するスレッドプロセスを有効にする
このステップでは、OllamaがGoogle Colabで効率的に実行できるようにスレッドを設定します。スレッドは、タスクの並行して実行され、遅延なしでスムーズなパフォーマンスとより速い処理を確保します。このセットアップは、コラブ環境内でリソース集約型の操作をシームレスに実行するために重要です。
スレッドをインポートします サブプロセスをインポートします インポート時間 def run_ollama_serve(): subprocess.popen(["ollama"、 "serve"])) スレッド= threading.thread(ターゲット= run_ollama_serve) thread.start() time.sleep(5)
ステップ3:Ollamaモデルを引く
!Ollama Pull Marco-O1
MARCO-O1をLlAMA3.2に置き換えることにより、同じコードを使用してllama3.2モデルをプルすることができます。
ステップ4:モデルのクエリ
このステップでは、入力に基づいて応答または洞察を取得するためにモデルにクエリを送信することが含まれます。テキストの生成や質問への回答などのタスクのモデルと対話するのに役立ちます。
langchain_core.promptsからchatprompttemplateをインポートします langchain_ollama.llmsからOllamallmをインポートします iPython.displayからマークダウンをインポートします Template = "" "質問:{質問}" "" prompt = chatprompttemplate.from_template(テンプレート) Model = Ollamallm(model = "marco-o1") チェーン=プロンプト|モデル #呼び出しのために入力を準備します input_data = { 「質問」:「私は2つのリンゴを持っています、そして私はさらに2つを買います。 2枚のリンゴでパイを焼きます。パイの半分を食べた後、私はいくつのリンゴを残しましたか?」} #入力データを使用してチェーンを呼び出し、マークダウン形式で応答を表示します Response = Chain.Invoke(input_data) ディスプレイ(マークダウン(応答))
比較を始めましょう:Marco-O1 vs Llama 3.2
このセクションでは、MARCO-O1とLLAMA 3.2の出力を比較し、複雑な推論タスクとリアルタイムアプリケーションの処理における強みと違いを強調します。彼らの回答を調べることにより、各モデルが問題解決にどのようにアプローチし、異なるユースケースに適応するかをよりよく理解できます。
タスク1:論理的推論
「私は2つのリンゴを持っています、それから私はさらに2つを買います。 2枚のリンゴでパイを焼きます。食べた後<br>パイの半分は、いくつのリンゴを残しましたか?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
どちらのモデルも正確な応答を提供しますが、Marco-O1はLlama 3.2と比較してより詳細な説明を提供します。
タスク2:ストロベリーテスト
「イチゴにはいくつですか?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
上記の出力からわかるように、Llama 3.2モデルからの応答は不正確ですが、Marco-O1モデルからの応答は正確です。
タスク3:ジオメトリベースの推論
「10ユニットのベースと5ユニットの高さを持つ三角形の面積は?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
上記の出力からわかるように、両方のモデルは正確な応答を与えますが、Marco-O1モデルからの応答はLlama 3.2と比較してもう少し説明されています。
タスク4:ステップバイステップの推論
「車が20,000ドルの費用がかかり、毎年1,000ドル減価償却された場合、どれくらいの金額になりますか<br>3年後に価値がありますか?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
上記の出力からわかるように、両方のモデルは正確な応答を与えますが、Marco-O1モデルからの応答はLlama 3.2と比較してもう少し説明されています。
あいまいさのある三段論法
「すべての鳥は飛ぶことができます。ペンギンは鳥です。ペンギンは飛ぶことができますか?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
上記の出力からわかるように、両方のモデルが正確な応答を与えても、MARCO-O1モデルからの応答は、Llama 3.2と比較して回答に到達するための多くの議論と二重チェックをより説明し、詳細に説明しています。
タスク5:脆弱な数学的コンテキスト
「オリバーは金曜日に44キウイを選び、土曜日に58を選びます。日曜日に、彼は金曜日にしたことを2倍に選びますが、そのうち5人は平均よりも小さかった。オリバーには何人のキウイがいますか?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
上記の出力からわかるように、両方のモデルが正確な応答を与えているにもかかわらず、Llama 3.2からの応答は、クエリで提供されている追加情報(ただし、5つは平均よりも小さかった)と混同されるため、実際の回答から5を減算します。ただし、Marco-O1からの出力は、詳細な説明とともに正確です。
タスク6:矛盾した情報
」ジョンはピーナッツにアレルギーがあります。彼はピーナッツバターサンドイッチを食べて、元気に感じました。何<br> ジョンのアレルギーについて結論付けることはできますか?」
Marco-O1からの出力
llama 3.2(3bモデル)からの出力
Marco-O1モデルからの応答からわかるように、答えに到達するために多くの議論と二重チェックを提示して、多くの説明と詳細なものです。 Llama 3.2からの応答は、「彼は単に胃の動揺またはピーナッツバターに対する不寛容を持っていた」という情報が不正確であり、クエリに記載されている情報と矛盾しているため、完全に正確ではないようです。
結果:Marco-O1対Llama 3.2
タスク | Marco-O1パフォーマンス | Llama 3.2(3Bモデル)パフォーマンス | 勝者 |
---|---|---|---|
タスク1:論理的推論 | 詳細な説明で正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク2:ストロベリーテスト | 正確な | 不正確 | Marco-O1 |
タスク3:ジオメトリの推論 | 詳細な説明で正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク4:ステップバイステップの推論 | 詳細な説明で正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク5:あいまいさのある三段論法 | 精巧な説明とダブルチェックで正確です | 正確ですが、詳細が少ない | Marco-O1 |
タスク6:脆弱な数学的コンテキスト | 詳細な説明で正確です | 不正確(追加情報に混乱する) | Marco-O1 |
タスク7:矛盾した情報 | 精巧な説明とダブルチェックで正確です | 不正確(矛盾した情報を提供) | Marco-O1 |
結論
MARCO-O1モデルは、特にモンテカルロツリーの検索と考え方の微調整を革新的に使用することにより、複雑な推論タスクを処理するAIの能力の大きな進歩を表しています。数学、物理学、多言語タスクなどのさまざまなドメインにわたる汎用性は、従来のモデルとは一線を画しています。一方、LLAMA 3.2モデルは、要約や命令のフォローするなどのタスクに優れているエッジデバイスの効率的なパフォーマンスを提供します。どちらのモデルも、それぞれが独自のドメインで優れているAIの進行中の進化を紹介し、一緒になって、実際の課題を解決する上で高度な言語モデルの幅広い可能性を強調しています。
キーテイクアウト
- MARCO-O1は、高度な問題解決のために、チェーンオブテアの微調整およびモンテカルロツリー検索を使用しています。
- 推論戦略を適応させ、課題を打ち破り、複数のソリューションを探求します。
- 反射メカニズムは、推論ステップを再評価することにより精度を向上させます。
- Llama 3.2は、モバイル/エッジデバイス向けに最適化されており、要約と指導のフォローに優れています。
- 拡張された相互作用のための128Kトークンコンテキストを使用した長い入力をサポートします。
- MARCO-O1は、複雑なクエリを徹底的にチェックして、詳細な説明応答を提供します。
よくある質問
Q1。 Marco-O1は、その推論戦略をさまざまなタスクにどのように適応させますか?A. Marco-O1は、手元のタスクの複雑さに基づいて推論戦略を調整し、課題を管理可能なステップに分解し、モンテカルロツリー検索を使用してさまざまなソリューションパスを調査して最適なアプローチを見つけます。
Q2。モンテカルロツリー検索(MCTS)は、Marco-O1の推論能力をどのように強化しますか?A. MCTSにより、MARCO-O1は特定の問題に対する複数の潜在的なソリューションを探索し、ランダムサンプリングを通じて最も有望なパスを選択し、より正確で効率的な問題解決につながります。
Q3。 Marco-O1の反射メカニズムの目的は何ですか?A.反射メカニズムにより、MARCO-O1は各プロセスの終了時に推論ステップを再評価し、モデルが精度を向上させ、特に非常に複雑なクエリの回答を改善することができます。
Q4。 Marco-O1とLlama 3.2は、複雑な推論タスクの処理に関してどのように比較されますか?A. MARCO-O1は、チェーンの考え方やMCTなどの高度な技術を使用して、複雑な推論タスクに取り組むことに特化しています。 Llama 3.2は、モバイルおよびエッジデバイスで効率的でリアルタイムのアプリケーションに優れており、コンテキスト処理が拡張されています。
Q5。 Llama 3.2モデルの軽量設計の重要性は何ですか?A. Llama 3.2の軽量設計により、モバイルおよびエッジデバイスへの展開に最適であり、要約や多言語の相互作用などの多様なタスクを処理する機能を維持しながら、効率的なパフォーマンスを提供します。
この記事に示されているメディアは、Analytics Vidhyaが所有しておらず、著者の裁量で使用されています。
以上がMarco-O1対Llama 3.2:どちらが良いですか?の詳細内容です。詳細については、PHP 中国語 Web サイトの他の関連記事を参照してください。

ホットAIツール

Undresser.AI Undress
リアルなヌード写真を作成する AI 搭載アプリ

AI Clothes Remover
写真から衣服を削除するオンライン AI ツール。

Undress AI Tool
脱衣画像を無料で

Clothoff.io
AI衣類リムーバー

Video Face Swap
完全無料の AI 顔交換ツールを使用して、あらゆるビデオの顔を簡単に交換できます。

人気の記事

ホットツール

メモ帳++7.3.1
使いやすく無料のコードエディター

SublimeText3 中国語版
中国語版、とても使いやすい

ゼンドスタジオ 13.0.1
強力な PHP 統合開発環境

ドリームウィーバー CS6
ビジュアル Web 開発ツール

SublimeText3 Mac版
神レベルのコード編集ソフト(SublimeText3)

ホットトピック











この記事では、トップAIアートジェネレーターをレビューし、その機能、創造的なプロジェクトへの適合性、価値について説明します。 Midjourneyを専門家にとって最高の価値として強調し、高品質でカスタマイズ可能なアートにDall-E 2を推奨しています。

メタのラマ3.2:マルチモーダルとモバイルAIの前進 メタは最近、ラマ3.2を発表しました。これは、モバイルデバイス向けに最適化された強力なビジョン機能と軽量テキストモデルを特徴とするAIの大幅な進歩です。 成功に基づいてo

この記事では、ChatGpt、Gemini、ClaudeなどのトップAIチャットボットを比較し、自然言語の処理と信頼性における独自の機能、カスタマイズオプション、パフォーマンスに焦点を当てています。

ねえ、忍者をコーディング!その日はどのようなコーディング関連のタスクを計画していますか?このブログにさらに飛び込む前に、コーディング関連のすべての問題について考えてほしいです。 終わり? - &#8217を見てみましょう

この記事では、Grammarly、Jasper、Copy.ai、Writesonic、RytrなどのトップAIライティングアシスタントについて説明し、コンテンツ作成のためのユニークな機能に焦点を当てています。 JasperがSEOの最適化に優れているのに対し、AIツールはトーンの維持に役立つと主張します

Shopify CEOのTobiLütkeの最近のメモは、AIの能力がすべての従業員にとって基本的な期待であると大胆に宣言し、会社内の重大な文化的変化を示しています。 これはつかの間の傾向ではありません。これは、pに統合された新しい運用パラダイムです

今週のAIの風景:進歩、倫理的考慮、規制の議論の旋風。 Openai、Google、Meta、Microsoftのような主要なプレーヤーは、画期的な新しいモデルからLEの重要な変化まで、アップデートの急流を解き放ちました

この記事では、Google Cloud、Amazon Polly、Microsoft Azure、IBM Watson、DecriptなどのトップAI音声ジェネレーターをレビューし、機能、音声品質、さまざまなニーズへの適合性に焦点を当てています。
