Marco-O1 vs Llama 3.2：哪個更好？-人工智慧-PHP中文網

OpenAI的O1模型由於其在解決複雜問題方面的高級功能而引起了大型推理模型（LRMS）領域的極大興奮。 Marco-o1emerges以此為基礎，是一種新的LRM，不僅強調了傳統學科，例如數學和編碼，而且還優先考慮各個領域的開放式問題解決問題。 Marco-O1的一個重點是探索O1模型可以將其推理能力推廣到缺乏明確標準和可量化獎勵的領域的程度。這種探索對於理解LRM在常規指標可能不適用的現實情況下的潛在應用至關重要，從而突破了這些模型可以實現的目標。

Marco-O1 vs Llama 3.2：哪個更好？

學習目標

了解Marco-O1模型背後的建築和關鍵技術，包括經過思考的微調和蒙特卡洛樹搜索。
探索Marco-O1如何適應其推理策略，以適應各個領域的複雜，開放式的解決問題的任務。
通過提示對模型的輸出的自我評估來分析反射機制在提高推理準確性中的作用。
比較Marco-O1和Llama 3.2的推理能力，重點是在高級推理方案中的深度和解釋。
檢查MARCO-O1在實際問題解決中的實際應用，包括數學，邏輯和多語言任務。

本文作為數據科學博客馬拉鬆的一部分發表。

什麼是Marco-O1？
高級推理的技術
什麼是駱駝3.2？
使用Ollama在Google Colab上運行模型
讓我們開始比較：Marco-O1 vs Llama 3.2
任務1：邏輯推理
任務2：草莓測試
任務3：基於幾何推理
任務4：逐步推理
任務5：脆弱的數學上下文
任務6：矛盾的信息
結果：Marco-O1 vs Llama 3.2
結論
常見問題

什麼是Marco-O1？

Marco-O1是由阿里巴巴國際數字商務的Marcopolo團隊開發的高級推理模型，旨在解決開放式解決問題的任務。

它是建立在QWEN2架構的基礎上的，並採用了精緻的思想鏈（COT）微調和濛濛特山carlo樹搜索（MCTS）技術來增強其推理能力

培訓數據集

通過微調QWEN2-7B教學，結合了過濾的Open-O1 COT數據集，MARCO-O1 COT數據集和Marco-O1指令數據集，Marco-O1改善了其對複雜任務的處理。

Open-O1 COT數據集：通過啟發式過濾進行完善，以促進結構化推理模式。
MARCO-O1 COT數據集：使用MCT生成以製定複雜的推理途徑。
MARCO指令數據集：專注於增強跨不同任務的指導跟踪功能。

Marco-O1 vs Llama 3.2：哪個更好？

下圖顯示了MARCO-01的推理過程，詳細說明了Open-01 COT和MARCO-01 COT等數據集的使用。該過程涉及選擇提示路徑，執行MCT並應用監督的微調以提高準確性。這導致了以信心得分的最終答案產生的。

Marco-O1 vs Llama 3.2：哪個更好？

高級推理的技術

這重點介紹了使AI模型能夠處理複雜任務的複雜方法，例如通過多個步驟推理，優化決策並納入不確定性以獲得更準確的預測和響應。

解決方案空間擴展Viamonte Carlo Tree搜索

MCT用於通過隨機抽樣探索所有可能的答案來確定用戶查詢的最佳答案。如上圖所示，在MCT中，選擇了Nodeserpresent不同的推理路徑和黃色nodessepsecte，以進一步探索。綠色nodesmermentent的最終答案，而諸如“選擇”和“備份”之類的箭頭顯示系統如何評估和完善選擇。

信心得分

系統使用概率（如公式中顯示）生成答案以完善最終輸出後，該系統計算一個置信得分。

行動策略

該模型可以在兩個級別上工作 - 廣泛的推理（步驟級別）和多步推理（迷你步驟級別）。

在MCT搜索中探索了不同級別的粒度。為了擴大模型的搜索空間並增強其解決問題的功能，將步驟分為64或32個令牌的較小單位，稱為“迷你步驟”。這種較細的粒度使該模型可以更詳細地探索推理路徑。

思考後的反思

模型中存在反射機制，通過添加短語“等待！也許我犯了一些錯誤！我需要從頭開始重新考慮。”在每個思考過程結束時。這促使模型自我反射並重新評估其推理步驟。這種反思對模型產生了重大改進，尤其是在原始模型最初錯誤地解決的困難問題上。

關鍵功能

開放式推理：與在標準答案域（例如數學或編碼）中表現出色的傳統模型不同，Marco-O1強調開放式分辨率，使其適用於缺乏明確標準的更廣泛的應用程序。
解決方案的探索： MCTS的實現使該模型可以探索多個解決方案路徑，類似於在做出決定之前考慮各種動作的國際象棋參與者。這種方法有助於確定解決問題的最有希望的策略。
靈活的推理策略： MARCO-O1根據其遇到的問題類型來適應其推理策略，從而有效地將復雜的任務分解為可管理的步驟。

申請

Marco-O1對於：

傳統答案可能不足的複雜解決方案。
數學推理任務。
複雜的翻譯任務需要細微的理解。

什麼是駱駝3.2？

Llama 3.2型號包括專為移動和邊緣設備設計的10億（1B）和30億（3B）參數文本模型，重點介紹了諸如摘要和說明之類的應用程序的有效性能。

模型架構

Llama 3.2在公開可用的來源中預估計了9萬億立克，並結合了來自較大模型（例如Llama 3.1）的知識蒸餾技術，以增強性能，同時保持較小的尺寸。

Marco-O1 vs Llama 3.2：哪個更好？

關鍵功能

針對邊緣設備進行了優化：該模型設計為輕量級，使其適合在移動設備和邊緣設備上部署。
擴展上下文長度： Llama 3.2支持上下文長度為128K令牌（〜96,240個單詞），這有助於處理長期輸入並維護上下文對擴展交互。
支持多語言對話：該模型已針對多語種用例進行了優化，從而使其在需要多種語言交互的應用中有效。

申請

Llama 3.2 3B在特定領域，特別是在推理任務中表現出色。在ARC挑戰賽中，它的得分達到78.6，超過了Gemma的76.7，而剛剛落後於Phi-3.5-Mini，得分為87.4。同樣，在Hellawag基準中，美洲駝3.2 3B得分69.8，表現優於Gemma，並與Phi保持競爭力。

因此，在下一個實施Python實施中，我們對兩個模型的基於推理的問題進行了比較評估-Marco-O1和Llama 3.2 3B。這種比較評估主要是為了檢查Marco-O1的輸出是否在基於推理的問題中確實表現出色。

使用Ollama在Google Colab上運行模型

Ollama是一種高級AI工具，允許用戶在本地（以CPU和GPU模式）輕鬆設置和運行大型語言模型。我們將在以下步驟中探索如何使用Ollama在Google Colab上運行這些模型。

步驟1：庫的安裝

下面我們將安裝所有需要的庫：

 ！sudo apt更新
！sudo apt安裝-y pciutils
！PIP安裝Langchain-ollama
！curl -fssl https://ollama.com/install.sh | sh
！PIP安裝Ollama == 0.4.2

登入後複製

步驟2：啟用線程過程可以在Google Colab上運行Ollama

在此步驟中，我們設置了線程，以允許Ollama在Google Colab上有效運行。線程可以並行執行任務，確保表現順暢，並且不延遲處理更快的處理。該設置對於在Colab環境中無縫進行資源密集型操作至關重要。

導入線程
導入子過程
進口時間

def run_ollama_serve（）：
  subproces.popen（[“ ollama”，“ serve”]）

線程=線程。
thread.start（）
時間。

登入後複製

步驟3：拉動Ollama模型

！ollama拉動marco-o1

登入後複製

我們可以使用相同的代碼通過用Llama3.2替換Marco-O1來拉動Llama3.2模型。

步驟4：查詢模型

此步驟涉及將查詢發送到模型以根據輸入獲得響應或見解。它有助於與模型進行互動，例如生成文本或回答問題。

來自langchain_core.prompts導入chatprompttemplate
來自langchain_ollama.llms導入ollamallm
來自ipython.display導入降價

template =“”“問題：{問題}”“”

提示= chatprompttemplate.from_template（模板）

型號= ollamallm（model =“ marco-o1”）

鏈=提示|模型

＃準備調用輸入
input_data = {
    “問題”：'我有2個蘋果，然後我再買2個。我用2個蘋果烤餡餅。吃了一半的餡餅後，我剩下幾個蘋果？}

＃使用輸入數據調用鏈，並以降價格式顯示響應
響應=鏈。Invoke（input_data）
顯示（Markdown（響應））

登入後複製

讓我們開始比較：Marco-O1 vs Llama 3.2

在本節中，我們將比較Marco-O1和Llama 3.2的輸出，並強調它們在處理複雜的推理任務和實時應用方面的優勢和差異。通過檢查他們的響應，我們可以更好地了解每個模型如何解決問題並適應不同用例。

任務1：邏輯推理

“我有2個蘋果，然後再購買2個蘋果。我用2個蘋果烤餡餅。進食後<br>一半的餡餅我剩下幾個蘋果？”

登入後複製

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

兩種模型都提供了準確的響應，但是與Llama 3.2相比，Marco-O1提供了更詳細的解釋。

任務2：草莓測試

“草莓有多少r？”

登入後複製

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

從上面的輸出可以看出，Llama 3.2模型的響應不准確，而MARCO-O1模型的響應準確。

任務3：基於幾何推理

“三角形的區域是10個單位和5個單位的高度？”

登入後複製

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

從上面的輸出可以看出，這兩個模型都給出了準確的響應，但是與Llama 3.2相比，Marco-O1模型的響應更為解釋。

任務4：逐步推理

“如果一輛汽車的價格為20,000美元，並且每年折舊1,000美元，那將是多少<br>三年後值得嗎？”

登入後複製

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

從上面的輸出可以看出，這兩個模型都給出了準確的響應，但是與Llama 3.2相比，Marco-O1模型的響應更為解釋。

有歧義的三段論

“所有鳥都可以飛。企鵝是鳥類。企鵝可以飛嗎？”

登入後複製

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

從上面的輸出中可以看出，即使兩個模型都提供了準確的響應，Marco-O1模型的響應是更加解釋的，並且可以詳盡地提出大量參數和兩次檢查以得出答案，而與Llama 3.2相比。

任務5：脆弱的數學上下文

“奧利弗（Oliver）在星期五選擇44獼猴桃，然後在周六58次。週日，他在周五選擇了他的兩倍，但其中五個小於平均水平。奧利弗有幾個獼猴桃？”

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

從上面的輸出中可以看出，即使兩個模型都提供了準確的響應，Llama 3.2的響應與其他信息相混淆（但其中五個小於平均水平）是不准確的，因此從實際答案中減去5。但是，MARCO-O1的輸出是準確的，並提供了詳細的解釋。

任務6：矛盾的信息

約翰對花生過敏。他吃了一個花生醬三明治，感覺很好。什麼<br> 我們可以就約翰的過敏得出結論嗎？”

登入後複製

來自Marco-O1的輸出

Marco-O1 vs Llama 3.2：哪個更好？

Llama 3.2（3B型號）的輸出

Marco-O1 vs Llama 3.2：哪個更好？

從Marco-O1模型的響應中可以看出，這是很多解釋和詳盡的提出的論點和雙重檢查以得出答案的。 Llama 3.2的反應似乎並沒有完全準確，因為“他只是胃部不適或對花生醬的不耐受”的信息不准確，並且與查詢中給出的信息不准確。

結果：Marco-O1 vs Llama 3.2

任務	MARCO-O1性能	駱駝3.2（3B型）性能	優勝者
任務1：邏輯推理	準確地說明	準確但詳細	Marco-O1
任務2：草莓測試	準確的	不准確	Marco-O1
任務3：幾何推理	準確地說明	準確但詳細	Marco-O1
任務4：逐步推理	準確地說明	準確但詳細	Marco-O1
任務5：有歧義的三段論	精確的解釋和雙重檢查	準確但詳細	Marco-O1
任務6：脆弱的數學上下文	準確地說明	不准確（被其他信息混淆）	Marco-O1
任務7：矛盾的信息	精確的解釋和雙重檢查	不准確（提供矛盾的信息）	Marco-O1

結論

MARCO-O1模型代表了AI處理複雜推理任務的能力的重大進步，尤其是通過其創新的蒙特卡洛樹搜索和經過經過經過經過經過經驗的精細調整的精細調整。它在數學，物理和多語言任務等各個領域的多功能性使其與傳統模型不同。同時，Llama 3.2模型為邊緣設備提供了有效的性能，在諸如摘要和跟隨指令之類的任務中都表現出色。這兩種模型都展示了AI的持續發展，每個模型都在自己的領域中脫穎而出，並共同強調了先進語言模型在解決現實世界中的巨大潛力。