反射駱馬-3.1 70b：我們所知道的測試和摘要-人工智慧-PHP中文網

反射駱馬-3.1 70b：我們所知道的測試和摘要

Jennifer Aniston

發布： 2025-03-04 10:00:19

原創

143 人瀏覽過

反射駱駝3.1：2024年9月6日發布的自我校正LLM

Reflection Llama 3.1，Llama 3.1 70b指示模型的精緻版本，於2024年9月6日首次亮相。其創新的“反射調節”允許進行自我檢測和校正，旨在提高準確性。本文探討了該模型，其功能以及如何訪問和測試。

反射駱駝3.1：開發和時間表

該模型的啟動引起了巨大的嗡嗡聲，最初具有優於GPT-4O和Claude 3.5十四行詩（例如基準測試）等封閉源模型的優越性能。但是，隨後通過人工分析進行測試發現不一致。初始上傳到擁抱的臉部包含加權誤差。部署在OpenRouter上的校正版本，發現了Claude Sonnet 3.5的意外自我認同，從而提出了有關其真正基礎的問題。雖然私有API測試顯示出改善的性能，但獨立驗證仍然是不可能的。最新的擁抱面對迭代，雖然可以通過此鏈接訪問[根據原始文本省略鏈接]，但表現不如私有API版本。可重複性問題持續存在，使模型的實際功能不確定。

理解反射駱駝3.1

反射駱駝3.1利用Llama 3.1 70B指導模型，並結合了反射調整。此過程涉及：

）：該模型詳細詳細介紹了其推理過程。 <thinking></thinking>
）：>該模型在其推理中識別並糾正錯誤。 <reflection></reflection>
）：該模型提出了最終答案。 <output></output>

>在Google Colab上設置Reflection Llama 3.1

>使用正確的工具，訪問反射駱駝3.1很簡單。它可以在擁抱的臉，奧拉馬和雙曲線實驗室中使用。 Google COLAB PRO及其A100 GPU（需要購買的計算單元）。

步驟1：GPU Access

>通過運行時連接到A100 GPU→更改運行時類型。

>步驟2：Ollama安裝和模型下載

>使用COLAB中的終端（使用

和

）安裝Ollama（）並運行它（）。在第二個終端中，下載反射模型（

）。

Reflection Llama-3.1 70B: Testing & Summary of What We Know

>>步驟3：蘭鏈集成

>安裝langchain（!pip install langchain langchain_community langchain-openai langchain-ollama）並定義提示模板（使用PromptTemplate>和langchain.promptsChatOllama的langchain_ollama>）。使用ChatOllama(model="reflection", temperature=0)初始化模型並使用輸入調用。示例：

reflection_model.invoke({'input': "Hi, how are you?"})

登入後複製

反射駱駝3.1行動

該模型已用各種提示進行了測試：

數值推理：成功地計算並比較了回報，儘管反射部分顯示出不一致之處。
>簡單的比較：最初在比較9.9和9.11時犯了錯誤，但添加“仔細思考”提高了準確性。
計數出現：準確地計數“草莓”中的“ r”。
歧義分辨率：正確解決了醫生的謎語，證明了偏見的識別。
false信息校正：最初接受了關於埃菲爾鐵塔的位置但自我校正的錯誤陳述。
常識性推理：通過因果方案成功推理，承認多種可能性。 >
代碼生成：為簡單的蛇遊戲生成的功能代碼。

反射駱駝3.1：應用和局限性

>反射駱駝3.1的自我糾正使其適用於數學，邏輯，代碼生成，調試和事實檢查。但是，它的自我糾正增加了複雜性，可能影響速度和成本。可能仍會發生不准確。即將到來的反射駱駝405B有望取得重大改進。

結論

>反思美洲駝3.1的反思調節是一個有希望的發展，但可重複性問題突出了AI模型開發中持續的挑戰。雖然自我糾正是有價值的，但嚴格的測試和驗證仍然至關重要。

[FAQS部分省略了，因為它是原始文本的常見問題的直接副本]

以上是反射駱馬-3.1 70b：我們所知道的測試和摘要的詳細內容。更多資訊請關注PHP中文網其他相關文章！