首頁 > 科技週邊 > 人工智慧 > 反射駱馬-3.1 70b:我們所知道的測試和摘要

反射駱馬-3.1 70b:我們所知道的測試和摘要

Jennifer Aniston
發布: 2025-03-04 10:00:19
原創
143 人瀏覽過

反射駱駝3.1:2024年9月6日發布的自我校正LLM

Reflection Llama 3.1,Llama 3.1 70b指示模型的精緻版本,於2024年9月6日首次亮相。其創新的“反射調節”允許進行自我檢測和校正,旨在提高準確性。本文探討了該模型,其功能以及如何訪問和測試。

>

反射駱駝3.1:開發和時間表

該模型的啟動引起了巨大的嗡嗡聲,最初具有優於GPT-4O和Claude 3.5十四行詩(例如基準測試)等封閉源模型的優越性能。 但是,隨後通過人工分析進行測試發現不一致。 初始上傳到擁抱的臉部包含加權誤差。 部署在OpenRouter上的校正版本,發現了Claude Sonnet 3.5的意外自我認同,從而提出了有關其真正基礎的問題。 雖然私有API測試顯示出改善的性能,但獨立驗證仍然是不可能的。最新的擁抱面對迭代,雖然可以通過此鏈接訪問[根據原始文本省略鏈接],但表現不如私有API版本。 可重複性問題持續存在,使模型的實際功能不確定。

理解反射駱駝3.1

>

反射駱駝3.1利用Llama 3.1 70B指導模型,並結合了反射調整。此過程涉及:

>
    思考標籤(
  • ):該模型詳細詳細介紹了其推理過程。 <thinking></thinking>
  • 反射標籤(
  • ):>該模型在其推理中識別並糾正錯誤。 <reflection></reflection>
  • 輸出標籤(
  • ):該模型提出了最終答案。 <output></output>
  • 這種結構化方法提高了透明度和準確性。 該模型是使用Glaive AI的合成數據訓練的,突出了高質量數據集的重要性。 儘管處於研究階段,但據報導,在MMLU,Math和GSM8K等基准上,它的表現優於領先的閉合源模型。 它的創建者預計即將到來的反思駱駝405B可以顯著超過這些模型。
>在Google Colab上設置Reflection Llama 3.1

>使用正確的工具,訪問反射駱駝3.1很簡單。 它可以在擁抱的臉,奧拉馬和雙曲線實驗室中使用。 Google COLAB PRO及其A100 GPU(需要購買的計算單元)。

步驟1:GPU Access

>通過運行時連接到A100 GPU→更改運行時類型。

>步驟2:Ollama安裝和模型下載

>

>使用COLAB中的終端(使用

)安裝Ollama()並運行它()。在第二個終端中,下載反射模型(

)。

>

Reflection Llama-3.1 70B: Testing & Summary of What We Know Reflection Llama-3.1 70B: Testing & Summary of What We Know

>>步驟3:蘭鏈集成

>

>安裝langchain(!pip install langchain langchain_community langchain-openai langchain-ollama)並定義提示模板(使用PromptTemplate>和langchain.promptsChatOllamalangchain_ollama>)。 使用ChatOllama(model="reflection", temperature=0)初始化模型並使用輸入調用。 示例:

reflection_model.invoke({'input': "Hi, how are you?"})
登入後複製

反射駱駝3.1行動

該模型已用各種提示進行了測試:

  • 數值推理:成功地計算並比較了回報,儘管反射部分顯示出不一致之處。
  • >簡單的比較:最初在比較9.9和9.11時犯了錯誤,但添加“仔細思考”提高了準確性。
  • >
  • 計數出現:準確地計數“草莓”中的“ r”。
  • 歧義分辨率:正確解決了醫生的謎語,證明了偏見的識別。
  • false信息校正:最初接受了關於埃菲爾鐵塔的位置但自我校正的錯誤陳述。
  • >
  • 常識性推理:通過因果方案成功推理,承認多種可能性。 >
  • 代碼生成:為簡單的蛇遊戲生成的功能代碼。
反射駱駝3.1:應用和局限性

>反射駱駝3.1的自我糾正使其適用於數學,邏輯,代碼生成,調試和事實檢查。 但是,它的自我糾正增加了複雜性,可能影響速度和成本。 可能仍會發生不准確。 即將到來的反射駱駝405B有望取得重大改進。

結論

>反思美洲駝3.1的反思調節是一個有希望的發展,但可重複性問題突出了AI模型開發中持續的挑戰。 雖然自我糾正是有價值的,但嚴格的測試和驗證仍然至關重要。

>

[FAQS部分省略了,因為它是原始文本的常見問題的直接副本]

>

以上是反射駱馬-3.1 70b:我們所知道的測試和摘要的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板