首页 > 科技周边 > 人工智能 > 反射骆马-3.1 70b:我们所知道的测试和摘要

反射骆马-3.1 70b:我们所知道的测试和摘要

Jennifer Aniston
发布: 2025-03-04 10:00:19
原创
144 人浏览过

反射骆驼3.1:2024年9月6日发布的自我校正LLM

Reflection Llama 3.1,Llama 3.1 70b指示模型的精致版本,于2024年9月6日首次亮相。其创新的“反射调节”允许进行自我检测和校正,旨在提高准确性。本文探讨了该模型,其功能以及如何访问和测试。

>

反射骆驼3.1:开发和时间表

该模型的启动引起了巨大的嗡嗡声,最初具有优于GPT-4O和Claude 3.5十四行诗(例如基准测试)等封闭源模型的优越性能。 但是,随后通过人工分析进行测试发现不一致。 初始上传到拥抱的脸部包含加权误差。 部署在OpenRouter上的校正版本,发现了Claude Sonnet 3.5的意外自我认同,从而提出了有关其真正基础的问题。 虽然私有API测试显示出改善的性能,但独立验证仍然是不可能的。最新的拥抱面对迭代,虽然可以通过此链接访问[根据原始文本省略链接],但表现不如私有API版本。 可重复性问题持续存在,使模型的实际功能不确定。

理解反射骆驼3.1

>

反射骆驼3.1利用Llama 3.1 70B指导模型,并结合了反射调整。此过程涉及:

>
    思考标签(
  • ):该模型详细详细介绍了其推理过程。<thinking></thinking>
  • 反射标签(
  • ):>该模型在其推理中识别并纠正错误。<reflection></reflection>
  • 输出标签(
  • ):该模型提出了最终答案。<output></output>
  • 这种结构化方法提高了透明度和准确性。 该模型是使用Glaive AI的合成数据训练的,突出了高质量数据集的重要性。 尽管处于研究阶段,但据报道,在MMLU,Math和GSM8K等基准上,它的表现优于领先的闭合源模型。 它的创建者预计即将到来的反思骆驼405B可以显着超过这些模型。
>在Google Colab上设置Reflection Llama 3.1

>使用正确的工具,访问反射骆驼3.1很简单。 它可以在拥抱的脸,奥拉马和双曲线实验室中使用。 Google COLAB PRO及其A100 GPU(需要购买的计算单元)。

步骤1:GPU Access

>通过运行时连接到A100 GPU→更改运行时类型。

>步骤2:Ollama安装和模型下载

>

>使用COLAB中的终端(使用

)安装Ollama()并运行它()。在第二个终端中,下载反射模型(

)。

>

Reflection Llama-3.1 70B: Testing & Summary of What We Know Reflection Llama-3.1 70B: Testing & Summary of What We Know

>>步骤3:兰链集成

>

>安装langchain(!pip install langchain langchain_community langchain-openai langchain-ollama)并定义提示模板(使用PromptTemplate>和langchain.promptsChatOllamalangchain_ollama>)。 使用ChatOllama(model="reflection", temperature=0)初始化模型并使用输入调用。 示例:

reflection_model.invoke({'input': "Hi, how are you?"})
登录后复制

反射骆驼3.1行动

该模型已用各种提示进行了测试:

  • 数值推理:成功地计算并比较了回报,尽管反射部分显示出不一致之处。
  • >简单的比较:最初在比较9.9和9.11时犯了错误,但添加“仔细思考”提高了准确性。
  • >
  • 计数出现:准确地计数“草莓”中的“ r”。
  • 歧义分辨率:正确解决了医生的谜语,证明了偏见的识别。
  • false信息校正:最初接受了关于埃菲尔铁塔的位置但自我校正的错误陈述。
  • >
  • 常识性推理:通过因果方案成功推理,承认多种可能性。>
  • 代码生成:为简单的蛇游戏生成的功能代码。
反射骆驼3.1:应用和局限性

>反射骆驼3.1的自我纠正使其适用于数学,逻辑,代码生成,调试和事实检查。 但是,它的自我纠正增加了复杂性,可能影响速度和成本。 可能仍会发生不准确。 即将到来的反射骆驼405B有望取得重大改进。

结论

>反思美洲驼3.1的反思调节是一个有希望的发展,但可重复性问题突出了AI模型开发中持续的挑战。 虽然自我纠正是有价值的,但严格的测试和验证仍然至关重要。

>

[FAQS部分省略了,因为它是原始文本的常见问题的直接副本]

>

以上是反射骆马-3.1 70b:我们所知道的测试和摘要的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板