> olmo 2:功能强大的开源LLM,用于可访问的AI
>自然语言处理领域(NLP)已经取得了迅速的进步,尤其是大型语言模型(LLMS)。尽管专有模型在历史上一直占主导地位,但开源替代方案正在迅速缩小差距。 Olmo 2代表着一个重大的飞跃,提供的性能与封闭式模型相当,同时保持完全透明度和可访问性。本文深入研究Olmo 2,探索其培训,性能和实际应用。
密钥学习点:
需要开源LLMS
介绍Olmo 2解构Olmo 2的培训>
探索Olmo 2的功能Olmo 2在其前身OLMO-0424上显着改善。 它的7B和13B参数模型表明性能可与类似或超过类似的完全开放的模型相当,甚至可以与英语学术基准上的Llama 3.1(如Llama 3.1)相提并论,这是考虑到减少的培训拖船的显着成就。
关键改进包括:
> olmo 2的训练方法
Olmo 2的架构建立在原始Olmo上,并结合了改进的稳定性和性能。 培训过程包括两个阶段:
基础培训:
利用Olmo-Mix-1124数据集(大约3.9万亿个代币,来自不同的开源来源)来为语言理解建立强大的基础。>由于Olmo-2是一个完全开放的模型,因此让我们澄清不同级别的模型开放度之间的区别:
>开放重量模型:
只发布模型权重。探索和运行Olmo 2本地
> Olmo 2很容易访问。 可以提供有关下载模型和数据以及培训代码和评估指标的说明。 要在本地运行Olmo 2,请使用Ollama。 安装后,只需在命令行中运行ollama run olmo2:7b
即可。 可以通过PIP安装必要的库(Langchain和Gradio)
>使用Olmo 2 构建聊天机器人
以下Python代码演示了使用Olmo 2,Gradio和Langchain构建聊天机器人:
import gradio as gr from langchain_core.prompts import ChatPromptTemplate from langchain_ollama.llms import OllamaLLM def generate_response(history, question): template = """Question: {question} Answer: Let's think step by step.""" prompt = ChatPromptTemplate.from_template(template) model = OllamaLLM(model="olmo2") chain = prompt | model answer = chain.invoke({"question": question}) history.append({"role": "user", "content": question}) history.append({"role": "assistant", "content": answer}) return history with gr.Blocks() as iface: chatbot = gr.Chatbot(type='messages') with gr.Row(): with gr.Column(): txt = gr.Textbox(show_label=False, placeholder="Type your question here...") txt.submit(generate_response, [chatbot, txt], chatbot) iface.launch()
结论 Olmo 2
代表对开源LLM生态系统的重要贡献。 它的强大性能以及其完整的透明度,使其成为研究人员和开发人员的宝贵工具。 尽管在所有任务中都不是普遍优越,但其开放性质却促进了协作,并加速了可访问且透明的AI领域的进步。
钥匙要点:
(注意:图像URL保持不变。)
>
以上是与Gradio和Langchain在本地运行Olmo-2的详细内容。更多信息请关注PHP中文网其他相关文章!