首页 > 科技周边 > 人工智能 > Falcon 40B简介:建筑,培训数据和功能

Falcon 40B简介:建筑,培训数据和功能

Joseph Gordon-Levitt
发布: 2025-03-09 10:40:11
原创
183 人浏览过

>本文探讨了技术创新研究所(TII)开发的强大开源大语模型(LLM)Falcon 40b。 潜水之前,建议对机器学习和自然语言处理(NLP)有基本的了解。 考虑我们的AI基础知识技能轨道,以全面介绍Chatgpt,LLM和Generative AI。

理解猎鹰40b Falcon 40b属于TII的LLM的Falcon家族,以及Falcon 7b和Falcon 180b。 作为因果解码模型,它符合各种自然语言生成任务。 它的多语言功能包括英语,德语,西班牙语和法语,并部分支持其他几种语言。

模型体系结构和培训

> GPT-3的修改版本 Falcon 40b的体系结构,利用旋转位置嵌入和增强的注意力机制(多传奇注意力和闪存)。 解码器块采用平行的注意力和MLP结构,具有两层归一化方案以提高效率。 培训涉及1万亿个代币,来自精制Web,这是一个高质量,重复的互联网语料库,并在AWS SageMaker上使用了384 A100 40GB GPU。

Falcon Blog

Introduction to Falcon 40B: Architecture, Training Data, and Features 的图像

> > 关键功能和优点

> 猎鹰40B的多质量注意机制可提高推理的可伸缩性,而不会显着影响预处理。 还提供了指导版本(Falcon-7b-Instruct和Falcon-40B-Inscruct),并进行了微调,以改善助理式任务的性能。 它的Apache 2.0许可证允许商业使用而无需限制。 OpenLLM排行榜上的基准测试显示Falcon 40b的表现优于Llama,Stablelm,Redpajama和MPT。

>

图像来自Open LLM排行榜Introduction to Falcon 40B: Architecture, Training Data, and Features

>入门:推理和微调

>

>运行Falcon 40b需要大量的GPU资源。 尽管4位量化允许在40GB A100 GPU上执行,但较小的Falcon 7B更适合包括Google Colab在内的消费级硬件。 提供的代码示例证明了使用4位量化的Colab上的Falcon 7b进行推理。 还讨论了与Qlora和SFT培训师进行微调,利用TRL库有效地适应了新数据集。 该示例使用鸟根数据集。>

Falcon-180b:一个巨大的Leap

>Falcon-180b接受了3.5万亿个令牌培训,甚至超过了猎鹰40B的性能。 但是,其1800亿个参数需要进行大量计算资源(约8xA100 80GB GPU)进行推理。 Falcon-180b-chat的发布,用于对话任务,提供了更容易访问的替代方案。

Falcon-180b demo

结论

Falcon 40b提供了引人入胜的开源LLM选项,平衡性能和可访问性。 尽管完整的模型需要大量资源,但其较小的变体和微调功能使其成为研究人员和开发人员的宝贵工具。 对于那些有兴趣建立自己的LLM的人来说,具有Python职业曲目的机器学习科学家是值得考虑的。

官方资源:

>官方拥抱面部页面:TIIUAE(技术创新研究所)

博客:猎鹰已经降落在拥抱的面孔生态系统> 排行榜:打开LLM排行榜

    型号卡:tiiuae/falcon-40b·拥抱脸
  • 数据集:tiiuae/falcon-refinedweb

以上是Falcon 40B简介:建筑,培训数据和功能的详细内容。更多信息请关注PHP中文网其他相关文章!

本站声明
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
作者最新文章
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板