首頁 > 科技週邊 > 人工智慧 > Falcon 40B簡介:建築,培訓數據和功能

Falcon 40B簡介:建築,培訓數據和功能

Joseph Gordon-Levitt
發布: 2025-03-09 10:40:11
原創
183 人瀏覽過

>本文探討了技術創新研究所(TII)開發的強大開源大語模型(LLM)Falcon 40b。 潛水之前,建議對機器學習和自然語言處理(NLP)有基本的了解。 考慮我們的AI基礎知識技能軌道,以全面介紹Chatgpt,LLM和Generative AI。

理解獵鷹40b Falcon 40b屬於TII的LLM的Falcon家族,以及Falcon 7b和Falcon 180b。 作為因果解碼模型,它符合各種自然語言生成任務。 它的多語言功能包括英語,德語,西班牙語和法語,並部分支持其他幾種語言。

模型體系結構和培訓

> GPT-3的修改版本 Falcon 40b的體系結構,利用旋轉位置嵌入和增強的注意力機制(多傳奇注意力和閃存)。 解碼器塊採用平行的注意力和MLP結構,具有兩層歸一化方案以提高效率。 培訓涉及1萬億個代幣,來自精製Web,這是一個高質量,重複的互聯網語料庫,並在AWS SageMaker上使用了384 A100 40GB GPU。

Falcon Blog

Introduction to Falcon 40B: Architecture, Training Data, and Features 的圖像

> > 關鍵功能和優點

> 獵鷹40B的多質量注意機制可提高推理的可伸縮性,而不會顯著影響預處理。 還提供了指導版本(Falcon-7b-Instruct和Falcon-40B-Inscruct),並進行了微調,以改善助理式任務的性能。 它的Apache 2.0許可證允許商業使用而無需限制。 OpenLLM排行榜上的基準測試顯示Falcon 40b的表現優於Llama,Stablelm,Redpajama和MPT。

>

圖像來自Open LLM排行榜Introduction to Falcon 40B: Architecture, Training Data, and Features

>入門:推理和微調

>

>運行Falcon 40b需要大量的GPU資源。 儘管4位量化允許在40GB A100 GPU上執行,但較小的Falcon 7B更適合包括Google Colab在內的消費級硬件。 提供的代碼示例證明了使用4位量化的Colab上的Falcon 7b進行推理。 還討論了與Qlora和SFT培訓師進行微調,利用TRL庫有效地適應了新數據集。 該示例使用鳥根數據集。 >

Falcon-180b:一個巨大的Leap

>Falcon-180b接受了3.5萬億個令牌培訓,甚至超過了獵鷹40B的性能。 但是,其1800億個參數需要進行大量計算資源(約8xA100 80GB GPU)進行推理。 Falcon-180b-chat的發布,用於對話任務,提供了更容易訪問的替代方案。

Falcon-180b demo

結論

Falcon 40b提供了引人入勝的開源LLM選項,平衡性能和可訪問性。 儘管完整的模型需要大量資源,但其較小的變體和微調功能使其成為研究人員和開發人員的寶貴工具。 對於那些有興趣建立自己的LLM的人來說,具有Python職業曲目的機器學習科學家是值得考慮的。

官方資源:

>官方擁抱面部頁面:TIIUAE(技術創新研究所)

博客:獵鷹已經降落在擁抱的面孔生態系統> 排行榜:打開LLM排行榜

    型號卡:tiiuae/falcon-40b·擁抱臉
  • 數據集:tiiuae/falcon-refinedweb

以上是Falcon 40B簡介:建築,培訓數據和功能的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
作者最新文章
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板