技術創新研究所(TII)透過引進名為Falcon的新大型語言模型(LLM)為開源社群做出了重大貢獻。該模型擁有令人印象深刻的 180 億個參數,是一個生成式 LLM,提供各種版本,包括 Falcon 180B、40B、7.5B 和 1.3B 參數 AI 模型。
當獵鷹40B推出時,它迅速獲得了世界頂級開源AI模型的認可。這個版本的獵鷹,有40億個參數,是在驚人的一兆個代幣上訓練的。在推出後的兩個月裡,獵鷹40B在Hugging Face的開源大型語言模型(LLM)排行榜上一直位居榜首。 Falcon 40B的與眾不同之處在於,它完全免版稅,重量是革命性的舉措,有助於使AI民主化並使其成為更具包容性的技術。
獵鷹40B LLM是多語言的,適用於多種語言,包括英語,德語,西班牙語,法語,義大利語,葡萄牙語,波蘭語,荷蘭語,羅馬尼亞語,捷克語和瑞典語。這個基礎LLM作為一個通用的基本模型,可以微調以滿足特定的要求或目標。
Falcon 180B是具有180億個參數的超強大語言模型,經過了3.5萬億個代幣的訓練。它目前在預訓練的開放大型語言模型的擁抱臉排行榜上名列前茅,可用於研究和商業用途。模型在推理、編碼、熟練程度和知識測驗等各種任務中表現出色,甚至優於 Meta 的 LLaMA 2 等競爭對手。
在閉源模型中,Falcon 180B僅次於OpenAI的GPT 4,性能與Google的PaLM 2相當,後者為Bard提供動力,儘管其尺寸僅為模型的一半。這證明了模型的質量,因為LLM對他們訓練的資料特別敏感。 TII 團隊建立了一個自訂資料管道,使用廣泛的過濾和重複資料刪除來提取高品質的預訓練數據,並在樣本層級和字串層級實施。
為了鼓勵該模型的創新使用,獵鷹40B發起了科學家、研究人員和創新者的「提案徵集」。 最特殊的用例將獲得訓練運算能力的投資,以研究強大的模型來塑造變革性的解決方案。值得注意的是,該模型僅使用了 GPT-75 訓練計算的 3%,龍貓 AI 的 40% 和 PaLM-80B 的 62%。
獵鷹開發的顯著因素之一是訓練資料的品質。為Falcon 40B收集的預訓練資料是近80萬億個代幣,從各種來源收集,包括公共網路爬蟲(~<>%),研究論文,法律文本,新聞,文學和社交媒體對話。
Falcon模型的訓練過程涉及同時使用4096個GPU,每小時總計約7萬個GPU。 Falcon的培訓資料集由網路資料組成,並輔以一系列精選內容,包括對話、技術論文、維基百科和一小部分程式碼。該模型已針對各種對話和教學資料集進行了微調,但不包括託管使用。
儘管性能令人印象深刻,但獵鷹模型沒有關於最近事件的最新資訊。然而,獵鷹模型的發布被視為開源領域的重大進步,在各種基準測試上優於其他模型,如Llama 2,Stable LM,Red Pajama,NPT等。模型比Llama 2大5.2倍,在各種基準測試中優於Llama 2,OpenAI的GPT 3.5模型和Google的Palm。這使其成為研究和商業用途的強大工具,也是對開源社群的重大貢獻。
以上是什麼是TII Falcon 180B開源語言模型?的詳細內容。更多資訊請關注PHP中文網其他相關文章!