這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3-人工智慧-PHP中文網

研究概覽

方法概述

首頁

科技週邊

人工智慧

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

WBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWBOYWB

Apr 12, 2023 pm 11:07 PM

ai 模型

千億、兆參數的超大模型需要有人研究，十億、百億參數的大模型也同樣需要。

剛剛，Meta 首席AI 科學家Yann LeCun 宣布，他們「開源」了一個新的大模型系列——LLaMA（Large Language Model Meta AI），參數量從70 億到650 億不等。這些模型的性能非常優異：具有130 億參數的LLaMA 模型「在大多數基準上」可以勝過GPT-3（參數量達1750 億），而且可以在單塊V100 GPU 上運行；而最大的650 億參數的LLaMA 模型可以媲美Google的Chinchilla-70B 和PaLM-540B。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

眾所周知，參數是機器學習模型用來根據輸入資料進行預測或分類的變數。語言模型中的參數數量是影響其表現的關鍵因素，較大的模型通常能夠處理更複雜的任務並產生更連貫的輸出，這被 Richard Sutton 稱為「苦澀的教訓」。在過去的幾年裡，各大科技巨頭圍繞著千億、萬億參數量的大模型展開了軍備競賽，大大提高了 AI 模型的性能。

但是，這種比拼「鈔能力」的研究競賽對於不在科技巨頭工作的普通研究者來說並不友好，阻礙了他們對於大模型運作原理、潛在問題解決方案等問題的研究。而且，在實際應用中，更多的參數會佔用更多的空間，並且需要更多的運算資源來運行，導致大模型應用成本居高不下。因此，如果一個模型可以用更少的參數來獲得與另一個模型相同的結果，則表示效率顯著提高。這對於普通研究者來說非常友好，模型在現實環境中部署也會更容易。這便是 Meta 這項研究的意義所在。

「我現在認為，在一兩年內，我們將在自己的（頂級）手機和筆記型電腦上運行具有ChatGPT 相當一部分能力的語言模型，」獨立人工智慧研究員Simon Willison 在分析Meta 新AI 模型的影響時寫道。

為了訓練該模型，同時滿足開源和可複現等要求，Meta 只使用了公開可用的資料集，這點不同於大多數依賴非公開資料的大模型。那些模型往往是不開源的，屬於大型科技巨頭私有資產。為了提高模型效能，Meta 在更多的 token 上進行了訓練：在 1.4 兆 token 上訓練了 LLaMA 65B 和 LLaMA 33B，最小的 LLaMA 7B 也用到了 1 兆 token。

在推特上，LeCun 也展示了 LLaMA 模型續寫文字的一些結果。模型被要求續寫：「你知道Yann LeCun 去年發行了一張饒舌專輯嗎？我們聽了一下，我們的想法是這樣的：____ 」

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

##不過，在能否商用方面，Meta 部落格和LeCun 推特表述的差異引發了一些爭議。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

Meta 在部落格中表示，為了保持完整性和防止濫用，他們將在非商業許可下發布他們的模型，重點是研究用例。此模式的存取權將逐一授予學術研究人員，那些隸屬於政府、民間團體和學術界的組織，以及全世界的工業研究實驗室。有興趣的人可以在以下連結中申請：

https://docs.google.com/forms/d/e/1FAIpQLSfqNECQnMkycAp2jP4Z9TFX0cGR4uf7b_fBxjY_OjhJILlKGA/viewjhJILlKGA/viewjhJILlKGA/viewjhJILlKGA/viewjhJILlK

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

而 LeCun 則表示，Meta 致力於開放研究，在 GPL v3 許可下向研究界發布所有模型（GPL v3 允許商用）。

這一表述是頗具爭議的，因為他沒有說清楚這裡的「模型」指的是代碼還是權重，或者二者均有。在不少研究者看來，模型權重比程式碼重要得多。

對此，LeCun 解釋說，在 GPL v3 許可下開放的是模型程式碼。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

有人認為，這種程度的開放不算是真正的「AI 民主化」。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

目前，Meta 已經把論文上傳了arXiv，GitHub 函式庫中也已經上傳了一些內容，大家可以前去瀏覽。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

#論文連結：https://research.facebook.com/publications/llama- open-and-efficient-foundation-language-models/
#GitHub 連結：https://github.com/facebookresearch/llama

研究概覽

在大規模的文本語料庫中訓練的大型語言模型（LLMs）已經顯示出它們有能力從文本prompt 或少數樣本中執行新的任務。在將模型擴展到足夠大的規模時，這些少樣本特性首次出現，從而催生了專注於進一步擴展這些模型的工作系列。

這些努力都是基於一個假設：更多的參數會帶來更好的效能。然而，Hoffmann et al. (2022) 最近的工作表明，在給定的計算預算下，最好的性能不是由最大的模型實現的，而是由在更多的數據上訓練的小模型實現的。

Hoffmann et al. (2022) 提出的 scaling laws 的目標是確定在特定的訓練計算預算下，如何最好地縮放資料集和模型大小。然而，這個目標忽略了推理預算，而推理預算在大規模服務語言模型時變得至關重要。在這種情況下，可以給定一個目標表現水平，首選的模型不是訓練速度最快的，而是推理速度最快的。儘管訓練一個大的模型以達到一定的性能水平可能更便宜，但一個訓練時間較長的小模型最終在推理方面會更便宜。例如，儘管 Hoffmann et al. (2022) 建議在 200B 的 tokens 上訓練一個 10B 的模型，但研究者發現 7B 的模型的性能甚至在 1T 的 tokens 之後還能繼續提高。

這項工作的重點是訓練一系列語言模型，透過在比通常使用的更多的 token 上進行訓練，在各種推理預算下達到最佳性能。由此產生的模型被稱為 LLaMA，其參數範圍從 7B 到 65B，與現有的最佳 LLM 相比，此模型的性能具有競爭力。例如，儘管 LLaMA-13B 比 GPT-3 小 10 倍，但在大多數基準測試中都優於 GPT-3。

研究者表示，這個模型將有助於 LLM 的民主化研究，因為它可以在單一 GPU 上運作。在更高的規模上，LLaMA-65B 參數模型也能與最好的大型語言模型（如 Chinchilla 或 PaLM-540B）相媲美。

與Chinchilla、PaLM 或GPT-3 不同，該模型只使用公開可用的數據，使得這項工作與開源相容，而大多數現有模型依賴的數據要么不公開可用、要么沒有記錄（例如Books-2TB 或社交媒體對話）。當然也存在一些例外，特別是OPT (Zhang et al., 2022), GPT-NeoX (Black et al., 2022), BLOOM (Scao et al., 2022) 和GLM (Zeng et al., 2022),但沒有一個能與PaLM-62B 或Chinchilla 競爭。

本文的其餘部分概述了研究者對 transformer 架構的修改以及訓練方法。然後介紹了模型性能，並在一組標準基準上與其他大型語言模型進行了比較。最後，研究者使用了負責任的人工智慧社群的一些最新基準，展示了模型中的偏見和毒性。

方法概述

研究者所使用的訓練方法與(Brown et al., 2020)、(Chowdhery et al., 2022) 等先前工作中所描述的方法相似，並受到Chinchilla scaling laws (Hoffmann et al., 2022) 的啟發。研究者使用了一個標準的優化器在大量的文字資料上訓練大型 transformer。

預訓練資料

#如表1 所示，本研究的訓練資料集是幾個來源的混合物，涵蓋了不同的領域。在大多數情況下，研究者重新使用了已經被用來訓練其他大型語言模型的資料來源，但此處的限制是只能使用公開可用的數據，並與開放資源相容。資料的混合情況以及它們在訓練集中所佔的百分比如下：

英文CommonCrawl [67%];
C4 [15%];
Github [4.5%]；
維基百科[4.5%]；

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

##Gutenberg 和Books3 [4.5%];
ArXiv [2.5%];
Stack Exchange [2%]。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

整個訓練資料集在 token 化之後大約包含 1.4T 的 token。對於大多數訓練數據，每個 token 在訓練期間只使用一次，但維基百科和 Books 域除外，我們在這兩個域上執行大約兩個 epoch。

架構

#基於最近關於大型語言模型的工作，這項研究同樣使用了 transformer 架構。研究者藉鑒了隨後提出並在不同的模型中使用的各種改進，例如 PaLM。在論文中，研究者介紹了與原始架構的主要差異：

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

預歸一化 [GPT3]。為了提高訓練的穩定性，研究者對每個 transformer 子層的輸入進行歸一化，而不是對輸出進行歸一化。他們使用了 Zhang and Sennrich (2019) 提出的 RMSNorm 歸一化函數。 SwiGLU 激活函數 [PaLM]。研究者以了 Shazeer (2020) 提出的 SwiGLU 活化函數取代了 ReLU 非線性以提高性能。他們分別使用 2D、3D、4D 的維度，而不是 PaLM 中的 4D。

#########旋轉嵌入 [GPTNeo]。研究者刪除了絕對位置嵌入，在網路的每一層增加了 Su et al. (2021) 提出的旋轉位置嵌入（RoPE）。不同模型的超參數細節可見表 2。 ###########################實驗結果############常識性推理###### ##########在表3 中，研究者與現有的各種規模的模型進行比較，並報告了相應論文中的數字。首先，LLaMA-65B 在所有報告的基準上都超過了 Chinchilla-70B，除了 BoolQ。同樣，除了在 BoolQ 和 WinoGrande 上，這個模型在任何方面都超過了 PaLM540B。 LLaMA-13B 模型在大多數基準上也超過了 GPT-3，儘管其體積小了 10 倍。 ##############################結束卷答案#########

表 4 展示了 NaturalQuestions 的性能，表 5 展示了 TriviaQA 的性能。在這兩項基準測試中，LLaMA-65B 在零樣本和少樣本設定中都達到了最先進的效能。更重要的是，儘管 LLaMA-13B 是 GPT-3 和 Chinchilla 的五分之一到十分之一，但在這些基準測試中也同樣備競爭力。該模型的推理過程是在單一 V100 GPU 上運行的。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

閱讀理解

研究者也在RACE 閱讀理解基準(Lai et al., 2017) 上評估了模型。此處遵循 Brown et al. (2020) 的評估設置，表 6 展示了評估結果。在這些基準上，LLaMA-65B 與 PaLM-540B 具有競爭力，而且，LLaMA-13B 比 GPT-3 還高出幾個百分點。

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

數學推理

#數學推理

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

在表7 中，研究者將其與PaLM 和Minerva (Lewkowycz et al., 2022) 進行了比較。在 GSM8k 上，他們觀察到 LLaMA65B 優於 Minerva-62B，儘管它沒有在數學數據上進行過微調。

程式碼產生

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

如表8 所示，對於類似的參數數量，LLaMA 的表現是優於其他一般模型的，如LaMDA 和PaLM，這些模型沒有經過專門的程式碼訓練或微調。在 HumanEval 和 MBPP 上，13B 以上參數的 LLaMA 超過了 LaMDA 137B。 LLaMA 65B 也優於 PaLM 62B，即使它的訓練時間更長。

大規模多任務語言理解

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

#研究者使用基準所提供的例子，在5-shot 的情況下評估模型，並在表9 中展示了結果。在這個基準上，他們觀察到 LLaMA-65B 在大多數領域都落後於 Chinchilla70B 和 PaLM-540B 平均幾個百分點。一個潛在的解釋是，研究者在預訓練資料中使用了數量有限的書籍和學術論文，即 ArXiv、Gutenberg 和 Books3，總和只有 177GB，而這些模型是在高達 2TB 的書籍上訓練的。 Gopher、Chinchilla 和 PaLM 所使用的大量書籍也可以解釋為什麼 Gopher 在這個基準上的表現優於 GPT-3，而在其他基準上卻不相上下。

訓練期間的效能變化

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

####### #在訓練期間，研究者追蹤了LLaMA 模型在一些問題回答和常識性基準上的表現，結果如圖2 所示。在大多數基準上，效能穩定提高，並與模型的訓練困惑度呈正相關（見圖 1）。 ########################################

以上是這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3的詳細內容。更多資訊請關注PHP中文網其他相關文章！

本網站聲明

本文內容由網友自願投稿，版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容，請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

人工智慧驅動的應用程序，用於創建逼真的裸體照片

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

免費脫衣圖片

Clothoff.io

AI脫衣器

AI Hentai Generator

免費產生 AI 無盡。

熱工具

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

中文版，非常好用

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

熱門話題

gmail信箱登陸入口在哪裡

7504

CakePHP 教程

1378

steam的賬戶名稱是什麼格式

win11激活密鑰永久

NYT連接提示和答案

Related knowledge

如何配置Debian Apache日誌格式 Apr 12, 2025 pm 11:30 PM

本文介紹如何在Debian系統上自定義Apache的日誌格式。以下步驟將指導您完成配置過程：第一步：訪問Apache配置文件Debian系統的Apache主配置文件通常位於/etc/apache2/apache2.conf或/etc/apache2/httpd.conf。使用以下命令以root權限打開配置文件：sudonano/etc/apache2/apache2.conf或sudonano/etc/apache2/httpd.conf第二步：定義自定義日誌格式找到或

Tomcat日誌如何幫助排查內存洩漏 Apr 12, 2025 pm 11:42 PM

Tomcat日誌是診斷內存洩漏問題的關鍵。通過分析Tomcat日誌，您可以深入了解內存使用情況和垃圾回收（GC）行為，從而有效定位和解決內存洩漏。以下是如何利用Tomcat日誌排查內存洩漏：1.GC日誌分析首先，啟用詳細的GC日誌記錄。在Tomcat啟動參數中添加以下JVM選項：-XX: PrintGCDetails-XX: PrintGCDateStamps-Xloggc:gc.log這些參數會生成詳細的GC日誌（gc.log），包含GC類型、回收對像大小和時間等信息。分析gc.log

debian readdir如何實現文件排序 Apr 13, 2025 am 09:06 AM

在Debian系統中，readdir函數用於讀取目錄內容，但其返回的順序並非預先定義的。要對目錄中的文件進行排序，需要先讀取所有文件，再利用qsort函數進行排序。以下代碼演示瞭如何在Debian系統中使用readdir和qsort對目錄文件進行排序：#include#include#include#include//自定義比較函數，用於qsortintcompare(constvoid*a,constvoid*b){returnstrcmp(*(

如何優化debian readdir的性能 Apr 13, 2025 am 08:48 AM

在Debian系統中，readdir系統調用用於讀取目錄內容。如果其性能表現不佳，可嘗試以下優化策略：精簡目錄文件數量:盡可能將大型目錄拆分成多個小型目錄，降低每次readdir調用處理的項目數量。啟用目錄內容緩存:構建緩存機制，定期或在目錄內容變更時更新緩存，減少對readdir的頻繁調用。內存緩存（如Memcached或Redis）或本地緩存（如文件或數據庫）均可考慮。採用高效數據結構:如果自行實現目錄遍歷，選擇更高效的數據結構（例如哈希表而非線性搜索）存儲和訪問目錄信

Debian syslog如何配置防火牆規則 Apr 13, 2025 am 06:51 AM

本文介紹如何在Debian系統中使用iptables或ufw配置防火牆規則，並利用Syslog記錄防火牆活動。方法一：使用iptablesiptables是Debian系統中功能強大的命令行防火牆工具。查看現有規則:使用以下命令查看當前的iptables規則：sudoiptables-L-n-v允許特定IP訪問:例如，允許IP地址192.168.1.100訪問80端口：sudoiptables-AINPUT-ptcp--dport80-s192.16

debian readdir如何與其他工具集成 Apr 13, 2025 am 09:42 AM

Debian系統中的readdir函數是用於讀取目錄內容的系統調用，常用於C語言編程。本文將介紹如何將readdir與其他工具集成，以增強其功能。方法一：C語言程序與管道結合首先，編寫一個C程序調用readdir函數並輸出結果：#include#include#includeintmain(intargc,char*argv[]){DIR*dir;structdirent*entry;if(argc!=2){

Debian syslog如何學習 Apr 13, 2025 am 11:51 AM

本指南將指導您學習如何在Debian系統中使用Syslog。 Syslog是Linux系統中用於記錄系統和應用程序日誌消息的關鍵服務，它幫助管理員監控和分析系統活動，從而快速識別並解決問題。一、Syslog基礎知識Syslog的核心功能包括：集中收集和管理日誌消息；支持多種日誌輸出格式和目標位置（例如文件或網絡）；提供實時日誌查看和過濾功能。二、安裝和配置Syslog(使用Rsyslog)Debian系統默認使用Rsyslog。您可以通過以下命令安裝：sudoaptupdatesud

Debian Nginx日誌路徑在哪裡 Apr 12, 2025 pm 11:33 PM

Debian系統中，Nginx的訪問日誌和錯誤日誌默認存儲位置如下：訪問日誌(accesslog):/var/log/nginx/access.log錯誤日誌(errorlog):/var/log/nginx/error.log以上路徑是標準DebianNginx安裝的默認配置。如果您在安裝過程中修改過日誌文件存放位置，請檢查您的Nginx配置文件（通常位於/etc/nginx/nginx.conf或/etc/nginx/sites-available/目錄下）。在配置文件中

See all articles

這是Meta版ChatGPT雛型？開源、一塊GPU就能跑，1/10參數量打敗GPT-3

研究概覽

方法概述

熱AI工具

Undresser.AI Undress

AI Clothes Remover

Undress AI Tool

Clothoff.io

AI Hentai Generator

熱門文章

熱工具

記事本++7.3.1

SublimeText3漢化版

禪工作室 13.0.1

Dreamweaver CS6

SublimeText3 Mac版

熱門話題