現在,生成式人工智慧模型變得越來越大了,所以更大就意味著更好嗎?
非也。現在,一些科學家提議,應該採用更精簡、更節能的系統。
文章網址:https://www.nature.com/articles/d41586-023-00641-w
最近科技業的寵兒ChatGPT,在面對需要推理才能回答的數學問題時,表現往往不佳。
例如這個問題「平行於y = 4 x 6的直線穿過(5, 10)。這條線與y軸的交點的y座標是多少?」,它往往答不對。
在一項針對推理能力的早期測驗中,ChatGPT 在回答中學程度的MATH資料集樣本時,分數僅為26(%)。
這當然在我們的意料之中,給定輸入文字後,ChatGPT只是根據訓練資料集的單字、符號和句子的統計規律,產生新文字。
光是學一下語言模式,當然不可能讓語言模型學會模仿數學推理。
但其實,早在2022年6月,Google創建的名為Minerva的大語言模型就已經打破了這個「魔咒」。
Minerva在MATH資料集(2)中的問題得分為50% ,這一結果令研究人員大為震驚。
Minerva答對了一道「MATH」資料集裡的中學數學問題
微軟研究院的機器學習專家Sébastien Bubeck說,圈內人都震驚了,對此議論紛紛。
Minerva的優勢,當然是因為它接受過數學文本的訓練。
但Google的研究提出了該模型表現如此出色的另一個重要原因——龐大的規模。它的大小大約是ChatGPT的三倍。
Minerva 的結果暗示了一些研究人員長期以來一直懷疑的事情:訓練更大的LLM並為它們提供更多數據,可以使它們僅通過模式識別,就能解決本應需要推理的任務。
如果真的是這樣,研究人員表示,這種「越大越好」的策略可能會為強大的人工智慧提供一條途徑。
但這個論點顯然值得懷疑。
LLM仍然會犯下明顯的錯誤,一些科學家認為,更大的模型只是在回答訓練資料相關範圍內的查詢上變得更好,並不能獲得回答全新問題的能力。
這場辯論現在正在人工智慧的前沿如火如荼地展開。
商業公司已經看到,使用更大的AI模型,就可以獲得更好的結果,因此他們正在推出越來越大的LLM——每個LLM 都需要花費數百萬美元來訓練和運行。
但是這些模型有很大的缺點。除了它們的輸出可能會不可信、因而加劇錯誤訊息的傳播之外,它們價格實在太昂貴了,並且會消耗大量的能量。
評家認為,大型LLM永遠無法模仿或獲得使他們能始終如一地回答推理問題的技能。
相反,一些科學家說,更小、更節能的AI才能取得進步,他們的觀點部分受到了大腦學習和建立聯繫方式的啟發。
ChatGPT和Minerva等大語言模型是巨大的分層排列的計算單元網路(也稱為人工神經元)。
LLM 的大小是根據它有多少參數來衡量的,而參數量描述了神經元之間連接強度的可調值。
訓練這樣的網絡,就需要要求它預測已知句子的遮罩部分並調整這些參數,以便演算法下次做得更好。
對數十億個人類書寫的句子重複執行這個操作,神經網路就會學習模擬人類書寫語言方式的內在表徵。
在這個階段,LLM 被認為是經過預先訓練的:它的參數捕捉了它在訓練期間看到的書面語言的統計結構,包括文本中的所有事實、偏見和錯誤。然後可以根據專門數據對它“微調”。
例如,為了製作Minerva,研究人員從Google的Pathways Language Model (PaLM) 入手,該模型擁有5400億個參數,並在7800億個token的資料集上進行了預訓練。
token可以是一個字、數字或一些資訊單元;在PaLM的例子中,token是從英文和多語言網路文件、書籍和程式碼中收集的。 Minerva是PaLM對來自科學論文和數學網頁的數百億個token進行微調的結果。
Minerva可以回答「小於520的30的最大倍數是多少」這樣的問題。
LLM似乎在按步驟思考,但它所做的只是將問題轉化為tokne序列,產生統計上合理的下一個token,將其附加到原始序列,生成另一個token,等等。這個過程就被稱為推理。
Google研究人員使用了具有80億、620億和5400億參數的底層預訓練PaLM模型,對Minerva的三種尺寸進行了微調。 Minerva的性能隨著規模的擴大而提高。
在整個MATH資料集上,最小模型的準確率為25%,中型模型達到43%,最大模型突破50%大關。
最大的模型也使用了最少的微調資料——它只對260億個token進行了微調,而最小的模型則微調了1640億個token。
但是最大的模型花了一個月的時間進行微調,專用硬體的算力是最小模型所用算力的八倍,而最小模型的微調時間僅為兩週。
理想情況下,最大的模型應該在更多token上進行微調。谷歌研究院Minerva團隊的成員Ethan Dyer說,這本來可以帶來更好的表現。但團隊認為計算費用不可行。
最大的Minerva模型表現最好,這與Scaling Law(規模效應)的研究是一致的-這些規律決定了表現如何隨著模型大小的增加而提高。
2020年的一項研究表明,模型在給定以下三項之一時表現更好:更多參數、更多訓練資料或更多「計算」(訓練期間執行的計算操作數) 。
效能根據冪律縮放,這意味著它會隨著參數量的增加而提高。
然而,研究人員並不清楚其中的原因。 「這些規律純粹是經驗主義的,」加拿大蒙特婁大學、 Mila- Quebec人工智慧研究所的電腦科學家Irina Rish說。
為了獲得最佳結果,2020年的研究建議,隨著訓練資料增加一倍,模型大小應增加五倍。去年的工作對此略有修改。
今年3月,DeepMind認為,最好同時擴大模型規模和訓練數據,而且在更多數據上訓練的較小模型比在較少數據上訓練的較大模型表現更好。
例如,DeepMind的Chinchilla模型有700億個參數,並在1.4萬億個token上進行了訓練,而2800億參數的Gopher模型在3000億個token上進行了訓練。在隨後的評估中,Chinchilla的表現優於Gopher。
在2月,Meta的科學家基於這個概念建構了一個名為LLaMA的小參數模型,該模型訓練了多達1.4兆個token。
研究人員表示,LLaMA的130億參數版本優於ChatGPT的前身GPT-3(1750 億參數),而650億參數的版本比起 Chinchilla甚至PaLM,都更有競爭力。
去年10月,蒙特利爾麥吉爾大學的Ethan Caballero與Rish等人報告稱,他們發現了規模與性能之間更複雜的關係——在某些情況下,多重冪律可以控制性能如何隨模型大小變化。
例如,在一個擬合一般方程式的假設場景中,效能首先逐漸提高,然後隨著模型的大小而更快地提高,但隨著參數數量的繼續增加,效能會略有下降,然後再次增加。這種複雜關係的特徵取決於每個模型的細節及其訓練方式。
最終,研究人員希望能夠在任何特定的LLM擴大規模時提前預測這一點。
一項單獨的理論發現也支持更大模型的驅動——機器學習的「穩健性法則」,這個法則由Bubeck和他的同事在2021年提出。
如果一個模型的答案保持一致,儘管它的輸入有小的擾動,那麼這個模型就是穩健的。
而Bubeck和他的同事從數學上證明,增加模型中的參數數量會提高穩健性,從而提高泛化能力。
Bubeck說,規律證明擴大規模對於泛化是必要的,但還不夠。儘管如此,它仍被用來證明轉向更大模型的合理性。 「我認為這是一件合理的事情。」
Minerva也利用了一項名為思維鏈提示的關鍵創新。使用者在問題前加上文字前綴,包括幾個問題和解決方案的範例,以及導致答案的推理(這就是典型的思維鏈)。
在推理過程中,LLM會從這個上下文中獲取線索,並提供一個看起來像推理的循序漸進的答案。
這不需要更新模型的參數,因此不涉及微調所需的額外運算能力。
只有在具有超過1000億個參數的LLM中,才會出現對思維鏈提示做出回應的能力。
Google研究院的Blaise Agüera y Arcas說,這些發現幫助更大的模型根據經驗縮放定律進行改進。 「更大的模型會越來越好。」
Google的人工智慧研究員François Chollet是懷疑論者之一,他們認為無論LLM變得多大,他們都永遠無法具備足夠好的推理(或模仿推理)能力來可靠地解決新問題。
他說,LLM似乎只透過使用它以前遇到過的模板來推理,無論是在訓練資料中還是在提示中。 「它不能即時理解它以前沒有見過的東西。」
或許,LLM能做的最好的事,就是吸收大量的訓練數據,以至於語言的統計模式本身就可以讓他們用非常接近看到答案的方式,來回答問題。
然而,Agüera y Arcas認為,LLM似乎確實獲得了一些他們沒有專門培訓的能力,這些能力令人驚訝。
尤其是顯示一個人是否具有所謂心智理論的測試,這個測試能夠理論化或衡量他人的心理狀態。
例如,愛麗絲把眼鏡放在抽屜裡,然後鮑伯在愛麗絲不知道的情況下將眼鏡藏在墊子下。愛麗絲會先去哪裡找她的眼鏡?
問一個孩子這個問題,是為了測試他們是否理解愛麗絲有自己的信念,這些信念可能與孩子所知道的不一致。
Agüera y Arcas在他對Google的另一個LLM LaMDA的測試中,發現LaMDA在這類更擴展的對話中,會做出正確的回應。
對他來說,這顯示LLM有能力在內部模擬他人的意圖。
Agüera y Arcas說:「這些除了預測序列之外什麼都不做的模型,已經開發了一系列非凡的能力,包括心智理論。
但他承認,這些模型容易出錯,而且他也不確定單獨改變規模是否足以進行可靠的推理,儘管這似乎有必要。
Google研究院的Blaise Agüera y Arcas在博客中記錄了他與LaMDA的對話。Agüera y Arcas認為這是一次令人印象深刻的交流,LaMDA似乎能夠始終如一地模擬故事中兩個對話者知道和不知道的事情,很明顯,這就是對心智理論的模仿。
#然而,Chollet說,即使LLM得到了正確的答案,也沒有涉及理解。
「當你稍微探究一下,就會立即發現它是空的。ChatGPT沒有它所談論內容的模型。就彷彿你正在觀看木偶戲,並且相信木偶還活著。」
到目前為止,LLM仍然會犯人類永遠不會犯的荒謬錯誤,Melanie Mitchell說。她在Santa Fe研究所研究人工智慧系統中的概念抽象和類比。
這讓人們很擔憂,在沒有護欄的情況下將LLM釋放到社會中是否安全。
Mitchell 補充說,對於LLM是否能夠解決真正新的、未見過的問題,有一個難題,即我們無法全面測試這種能力。
「我們目前的基準還不夠,」她說。 「它們沒有系統地探索事物。我們還不知道該怎麼做。」
Chollet 提倡他設計的抽象推理測試,它被稱為抽象推理語料庫。
#但問題是,訓練大型語言模型所涉及的資料集、運算能力和費用限制了它們的發展。目前來看,只有擁有超大運算資源的公司才能做到。
例如,OpenAI在GPT-3的訓練上,預計花費了超過400萬美元,而為了維持ChatGPT的運轉,每個月可能還要花費數百萬美元。
於是,各國政府紛紛開始介入,希望由此擴大自己在這個領域的優勢。
去年6月,一個由大約1000名學術志工組成的國際團隊,在法國政府、Hugging Face和其他機構的資助下,用價值700萬美元的計算時間,訓練了參數為1760億的BLOOM模型。
而在11月,美國能源部也將自己的超級運算授權給了一個研究大模型專案。據稱,團隊計劃訓練一個類似Chinchilla的700億參數的模型。
不過,無論是誰來訓練,LLM對電力的消耗都是不容小覷的。
Google表示,在大約兩個月的時間裡,訓練PaLM花費了大約3.4千兆瓦時,這相當於大約300個美國家庭一年的能源消耗。
雖然Google宣稱自己用的89%就是清潔能源,但對整個產業的調查顯示,大多數的訓練都是使用主要由化石燃料供電的電網。
更小,更聰明?
從這個角度來看,研究人員迫切地需要減少LLM的能源消耗——使神經網路更小、更有效,也許還能更聰明。
除了訓練LLM的能源成本(雖然很可觀,但也是一次性的),推理所需的能源,會隨著用戶數量的增加而激增。例如,BLOOM模型在Google雲端平台上部署的18天裡,共回答了230,768次查詢,平均功率為1,664瓦。
相比而言,我們自己的大腦比任何LLM都要複雜和大得多,有860億個神經元和大約100萬億個突觸連接,但功率只有大約20到50瓦。
於是,有些研究人員便希望透過對大腦的模仿來實現讓模型更小、更聰明、更有效率的願景。
從本質上講,LLM是「前饋」網絡,這意味著資訊是單向流動的:從輸入端,透過LLM的各層,到輸出端。
但大腦卻不然。例如,在人類的視覺系統中,神經元除了會將接收到的訊息正向傳輸進大腦外,還有回饋連接,使訊息在神經元之間以相反的方向傳遞。在這其中,反饋連接的數量可能是前饋連接的十倍。
在人工神經網路中,遞歸神經網路(RNN)也同時包含了前饋和回饋連結。與只有前饋網路的LLM不同,RNN可以辨別出資料中隨時間變化的模式。不過,RNN很難訓練,而且速度很慢,因此很難將其擴展到LLM所具有的規模。
目前,一些使用小型資料集的研究已經表明,具有脈衝神經元的RNN可以勝過標準的RNN,而且在理論上,計算效率也要高出三個數量級。
然而,只要這種脈衝網路是在軟體中模擬的,它們就不能真正地實現效率的提升(因為模擬它們的硬體仍然會消耗能量)。
同時,研究人員正在試驗不同的方法,使現有的LLM更加節能。
2021年12月,DeepMind提出了基於檢索的語言模型架構Retro。
Retro主要模仿大腦在學習時不光利用當下的知識,也會利用記憶的檢索這個機制。其框架是先準備一個大規模的文字資料集(充當大腦的記憶),透過kNN演算法找到輸入句子的n個最近鄰句子(檢索記憶)。
把輸入的句子和檢索到的句子經過Transformer編碼後,再進行Cross-Attention,這樣模型就可以同時利用輸入句子中的資訊和記憶資訊來完成各種NLP任務。
以往模型的超大參數量主要是為了保存住訓練資料中的信息,當使用這種基於檢索的框架後,模型的參數量不用特別大就可以包含更多的文字訊息,自然而然就會加快模型的運行速度,並且還不會損失太多效能。
這種方式還能節省模型訓練時的電費,環保女孩看了都按讚!
實驗結果顯示,一個75億個參數的大語言模型,加上一個2兆個token的資料庫,可以勝過參數多25倍的模型。研究人員寫道,這是一個「當我們尋求建立更強大的語言模型時,比原始參數縮放更有效的方法」。
在同一個月,Google的研究人員提出了另一種在規模上提高能源效率的方法。
這個擁有1.2兆參數的稀疏通用語言模型GLaM,在內部有64個較小的神經網路。
在推理過程中,模型只使用兩個網路來完成任務。也就是說,只用了一萬多億個參數中的大約8%。
Google表示,GLaM使用的運算資源與訓練GPT-3所需的相同,但由於訓練軟體和硬體的改進,能耗只有後者的1/3。而推理所需的計算資源,則是GPT-3的一半。此外,在相同數量的數據上進行訓練時,GLaM的表現也要優於GPT-3。
然而,為了進一步的改進,即使是這些更節能的LLM似乎也注定要變得更大,使用更多的數據和計算。
參考資料:
https://www.nature.com/articles/d41586-023-00641-w
#以上是Nature:AI模型越大越好嗎?的詳細內容。更多資訊請關注PHP中文網其他相關文章!