擊敗LLaMA?史上超強「獵鷹」排行存疑,符堯7行程式碼親測,LeCun轉贊
前段時間,初出茅廬的獵鷹(Falcon)在LLM排行榜碾壓LLaMA,在整個社區激起千層浪。
但是,獵鷹真的比LLaMA好嗎?
簡短回答:可能不是。
#符堯團隊對模型做了更深入的評估:
「我們在MMLU上復現了LLaMA 65B的評估,得到了61.4的分數,接近官方分數(63.4),遠高於其在Open LLM Leaderboard上的分數(48.8),而且明顯高於獵鷹(52.7)。」
沒有花俏的提示工程,沒有花俏的解碼,一切都是預設值。
目前,Github上已經公開了程式碼和測試方法。
對於獵鷹超越LLaMA存疑,LeCun表態,測試腳本的問題...
LLaMA真·實力
目前在OpenLLM排行榜上,Falcon位列第一,超過了LLaMA,得到了包括Thomas Wolf在內的研究人員的力薦。
然而,有些人對此表示疑慮。
先是一位網友質疑,LLaMA這些數字從哪裡來,看起來與論文數字不一致...
#隨後,OpenAI科學家Andrej Karpathy也對LLaMA 65B為何在Open LLM排行榜上的分數明顯低於官方(48.8 v.s. 63.4)表示關注。
並發文,到目前為止,我一直避免在推特上發表關於獵鷹的文章,因為這一點,不確定。
為了弄清楚這個問題,符堯和團隊成員決定對LLaMA 65B進行一次公開的測試,結果得到61.4分。
在測驗中,研究者並沒有使用任何特殊機制,LLaMA 65B就能拿到這個分數。
這結果正好證明了,如果想要模型實現接近GPT-3.5的水平,最好是在LLaMA 65B上使用RLHF。
根據就是,近來符堯團隊發表的一篇Chain-of-Thought Hub論文的發現。
當然,符堯表示,他們這項評比並非想要引起LLaMA和Falcon之間的爭端,畢竟這些都是偉大的開源模型,都為這個領域做出了重大的貢獻!
另外,Falcon還有更方便的使用許可,這也讓它有很大的發展潛力。
對於這一最新測評,網友BlancheMinerva指出,公平的比較應該在預設設定下運行獵鷹(Falcon)在MMLU上。
對此,符堯稱這是正確的,並正在進行這項工作,預計在一天後可以得到結果。
不管最終的結果怎樣,要知道GPT-4這座山峰才是開源社群真正想要追求的目標。
OpenLLM排行榜問題
來自Meta的研究人員稱讚,符堯很好地再現了LLaMa的結果,並指出了OpenLLM排行榜的問題。
同時,他也分享了關於OpenLLM排行榜的一些問題。
首先,MMLU的結果:LLaMa 65B MMLU結果在排行榜上是15分,但對7B模型來說是一樣的。 13B、30B模型也存在較小的效能差距。
OpenLLM真的需要在公佈哪個模型是最好的之前看看這個。
基準:這些基準是如何選擇的?
ARC 25 shot和Hellaswag 10 shot似乎與LLM並不特別相關。如果能在其中加入一些生成式基準就更好了。雖然生成式基準有其局限性,但它們仍然是有用的。
單一平均分數:將結果減少到單一分數總是很吸引人的,平均分數是最容易的。
但在這種情況下,4個基準的平均值真的有用嗎?在MMLU上獲得1分和在HellaSwag上獲得1分是一樣的嗎?
在LLM快速迭代的世界裡,開發這樣一個排行榜肯定有一定的價值。
還有來自Google研究人員Lucas Beyer也發表了自己的觀點,
瘋狂的是,NLP研究人員對同一個基準有不同的理解,因此導致了完全不同的結果。同時,每當我的同事實現一個指標時,我都會立即問他們是否真的檢查將官方程式碼的完美重現,如果沒有,就放棄他們的結果。
另外,他也表示,據我所知,無論模型如何,它實際上都不會重現原始基準測試的結果。
網友附和道,這就是LLM基準的現實...
Falcon-開源、可商用、效能強
說到Falcon,其實值得我們再好好回顧一下。
依照LeCun的說法,大模型時代,開源最重要。
而在Meta的LLaMA程式碼遭洩之後,各路開發者都開始躍躍欲試。
Falcon正是由阿聯酋阿布達比的技術創新研究所(TII)開發的一支奇兵。
剛發佈時從性能上看,Falcon比LLaMA的表現更好。
目前,「Falcon」有三個版本-1B、7B和40B。
TII表示,Falcon迄今為止最強大的開源語言模型。其最大的版本,Falcon 40B,擁有400億參數,相對於擁有650億參數的LLaMA來說,規模上還是小了一點。
不過,先前TII曾表示,別看咱Falcon規模雖小,性能卻很能打。
先進技術研究委員會(ATRC)秘書長Faisal Al Bannai認為,「Falcon」的發布將打破LLM的取得方式,並讓研究人員和創業者能夠以此提出最具創新性的使用案例。
FalconLM的兩個版本,Falcon 40B Instruct和Falcon 40B在Hugging Face OpenLLM排行榜上位列前兩名,而Meta的LLaMA則位於第三。
而前文所講的有關排行榜的問題也正是這個。
儘管「Falcon」的論文目前還沒公開發布,但Falcon 40B已經在經過精心篩選的1萬億token網路資料集的上進行了大量訓練。
研究人員曾透露,「Falcon」在訓練過程中非常重視在大規模資料上實現高效能的重要性。
我們都知道的是,LLM對訓練資料的品質非常敏感,這就是為什麼研究人員會花大量的精力建立一個能夠在數萬個CPU核心上進行高效處理的數據管道。
目的就是,在過濾和去重的基礎上從網路中提取高品質的內容。
目前,TII已經發布了精煉的網路資料集,這是一個經過精心過濾和去重的資料集。實踐證明,非常有效。
只用這個資料集訓練的模型可以和其它LLM打個平手,甚至在效能上超過他們。這展示出了“Falcon”卓越的品質和影響力。
此外,Falcon模型也具有多語言的能力。
它理解英語、德語、西班牙語和法語,並且在荷蘭語、義大利語、羅馬尼亞語、葡萄牙語、捷克語、波蘭語和瑞典語等一些歐洲小語種上也懂得不少。
Falcon 40B還是繼H2O.ai模型發布後,第二個真正開源的模型。
另外,還有一點非常重要-Falcon是目前唯一的可以免費商用的開源模型。
在早期,TII要求,商業用途使用Falcon,如果產生了超過100萬美元以上的可歸因收入,將會收取10%的「使用稅」。
可是財大氣粗的中東土豪們沒太多長時間就取消了這個限制。
至少到目前為止,所有對Falcon的商業化使用和微調都不會收取任何費用。
土豪們表示,現在暫時不需要透過這個模型賺錢。
而且,TII也正在全球徵集商用化方案。
對於有潛力的科學研究和商業化方案,他們還會提供更多的「訓練算力支持」,或提供進一步的商業化機會。
這簡直就是在說:只要項目好,模型免費用!算力管夠!錢不夠我們還能給你湊!
對於新創公司來說,這簡直就是來自中東土豪的「AI大模型創業一站式解決方案」。
根據開發團隊稱,FalconLM 競爭優勢的一個重要方面是訓練資料的選擇。
研究團隊開發了一個從公共爬網資料集中提取高品質資料並刪除重複資料的流程。
在徹底清理多餘重複內容後,保留了 5 兆的token——足以訓練強大的語言模型。
40B的Falcon LM使用1兆個token進行訓練,7B版本的模型訓練token達到 1.5 兆。
(研究團隊的目標是使用RefinedWeb資料集從Common Crawl中僅過濾出品質最高的原始資料)
此外,Falcon的訓練成本相對來說更可控。
TII稱,與GPT-3相比,Falcon在只使用75%的訓練計算預算的情況下,就實現了顯著的性能提升。
而且在推論(Inference)時只需要只需要20%的計算時間,成功實現了計算資源的高效利用。
以上是擊敗LLaMA?史上超強「獵鷹」排行存疑,符堯7行程式碼親測,LeCun轉贊的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

AI Hentai Generator
免費產生 AI 無盡。

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

熱門話題

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

AI,的確正在改變數學。最近,一直十分關注這個議題的陶哲軒,轉發了最近一期的《美國數學學會通報》(BulletinoftheAmericanMathematicalSociety)。圍繞著「機器會改變數學嗎?」這個話題,許多數學家發表了自己的觀點,全程火花四射,內容硬核,精彩紛呈。作者陣容強大,包括菲爾茲獎得主AkshayVenkatesh、華裔數學家鄭樂雋、紐大電腦科學家ErnestDavis等多位業界知名學者。 AI的世界已經發生了天翻地覆的變化,要知道,其中許多文章是在一年前提交的,而在這一

波士頓動力Atlas,正式進入電動機器人時代!昨天,液壓Atlas剛「含淚」退出歷史舞台,今天波士頓動力就宣布:電動Atlas上崗。看來,在商用人形機器人領域,波士頓動力是下定決心要跟特斯拉硬剛一把了。新影片放出後,短短十幾小時內,就已經有一百多萬觀看。舊人離去,新角色登場,這是歷史的必然。毫無疑問,今年是人形機器人的爆發年。網友銳評:機器人的進步,讓今年看起來像人類的開幕式動作、自由度遠超人類,但這真不是恐怖片?影片一開始,Atlas平靜地躺在地上,看起來應該是仰面朝天。接下來,讓人驚掉下巴

本月初,來自MIT等機構的研究者提出了一種非常有潛力的MLP替代方法—KAN。 KAN在準確性和可解釋性方面表現優於MLP。而且它能以非常少的參數量勝過以更大參數量運行的MLP。例如,作者表示,他們用KAN以更小的網路和更高的自動化程度重現了DeepMind的結果。具體來說,DeepMind的MLP有大約300,000個參數,而KAN只有約200個參數。 KAN與MLP一樣具有強大的數學基礎,MLP基於通用逼近定理,而KAN基於Kolmogorov-Arnold表示定理。如下圖所示,KAN在邊上具

谷歌力推的JAX在最近的基準測試中表現已經超過Pytorch和TensorFlow,7項指標排名第一。而且測試並不是JAX性能表現最好的TPU上完成的。雖然現在在開發者中,Pytorch依然比Tensorflow更受歡迎。但未來,也許有更多的大型模型會基於JAX平台進行訓練和運行。模型最近,Keras團隊為三個後端(TensorFlow、JAX、PyTorch)與原生PyTorch實作以及搭配TensorFlow的Keras2進行了基準測試。首先,他們為生成式和非生成式人工智慧任務選擇了一組主流

特斯拉機器人Optimus最新影片出爐,已經可以在工廠裡打工了。正常速度下,它分揀電池(特斯拉的4680電池)是這樣的:官方還放出了20倍速下的樣子——在小小的「工位」上,揀啊揀啊揀:這次放出的影片亮點之一在於Optimus在廠子裡完成這項工作,是完全自主的,全程沒有人為的干預。而且在Optimus的視角之下,它還可以把放歪了的電池重新撿起來放置,主打一個自動糾錯:對於Optimus的手,英偉達科學家JimFan給出了高度的評價:Optimus的手是全球五指機器人裡最靈巧的之一。它的手不僅有觸覺

目標偵測在自動駕駛系統當中是一個比較成熟的問題,其中行人偵測是最早得以部署演算法之一。在多數論文當中已經進行了非常全面的研究。然而,利用魚眼相機進行環視的距離感知相對來說研究較少。由於徑向畸變大,標準的邊界框表示在魚眼相機當中很難實施。為了緩解上述描述,我們探索了擴展邊界框、橢圓、通用多邊形設計為極座標/角度表示,並定義一個實例分割mIOU度量來分析這些表示。所提出的具有多邊形形狀的模型fisheyeDetNet優於其他模型,並同時在用於自動駕駛的Valeo魚眼相機資料集上實現了49.5%的mAP

這篇論文探討了在自動駕駛中,從不同視角(如透視圖和鳥瞰圖)準確檢測物體的問題,特別是如何有效地從透視圖(PV)到鳥瞰圖(BEV)空間轉換特徵,這一轉換是透過視覺轉換(VT)模組實施的。現有的方法大致分為兩種策略:2D到3D和3D到2D轉換。 2D到3D的方法透過預測深度機率來提升密集的2D特徵,但深度預測的固有不確定性,尤其是在遠處區域,可能會引入不準確性。而3D到2D的方法通常使用3D查詢來採樣2D特徵,並透過Transformer學習3D和2D特徵之間對應關係的注意力權重,這增加了計算和部署的
