開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單
能打得過GPT-4的開源模型出現了!
大模型競技場最新戰報:
1040億參數開源模型Command R 攀升至第6位,與GPT-4-0314打成平手,超過了GPT-4-0613。
圖片
這也是第一個在大模型競技場上擊敗GPT-4的開放權重模型。
大模型競技場,可是大神Karpathy口中唯二信任的測試基準之一。
圖片
Command R 來自AI獨角獸Cohere。這家大模型新創公司的共同創辦人兼CEO,正是Transformer最年輕作者Aidan Gomez(簡稱割麥子)。
圖片
這份戰報一出,又掀起了一波大模型社群的熱烈討論。
大傢伙兒興奮的理由很簡單:基礎大模型捲了一整年,沒想到在2024年格局還在不斷地發展變化。
HuggingFace聯合創始人Thomas Wolf就說:
最近大模型競技場上的情況發生了巨大的變化:
Anthropic的Claude 3 opus在閉源模型中獨佔鰲頭。
Cohere的Command R 則成為了開源模型中最強的者。
沒想到,2024年在開源和閉源兩條路線上,人工智慧團隊的發展都如此之快。
圖片
另外,Cohere機器學習總監Nils Reimers也指出了值得關注的一點:
Command R 最大的特色是對內建RAG(檢索增強生成)進行了全面優化,而在大模型競技場中,RAG這樣的外掛能力並未納入測試。
圖片
RAG優化模型登上開源王座
在Cohere官方定位中,Command R 是一個“RAG優化模型” 。
就是說,這個1040億參數的大模型主要針對檢索增強生成技術進行了深度優化,以減少幻覺的產生,更適合企業級工作負載。
和先前推出的Command R一樣,Command R 的上下文視窗長度是128k。
此外,Command R 還具備以下特點:
- 涵蓋10 種語言,包括英文、中文、法文、德文等;
- 能使用工具完成複雜業務流程的自動化
從測試結果來看,在多語言、RAG和工具使用這三個維度上,Command R 都達到了GPT-4 turbo的水平。
但在輸入成本方面,Command R 的價格僅為GPT-4 turbo的1/3。
輸出成本方面,Command R 則是GPT-4 turbo的1/2。
圖片
正是這點引發了不少網友的關注:
圖片
#不過,儘管在大模型競技場這種人類主觀評測上表現搶眼,還是有網友甩出了一些不同觀點。
在HumanEval上,Command R 的程式碼能力就連GPT-3.5都沒打過,在兩組測驗中分別排在32位和33位。
最新版GPT-4 turbo則沒有懸念地拿下了第一名。
圖片
另外,我們也在最近剛登上正經論文的弱智吧benchmark上簡單測試了一下Command R 的中文能力。
圖片
你給打個分?
要說明的是,Command R 的開源只針對學術研究,並不能免費商用。
One More Thing
最後的最後,還是多聊一嘴割麥小哥。
Aidan Gomez,Transformer圓桌騎士中最年輕的一位,加入研究團隊時只是個本科生-
不過,是在多倫多大學讀大三時就加入了Hinton實驗室的那種。
2018年,割麥子被牛津大學錄取,開始像他的論文搭訕們那樣攻讀CS博士學位。
但在2019年,隨著Cohere的創立,他最終選擇退學加入AI創業的浪潮。
Cohere主要是為企業提供大模型解決方案,目前估值達到了22億美元。
參考連結:
[1]https://www.php.cn/link/3be14122a3c78d9070cae09a16adcbb1[2]https://www.php.cn/ link/93fc5aed8c051ce4538e052cfe9f8692
以上是開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

PHP5.4版本新功能:如何使用callable類型提示參數接受可呼叫的函數或方法引言:PHP5.4版本引入了一個非常便利的新功能-可以使用callable類型提示參數來接受可呼叫的函數或方法。這個新功能使得函數和方法可以直接指定對應的可呼叫參數,而無需進行額外的檢查和轉換。在本文中,我們將介紹callable類型提示的使用方法,並提供一些程式碼範例,

產品參數是指產品屬性的意思。例如服裝參數有品牌、材質、型號、大小、風格、布料、適應人群和顏色等;食品參數有品牌、重量、材質、衛生許可證號碼、適應人群和顏色等;家電參數有品牌、尺寸、顏色、產地、適應電壓、訊號、介面和功率等。

卷瘋了卷瘋了,大模型又變天了。就在剛剛,全球最強AI模型一夜易主,GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型,一句話評價:真·全面碾壓GPT-4!在多模態和語言能力指標上,Claude3都贏麻了。用Anthropic的話來說,Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面,都樹立了新的行業基準! Anthropic,就是曾因安全理念不合,而從OpenAI「叛逃」出的員工組成的新創公司,他們的產品一再給OpenAI暴擊。這次的Claude3,更是整了個大的

在開發過程中,我們可能會遇到這樣一個錯誤提示:PHPWarning:in_array()expectsparameter。這個錯誤提示會在使用in_array()函數時出現,有可能是因為函數的參數傳遞不正確所導致的。以下我們來看看這個錯誤提示的解決方法。首先,需要明確in_array()函數的作用:檢查一個值是否在陣列中存在。此函數的原型為:in_a

C++參數類型安全檢查透過編譯時檢查、執行時間檢查和靜態斷言確保函數只接受預期類型的值,防止意外行為和程式崩潰:編譯時類型檢查:編譯器檢查類型相容性。運行時類型檢查:使用dynamic_cast檢查類型相容性,不符則拋出異常。靜態斷言:在編譯時對型別條件進行斷言。
