目錄
RAG優化模型登上開源王座
One More Thing
首頁 科技週邊 人工智慧 開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單

Apr 10, 2024 pm 03:16 PM
參數 gpt-4 karpathy

能打得過GPT-4的開源模型出現了!

大模型競技場最新戰報:

1040億參數開源模型Command R 攀升至第6位,與GPT-4-0314打成平手,超過了GPT-4-0613。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

這也是第一個在大模型競技場上擊敗GPT-4的開放權重模型。

大模型競技場,可是大神Karpathy口中唯二信任的測試基準之一。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

Command R 來自AI獨角獸Cohere。這家大模型新創公司的共同創辦人兼CEO,正是Transformer最年輕作者Aidan Gomez(簡稱割麥子)。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

這份戰報一出,又掀起了一波大模型社群的熱烈討論。

大傢伙兒興奮的理由很簡單:基礎大模型捲了一整年,沒想到在2024年格局還在不斷地發展變化。

HuggingFace聯合創始人Thomas Wolf就說:

最近大模型競技場上的情況發生了巨大的變化:

Anthropic的Claude 3 opus在閉源模型中獨佔鰲頭。

Cohere的Command R 則成為了開源模型中最強的者。

沒想到,2024年在開源和閉源兩條路線上,人工智慧團隊的發展都如此之快。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

另外,Cohere機器學習總監Nils Reimers也指出了值得關注的一點:

Command R 最大的特色是對內建RAG(檢索增強生成)進行了全面優化,而在大模型競技場中,RAG這樣的外掛能力並未納入測試。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

RAG優化模型登上開源王座

在Cohere官方定位中,Command R 是一個“RAG優化模型” 。

就是說,這個1040億參數的大模型主要針對檢索增強生成技術進行了深度優化,以減少幻覺的產生,更適合企業級工作負載。

和先前推出的Command R一樣,Command R 的上下文視窗長度是128k。

此外,Command R 還具備以下特點:

  • 涵蓋10 種語言,包括英文、中文、法文、德文等;
  • 能使用工具完成複雜業務流程的自動化

從測試結果來看,在多語言、RAG和工具使用這三個維度上,Command R 都達到了GPT-4 turbo的水平。

但在輸入成本方面,Command R 的價格僅為GPT-4 turbo的1/3。

輸出成本方面,Command R 則是GPT-4 turbo的1/2。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

正是這點引發了不少網友的關注:

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

#不過,儘管在大模型競技場這種人類主觀評測上表現搶眼,還是有網友甩出了一些不同觀點。

在HumanEval上,Command R 的程式碼能力就連GPT-3.5都沒打過,在兩組測驗中分別排在32位和33位。

最新版GPT-4 turbo則沒有懸念地拿下了第一名。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

另外,我們也在最近剛登上正經論文的弱智吧benchmark上簡單測試了一下Command R 的中文能力。

開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單圖片

你給打個分?

要說明的是,Command R 的開源只針對學術研究,並不能免費商用。

One More Thing

最後的最後,還是多聊一嘴割麥小哥。

Aidan Gomez,Transformer圓桌騎士中最年輕的一位,加入研究團隊時只是個本科生-

不過,是在多倫多大學讀大三時就加入了Hinton實驗室的那種。

2018年,割麥子被牛津大學錄取,開始像他的論文搭訕們那樣攻讀CS博士學位。

但在2019年,隨著Cohere的創立,他最終選擇退學加入AI創業的浪潮。

Cohere主要是為企業提供大模型解決方案,目前估值達到了22億美元。

參考連結:
[1]https://www.php.cn/link/3be14122a3c78d9070cae09a16adcbb1[2]https://www.php.cn/ link/93fc5aed8c051ce4538e052cfe9f8692

以上是開源模型首勝GPT-4!競技場最新戰報引熱議,Karpathy:這是我唯二信任的榜單的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 全球最強開源 MoE 模型來了,中文能力比肩 GPT-4,價格僅 GPT-4-Turbo 的近百分之一 May 07, 2024 pm 04:13 PM

想像一下,一個人工智慧模型,不僅擁有超越傳統運算的能力,還能以更低的成本實現更有效率的效能。這不是科幻,DeepSeek-V2[1],全球最強開源MoE模型來了。 DeepSeek-V2是一個強大的專家混合(MoE)語言模型,具有訓練經濟、推理高效的特點。它由236B個參數組成,其中21B個參數用於啟動每個標記。與DeepSeek67B相比,DeepSeek-V2效能更強,同時節省了42.5%的訓練成本,減少了93.3%的KV緩存,最大生成吞吐量提高到5.76倍。 DeepSeek是一家探索通用人工智

大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 大模型一對一戰鬥75萬輪,GPT-4奪冠,Llama 3位列第五 Apr 23, 2024 pm 03:28 PM

關於Llama3,又有測試結果新鮮出爐-大模型評測社群LMSYS發布了一份大模型排行榜單,Llama3位列第五,英文單項與GPT-4並列第一。圖片不同於其他Benchmark,這份榜單的依據是模型一對一battle,由全網測評者自行命題並評分。最終,Llama3取得了榜單中的第五名,排在前面的是GPT-4的三個不同版本,以及Claude3超大杯Opus。而在英文單項榜單中,Llama3反超了Claude,與GPT-4打成了平手。對於這一結果,Meta的首席科學家LeCun十分高興,轉發了推文並

第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 第二代Ameca來了!和觀眾對答如流,臉部表情更逼真,會說幾十種語言 Mar 04, 2024 am 09:10 AM

人形機器人Ameca升級第二代了!最近,在世界行動通訊大會MWC2024上,世界上最先進機器人Ameca又現身了。會場周圍,Ameca引來一大波觀眾。得到GPT-4加持後,Ameca能夠對各種問題做出即時反應。 「來一段舞蹈」。當被問及是否有情感時,Ameca用一系列的面部表情做出回應,看起來非常逼真。就在前幾天,Ameca背後的英國機器人公司EngineeredArts剛剛示範了團隊最新的開發成果。影片中,機器人Ameca具備了視覺能力,能看見並描述房間整個狀況、描述具體物體。最厲害的是,她還能

PHP 5.4版本新功能:如何使用callable類型提示參數接受可呼叫的函數或方法 PHP 5.4版本新功能:如何使用callable類型提示參數接受可呼叫的函數或方法 Jul 29, 2023 pm 09:19 PM

PHP5.4版本新功能:如何使用callable類型提示參數接受可呼叫的函數或方法引言:PHP5.4版本引入了一個非常便利的新功能-可以使用callable類型提示參數來接受可呼叫的函數或方法。這個新功能使得函數和方法可以直接指定對應的可呼叫參數,而無需進行額外的檢查和轉換。在本文中,我們將介紹callable類型提示的使用方法,並提供一些程式碼範例,

產品參數是什麼意思 產品參數是什麼意思 Jul 05, 2023 am 11:13 AM

產品參數是指產品屬性的意思。例如服裝參數有品牌、材質、型號、大小、風格、布料、適應人群和顏色等;食品參數有品牌、重量、材質、衛生許可證號碼、適應人群和顏色等;家電參數有品牌、尺寸、顏色、產地、適應電壓、訊號、介面和功率等。

全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 全球最強模型一夜易主,GPT-4時代終結! Claude 3提前狙擊GPT-5,3秒讀懂萬字論文理解力接近人類 Mar 06, 2024 pm 12:58 PM

卷瘋了卷瘋了,大模型又變天了。就在剛剛,全球最強AI模型一夜易主,GPT-4被拉下神壇。 Anthropic發布了最新的Claude3系列模型,一句話評價:真·全面碾壓GPT-4!在多模態和語言能力指標上,Claude3都贏麻了。用Anthropic的話來說,Claude3系列模型在推理、數學、編碼、多語言理解和視覺方面,都樹立了新的行業基準! Anthropic,就是曾因安全理念不合,而從OpenAI「叛逃」出的員工組成的新創公司,他們的產品一再給OpenAI暴擊。這次的Claude3,更是整了個大的

PHP Warning: in_array() expects parameter的解決方法 PHP Warning: in_array() expects parameter的解決方法 Jun 22, 2023 pm 11:52 PM

在開發過程中,我們可能會遇到這樣一個錯誤提示:PHPWarning:in_array()expectsparameter。這個錯誤提示會在使用in_array()函數時出現,有可能是因為函數的參數傳遞不正確所導致的。以下我們來看看這個錯誤提示的解決方法。首先,需要明確in_array()函數的作用:檢查一個值是否在陣列中存在。此函數的原型為:in_a

C++ 函式參數型別安全檢查 C++ 函式參數型別安全檢查 Apr 19, 2024 pm 12:00 PM

C++參數類型安全檢查透過編譯時檢查、執行時間檢查和靜態斷言確保函數只接受預期類型的值,防止意外行為和程式崩潰:編譯時類型檢查:編譯器檢查類型相容性。運行時類型檢查:使用dynamic_cast檢查類型相容性,不符則拋出異常。靜態斷言:在編譯時對型別條件進行斷言。

See all articles