Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭

WBOY
發布: 2024-08-14 20:01:02
原創
825 人瀏覽過
GPT-5 不出,Grok 已經趕上了。

就在谷歌與 OpenAI 互相搶新聞的同一天,馬斯克旗下的 xAI 也沒閒著。

北京時間週三下午,xAI 正式發布了新一代 Grok 2 大模型。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
第三方大模型基準組織 Chatbot Arena 也立即更新了 LMSYS 榜的成績清單。 Grok 2 的早期型號(sus-column-r)緊接在 GPT-4o(0513 版)後可以位列第四,表現優於 Claude 3.5 Sonnet 和 GPT-4-Turbo。

它在編碼、複雜問題和數學方面表現出色。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
馬斯克不免自誇起來,「Grok 的推進速度像坐了火箭。」
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
注意,這只是早期版本的分數,ChatTbot 表示後續版本。

馬斯克表示,Grok-2 是具有最先進推理能力的先進語言模型。新一代包括兩個版本:Grok-2 和 Grok-2 mini。兩種模型現在都在 X 平台上向 Grok 用戶發布。目前,X Premium 和 Premium+ 用戶已經可以體驗 Grok-2 和 Grok-2 mini 這兩種型號。

相比先前的 Grok-1.5,Grok-2 的早期預覽版實現了重大進步,在聊天、推理、程式碼等方面展示出了領先的能力。 xAI 表示,Grok-2 和 Grok-2 mini 目前正在 X 上處於測試階段,將在本月稍後透過企業 API 的方式提供。

新模型發布後不到半小時,已經有網友在曬使用效果了,他使用 Grok 2 mini 生成了一張「我與馬斯克吃熱狗」的圖像。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
再試試其他的生成一張華盛頓的畫像。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
也有人試了試 Grok 2 mini,生成一隻飛貓。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
還有人生成了特斯拉 Model Y,看起來挺像的?
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
Grok-2 性能大PK

隨著xAI 將Grok-2 的早期版本「sus-column-r」放入到Chatbot Arena,我們看到了它與其他流行開閉源模型的性能比較。

就整體的 Elo 得分而言,Grok-2 的表現要優於 Claude 系列模型和大多版本的 GPT-4。當然,排在第一位的是 OpenAI 這幾天剛放出的 GPT-4o(8 月 8 日版本)。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
下圖為 Grok-2 與其他流行模型的勝率(Win Rate)比較。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
下圖為 Grok 1.5 與 Grok 2 兩個版本基於事實性的勝率比較。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
xAI 採取這樣的流程來對 Grok 2 模型進行評估,利用 AI Tutors 在各種任務中與模型真實互動。在每次互動過程中,Grok 2 都會向 AI Tutors 提供兩個回應,然後根據指南中列出的特定標準選擇最佳回應。

xAI 專注於在兩個關鍵領域評估模型效能, 分別是指令遵循和提供準確、真實的資訊。結果顯示,Grok 2 在利用檢索到的內容進行推理以及使用工具的能力方面有了顯著的進步,例如正確地識別缺失資訊、透過事件序列進行推理、丟棄不相關的貼文等。

基準測試成績

xAI 通過一系列學術基準對 Grok-2 模型進行了評估,這些基準包括推理、閱讀理解、數學、科學編碼。

Grok-2 和 Grok-2 mini 都比之前的 Grok-1.5 模型有了顯著改進。在研究生程度的科學知識 (GPQA)、常識 (MMLU、MMLU-Pro) 和數學競賽問題 (MATH) 等領域的表現可與其他前沿模型相媲美。

此外,Grok-2 在基於視覺的任務方面表現也很出色,在視覺數學推理 (MathVista) 和基於文件的問答 (DocVQA) 方面表現顯著。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
Grok 2 介面與功能「大變身」

過去幾個月,xAI 一直不斷地提升 x 平台上的 Grok 體驗。現在,隨著下一代 Grok 2 的推出,xAI 重新設計了介面,如下圖所示。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
當然,xAI 提供了一些新功能,例如 Conway《生命遊戲》的簡單實現。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
再例如多模態理解能力(看圖說話)。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
其中,Grok-2 是 xAI 最先進的 AI 助手,擁有文本和視覺理解功能,並集成了來自 X 平台的實時信息,可通過 X 應用程序中的 Grok 選項卡訪問。

Grok-2 mini 是一款小巧但功能強大的模型,在速度和答案品質之間取得了很好平衡。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭

與其前代產品相比,Grok-2 更直觀、更可控、更靈活,適用於各種任務,無論你是在尋找答案、協作寫作還是解決編碼任務。

此外,xAI 也與新創公司 Black Forest Labs 展開合作,試驗他們的 FLUX.1 模型,以擴展 Grok 在 X 上的功能。
Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭
本月晚些時候, xAI 也將透過新的企業 API 平台向開發人員發布 Grok-2 和 Grok-2 mini。即將推出的 API 建立在新的客製化技術堆疊上,允許多區域推理部署,以實現全球低延遲存取。

當然,xAI 也提供了一些增強的安全功能,例如強制性多因素身份驗證(例如使用 Yubikey、Apple TouchID 或 TOTP)。

可以看到,自 2023 年 11 月推出 Grok-1 以來,xAI 一直以驚人的速度推進該系列模型。很快,他們將發布具有多模態理解的預覽版。 xAI 之後的重點將是透過新的計算集群來提高模型的核心推理能力。

部落格網址:https://x.ai/blog/grok-2

以上是Grok-2來了,能生圖識圖、性能比肩GPT-4o,馬斯克:發展猛如火箭的詳細內容。更多資訊請關注PHP中文網其他相關文章!

相關標籤:
來源:jiqizhixin.com
本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn
熱門教學
更多>
最新下載
更多>
網站特效
網站源碼
網站素材
前端模板
關於我們 免責聲明 Sitemap
PHP中文網:公益線上PHP培訓,幫助PHP學習者快速成長!