首頁 科技週邊 人工智慧 馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

Apr 15, 2024 pm 04:01 PM
python ai 數據

馬斯克的第一代多模態模型Grok-1.5V,終於來了!

Grok 1.5V,號稱是能連結數位世界和實體世界。

除了文字功能,它還能處理文件、圖示、螢幕截圖和照片之類的各種視覺資訊。

很快,所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

Jim Fan, 英偉達資深科學家,發現了Grok-1.5V的「最大亮點」:在他看來,Grok-1.5V最令人感興趣的,就是解決自動駕駛邊緣案例的潛力。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

透過使用“思維鏈”,可以幫助汽車解決複雜場景,用規則和反事實進行推理,解釋其決策,Grok-1.5 V能夠將感知提升至像素級,進而促進運行映射為像素->動作。

由此,特斯拉FSD V13就很有可能會理解語言Token!

特斯拉的優勢在於,具有高度成熟的資料管理線,因此,就不難用高品質的人類解釋痕跡來標記大量邊緣案例。在多模態FSD推理上,微調Grok的表現就很有可能會遠勝於GPT-4V和Gemini。

你可能會說,以前Wayve的LINGO-1不是也有類似的想法麼?但別忘了,特斯拉正在旋轉的,是個無與倫比的資料飛輪,規模遠超過以前。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

馬斯克也適時地出現在了留言區,進一步解釋——

有兩種資料來源可以無限擴展,合成資料和真實世界影片。前者存在一個真偽的問題,而後者則不存在。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

有網友表示,好傢伙,這聽起來是通往AGI最可行的路徑了!具有顯式語言推理的多模態模型,始終如一地推論世界模型。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

模型能力

#在xAI的官網上,對於Grok-1.5V是這樣介紹的。

它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態模型對打。

無論是多學科推理,或是文件理解、科學圖表、表格、截圖和照片等多個領域,Grok-1.5V都和它們有的一拼。

尤其令人驚訝的,是它在理解物理世界時所表現出的卓越能力。

在RealWorldQA基準測試中,沒有思維鏈提示、零樣本設定的情況下,用以下資料集對Grok進行評估,可以看到Grok的表現比同類模型更好。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

下面7個具有代表性的例子,更說明了Grok 1.5V在不同場景中的良好表現。

1. 根據圖表寫程式碼

下圖給出了一個簡單的猜謎遊戲的流程圖,Grok可以根據流程圖具體內容,使用python程式碼實現該流程。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用戶:

你能把它翻譯成Python程式碼嗎?

Grok:

#當然!這張流程圖描述了一個簡單的猜謎遊戲,其中電腦產生一個隨機數,而使用者需要猜出它是什麼。以下是表示流程圖中邏輯的Python程式碼:

import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()
登入後複製

這段程式碼將運行流程圖中描述的猜謎遊戲。在使用者猜出正確數字之前,系統會一直提示使用者輸入猜測的數字。

2. 計算卡路里

#根據食品的營養成分錶,Grok可以知道該食品一份份量是3片、含有60卡路里的熱量,由此計算出,用戶給予5片該食品的卡路里總數是100。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

使用者:

#5片含有多少卡路里?

Grok:

#如果一份包含3片,總熱量為60卡路里,那麼5片的熱量大約是100卡路里。

首先,確定每片的熱量:60卡路里÷3片=20卡路里/片。

接著,將每片的熱量乘以片數:20卡路里x5片=100卡路里。

3. 從繪畫到睡前故事

Grok可以根據畫作的內容,講述一個簡短的睡前故事。

例如下面這個隨筆塗鴉:

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

#使用者:

##這是我兒子畫的,你能根據他的畫作講一個睡前小故事嗎?

Grok:

#很久很久以前,在一個充滿冒險與奇蹟的土地上,生活著一個勇敢的小男孩,名叫Timmy。他與家人住在一個溫暖的小屋裡,最喜歡的事情就是探索周圍的世界。

在一個陽光明媚的日子裡,Timmy決定去附近的森林探險。他準備了他最喜歡的零食、一本指南針和一本信賴的筆記本,用來記錄他即將見到的所有奇妙事物。

深入森林後,Timmy發現了一條在陽光照耀下閃閃發光的神奇河流。河流的迷人景緻讓他決定做一隻小紙船,把它放在水面上,作為對森林精靈的一份特別的問候。

Timmy小心翼翼地折好紙船,並在上面畫了一個笑臉,寄託了他對森林精靈的喜愛和祝福。隨後,他輕輕地把紙船放在河流中,目送它隨水漂流而去。

夕陽西下,Timmy知道該回家了。他回想起在森林中度過的這一天,知道這段美好的記憶將永遠伴隨著他。

回到家,Timmy向家人講述了他的冒險,家人聽後都感到非常高興,並相信他未來定會經歷更多精彩的冒險。

於是,帶著滿心的愛與夢想,Timmy慢慢進入了夢鄉,期待在他的想像世界中探索新的冒險。

4. 看懂梗圖馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

#下面這張梗圖,左邊是新創公司,右邊是大公司,講的是什麼意思呢?

小編第一眼是沒看懂。看完Grok的解釋,才恍然大悟。

用戶:

##########我不是很理解這張圖,請解釋一下。 ###############Grok:#######

这幅图幽默地展示了初创企业和大公司在工作方式上的差异。

在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。

而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。

这幅图的幽默之处在于夸大了两种组织形态的不同。

初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。

5. 将表格转换为CSV

Grok可以将表格内容转换成CSV格式。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用户:

请将这个表转换为CSV格式。

Grok:

图像中的表格可以转换成CSV格式,如下所示:

medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
登入後複製

请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。

6. 地板上的腐烂木头,都能给出建议

地板上的木材腐烂了怎么办?

照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用户:

我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?

Grok:

这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。

为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。

如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。

7. 解决编码问题

编码问题,Grok-1.5V也是不在话下。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

用户:

你能写出解决这个问题的Python代码吗?

Grok:

def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left 
登入後複製

對現實世界的理解

開發有用的現實世界AI助手,提高模型對物理世界的理解是至關重要的。

為了實現這個目標,研究團隊也推出了一個新的基準-RealWorldQA。

此基準可用於評估多模態模型對於基本現實世界空間的理解能力。

雖然目前基準中的許多範例對人類來說理解比較容易,但對於前沿模型來說還是具有一定的挑戰性。

最初發布的RealWorldQA包含700多張圖片,每張圖片都有一個問題和易於驗證的答案。

例如,如果我們問它:圖片中的披薩刀和剪刀哪個物體比較大?

Grok給的答案是:它們的大小差不多。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

從目前車道可以去哪裡? A.左轉 B.直行 C.左轉直行 D.右轉

Grok會選A。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

從轎車前方的攝影機來看,是否有足夠的空間繞過前面的灰色轎車?

Grok給的答案是:是。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

從這張圖片來看,恐龍是朝向哪個方向?

Grok回答:東。

馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合

除了其他真實世界的影像外,該資料集還包括從車輛上拍攝的匿名影像。

研究團隊將該資料集進行了開源,並希望隨著多模態模型的改進而不斷擴展該資料集。

最後,xAI官網總結道,憑著提高多模態理解和生成能力,它們將逐漸逼近構建能夠理解宇宙的有益AGI。

而接下來幾個月裡,估計我們還會看見影像、音訊、視訊等多模態上,這兩項能力的重大改進。

以上是馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合的詳細內容。更多資訊請關注PHP中文網其他相關文章!

本網站聲明
本文內容由網友自願投稿,版權歸原作者所有。本站不承擔相應的法律責任。如發現涉嫌抄襲或侵權的內容,請聯絡admin@php.cn

熱AI工具

Undresser.AI Undress

Undresser.AI Undress

人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover

AI Clothes Remover

用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool

Undress AI Tool

免費脫衣圖片

Clothoff.io

Clothoff.io

AI脫衣器

Video Face Swap

Video Face Swap

使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱工具

記事本++7.3.1

記事本++7.3.1

好用且免費的程式碼編輯器

SublimeText3漢化版

SublimeText3漢化版

中文版,非常好用

禪工作室 13.0.1

禪工作室 13.0.1

強大的PHP整合開發環境

Dreamweaver CS6

Dreamweaver CS6

視覺化網頁開發工具

SublimeText3 Mac版

SublimeText3 Mac版

神級程式碼編輯軟體(SublimeText3)

幣圈行情實時數據免費平台推薦前十名發布 幣圈行情實時數據免費平台推薦前十名發布 Apr 22, 2025 am 08:12 AM

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

okx在線  okx交易所官網在線 okx在線 okx交易所官網在線 Apr 22, 2025 am 06:45 AM

OKX 交易所的詳細介紹如下:1) 發展歷程:2017 年創辦,2022 年更名為 OKX;2) 總部位於塞舌爾;3) 業務範圍涵蓋多種交易產品,支持 350 多種加密貨幣;4) 用戶遍布 200 餘個國家,千萬級用戶量;5) 採用多重安全措施保障用戶資產;6) 交易費用基於做市商模式,費率隨交易量增加而降低;7) 曾獲多項榮譽,如“年度加密貨幣交易所”等。

各大虛擬貨幣交易平台的特色服務一覽 各大虛擬貨幣交易平台的特色服務一覽 Apr 22, 2025 am 08:09 AM

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

大宗交易的虛擬貨幣交易平台排行榜top10最新發布 大宗交易的虛擬貨幣交易平台排行榜top10最新發布 Apr 22, 2025 am 08:18 AM

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 支持多種幣種的虛擬貨幣交易平台推薦前十名一覽 Apr 22, 2025 am 08:15 AM

優先選擇合規平台如OKX和Coinbase,啟用多重驗證,資產自託管可減少依賴:1. 選擇有監管牌照的交易所;2. 開啟2FA和提幣白名單;3. 使用硬件錢包或支持自託管的平台。

數字貨幣交易app容易上手的推薦top10(025年最新排名) 數字貨幣交易app容易上手的推薦top10(025年最新排名) Apr 22, 2025 am 07:45 AM

gate.io(全球版)核心優勢是界面極簡,支持中文,法幣交易流程直觀;幣安(簡版)核心優勢是全球交易量第一,簡版模式僅保留現貨交易;OKX(香港版)核心優勢是界面簡潔,支持粵語/普通話,衍生品交易門檻低;火幣全球站(香港版)核心優勢是老牌交易所,推出元宇宙交易終端;KuCoin(中文社區版)核心優勢是支持800 幣種,界面採用微信式交互;Kraken(香港版)核心優勢是美國老牌交易所,持有香港SVF牌照,界面簡潔;HashKey Exchange(香港持牌)核心優勢是香港知名持牌交易所,支持法

幣圈十大行情網站的使用技巧與推薦2025 幣圈十大行情網站的使用技巧與推薦2025 Apr 22, 2025 am 08:03 AM

國內用戶適配方案包括合規渠道和本地化工具。 1. 合規渠道:通過OTC平台如Circle Trade進行法幣兌換,境內需通過香港或海外平台。 2. 本地化工具:使用幣圈網獲取中文資訊,火幣全球站提供元宇宙交易終端。

數字貨幣交易所App前十名蘋果版下載入口匯總 數字貨幣交易所App前十名蘋果版下載入口匯總 Apr 22, 2025 am 09:27 AM

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。

See all articles