馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合
馬斯克的第一代多模態模型Grok-1.5V,終於來了!
Grok 1.5V,號稱是能連結數位世界和實體世界。
除了文字功能,它還能處理文件、圖示、螢幕截圖和照片之類的各種視覺資訊。
很快,所有早期測試者和所有Grok用戶就能用上Grok 1.5V了。
Jim Fan, 英偉達資深科學家,發現了Grok-1.5V的「最大亮點」:在他看來,Grok-1.5V最令人感興趣的,就是解決自動駕駛邊緣案例的潛力。
透過使用“思維鏈”,可以幫助汽車解決複雜場景,用規則和反事實進行推理,解釋其決策,Grok-1.5 V能夠將感知提升至像素級,進而促進運行映射為像素->動作。
由此,特斯拉FSD V13就很有可能會理解語言Token!
特斯拉的優勢在於,具有高度成熟的資料管理線,因此,就不難用高品質的人類解釋痕跡來標記大量邊緣案例。在多模態FSD推理上,微調Grok的表現就很有可能會遠勝於GPT-4V和Gemini。
你可能會說,以前Wayve的LINGO-1不是也有類似的想法麼?但別忘了,特斯拉正在旋轉的,是個無與倫比的資料飛輪,規模遠超過以前。
馬斯克也適時地出現在了留言區,進一步解釋——
有兩種資料來源可以無限擴展,合成資料和真實世界影片。前者存在一個真偽的問題,而後者則不存在。
有網友表示,好傢伙,這聽起來是通往AGI最可行的路徑了!具有顯式語言推理的多模態模型,始終如一地推論世界模型。
模型能力
#在xAI的官網上,對於Grok-1.5V是這樣介紹的。
它可以和GPT-4V、Claude 3 Sonnet、Claude 3 Opus等這些最頂尖的多模態模型對打。
無論是多學科推理,或是文件理解、科學圖表、表格、截圖和照片等多個領域,Grok-1.5V都和它們有的一拼。
尤其令人驚訝的,是它在理解物理世界時所表現出的卓越能力。
在RealWorldQA基準測試中,沒有思維鏈提示、零樣本設定的情況下,用以下資料集對Grok進行評估,可以看到Grok的表現比同類模型更好。
下面7個具有代表性的例子,更說明了Grok 1.5V在不同場景中的良好表現。
1. 根據圖表寫程式碼
下圖給出了一個簡單的猜謎遊戲的流程圖,Grok可以根據流程圖具體內容,使用python程式碼實現該流程。
用戶:
你能把它翻譯成Python程式碼嗎?
Grok:
#當然!這張流程圖描述了一個簡單的猜謎遊戲,其中電腦產生一個隨機數,而使用者需要猜出它是什麼。以下是表示流程圖中邏輯的Python程式碼:
import randomdef guess_number(): # Generate a random number between 1 and 10target = random.randint(1, 10)while True:guess = int(input("Guess a number between 1 and 10: "))if guess == target:print("You won!")breakelse:print("Wrong guess, try again!")if __name__ == "__main__":guess_number()
這段程式碼將運行流程圖中描述的猜謎遊戲。在使用者猜出正確數字之前,系統會一直提示使用者輸入猜測的數字。
2. 計算卡路里
#根據食品的營養成分錶,Grok可以知道該食品一份份量是3片、含有60卡路里的熱量,由此計算出,用戶給予5片該食品的卡路里總數是100。
使用者:
#5片含有多少卡路里?
Grok:
#如果一份包含3片,總熱量為60卡路里,那麼5片的熱量大約是100卡路里。
首先,確定每片的熱量:60卡路里÷3片=20卡路里/片。
接著,將每片的熱量乘以片數:20卡路里x5片=100卡路里。
3. 從繪畫到睡前故事
Grok可以根據畫作的內容,講述一個簡短的睡前故事。
例如下面這個隨筆塗鴉:
#使用者:
##這是我兒子畫的,你能根據他的畫作講一個睡前小故事嗎?
Grok:
#很久很久以前,在一個充滿冒險與奇蹟的土地上,生活著一個勇敢的小男孩,名叫Timmy。他與家人住在一個溫暖的小屋裡,最喜歡的事情就是探索周圍的世界。
在一個陽光明媚的日子裡,Timmy決定去附近的森林探險。他準備了他最喜歡的零食、一本指南針和一本信賴的筆記本,用來記錄他即將見到的所有奇妙事物。
深入森林後,Timmy發現了一條在陽光照耀下閃閃發光的神奇河流。河流的迷人景緻讓他決定做一隻小紙船,把它放在水面上,作為對森林精靈的一份特別的問候。
Timmy小心翼翼地折好紙船,並在上面畫了一個笑臉,寄託了他對森林精靈的喜愛和祝福。隨後,他輕輕地把紙船放在河流中,目送它隨水漂流而去。
夕陽西下,Timmy知道該回家了。他回想起在森林中度過的這一天,知道這段美好的記憶將永遠伴隨著他。
回到家,Timmy向家人講述了他的冒險,家人聽後都感到非常高興,並相信他未來定會經歷更多精彩的冒險。
於是,帶著滿心的愛與夢想,Timmy慢慢進入了夢鄉,期待在他的想像世界中探索新的冒險。
4. 看懂梗圖
#下面這張梗圖,左邊是新創公司,右邊是大公司,講的是什麼意思呢?
小編第一眼是沒看懂。看完Grok的解釋,才恍然大悟。
用戶:
##########我不是很理解這張圖,請解釋一下。 ###############Grok:#######这幅图幽默地展示了初创企业和大公司在工作方式上的差异。
在左侧的「初创企业」里,一群人齐心协力挖掘一个深洞,每个人都在积极地参与。
而在右侧的「大公司」里,只有一人在挖洞,其他人只是在旁边看着。
这幅图的幽默之处在于夸大了两种组织形态的不同。
初创企业通常会让每个人都直接参与到核心任务中,而大公司则可能因为其庞大的结构和官僚体制,使得团队成员无法接触到项目的每一个细节。
5. 将表格转换为CSV
Grok可以将表格内容转换成CSV格式。
用户:
请将这个表转换为CSV格式。
Grok:
图像中的表格可以转换成CSV格式,如下所示:
medal,name,sport,event,date21 gold,El Amin Chentouf,Athletics,Men's marathon - T13,11 September31 gold,Mohamed Amguoun,Athletics,Men's 400m - T13,15 September41 gold,Azeddine Nouiri,Athletics,Men's shot put - T34,15 September52 silver,Mahdi Afri,Athletics,Men's 400m - T12,9 September62 silver,El Amin Chentouf,Athletics,Men's 5000m - T13,15 September73 bronze,Mahdi Afri,Athletics,Men's 200m - T12,17 September83 bronze,Mohamed Lahna,Paratriathlon,Men's PT2,10 September
请注意,CSV格式不支持样式或格式化,因此信息以纯文本格式显示。
6. 地板上的腐烂木头,都能给出建议
地板上的木材腐烂了怎么办?
照片拍给Grok,它可以帮我们判断腐烂情况,还能给出合理的处理建议。
用户:
我地板上的螺丝周围出现了这些洞。是腐烂了吗?我应该更换木板吗?
Grok:
这些木板似乎已经开始腐烂。从螺丝周围出现的孔洞可以看出,这是木材腐烂的典型迹象。
为了确保地板的安全并延长使用的寿命,建议你更换那些已经受损的木板。这样做可以避免地板进一步的损害,并保持其结构的稳固。
如果你不知道如何更换木板,可以寻求专业地板建造商或承包商的帮助。他们会对损害的程度进行评估,并为你提供关于地板维护的专业建议。
7. 解决编码问题
编码问题,Grok-1.5V也是不在话下。
用户:
你能写出解决这个问题的Python代码吗?
Grok:
def find_triplets(nums):result = []nums.sort()for i in range(len(nums) - 2):if i > 0 and nums[i] == nums[i - 1]:continuetarget = -nums[i]left = i + 1right = len(nums) - 1while left
對現實世界的理解
開發有用的現實世界AI助手,提高模型對物理世界的理解是至關重要的。
為了實現這個目標,研究團隊也推出了一個新的基準-RealWorldQA。
此基準可用於評估多模態模型對於基本現實世界空間的理解能力。
雖然目前基準中的許多範例對人類來說理解比較容易,但對於前沿模型來說還是具有一定的挑戰性。
最初發布的RealWorldQA包含700多張圖片,每張圖片都有一個問題和易於驗證的答案。
例如,如果我們問它:圖片中的披薩刀和剪刀哪個物體比較大?
Grok給的答案是:它們的大小差不多。
從目前車道可以去哪裡? A.左轉 B.直行 C.左轉直行 D.右轉
Grok會選A。
從轎車前方的攝影機來看,是否有足夠的空間繞過前面的灰色轎車?
Grok給的答案是:是。
從這張圖片來看,恐龍是朝向哪個方向?
Grok回答:東。
除了其他真實世界的影像外,該資料集還包括從車輛上拍攝的匿名影像。
研究團隊將該資料集進行了開源,並希望隨著多模態模型的改進而不斷擴展該資料集。
最後,xAI官網總結道,憑著提高多模態理解和生成能力,它們將逐漸逼近構建能夠理解宇宙的有益AGI。
而接下來幾個月裡,估計我們還會看見影像、音訊、視訊等多模態上,這兩項能力的重大改進。
以上是馬斯克新作! Grok-1.5V多模態模型震撼發表:數位與實體世界完美融合的詳細內容。更多資訊請關注PHP中文網其他相關文章!

熱AI工具

Undresser.AI Undress
人工智慧驅動的應用程序,用於創建逼真的裸體照片

AI Clothes Remover
用於從照片中去除衣服的線上人工智慧工具。

Undress AI Tool
免費脫衣圖片

Clothoff.io
AI脫衣器

Video Face Swap
使用我們完全免費的人工智慧換臉工具,輕鬆在任何影片中換臉!

熱門文章

熱工具

記事本++7.3.1
好用且免費的程式碼編輯器

SublimeText3漢化版
中文版,非常好用

禪工作室 13.0.1
強大的PHP整合開發環境

Dreamweaver CS6
視覺化網頁開發工具

SublimeText3 Mac版
神級程式碼編輯軟體(SublimeText3)

適合新手的加密貨幣數據平台有CoinMarketCap和非小號。 1. CoinMarketCap提供全球加密貨幣實時價格、市值、交易量排名,適合新手與基礎分析需求。 2. 非小號提供中文友好界面,適合中文用戶快速篩選低風險潛力項目。

OKX 交易所的詳細介紹如下:1) 發展歷程:2017 年創辦,2022 年更名為 OKX;2) 總部位於塞舌爾;3) 業務範圍涵蓋多種交易產品,支持 350 多種加密貨幣;4) 用戶遍布 200 餘個國家,千萬級用戶量;5) 採用多重安全措施保障用戶資產;6) 交易費用基於做市商模式,費率隨交易量增加而降低;7) 曾獲多項榮譽,如“年度加密貨幣交易所”等。

機構投資者應選擇Coinbase Pro和Genesis Trading等合規平台,關注冷存儲比例與審計透明度;散戶投資者應選擇幣安和火幣等大平台,注重用戶體驗與安全;合規敏感地區的用戶可通過Circle Trade和Huobi Global進行法幣交易,中國大陸用戶需通過合規場外渠道。

選擇大宗交易平台時應考慮以下因素:1. 流動性:優先選擇日均交易量超50億美元的平台。 2. 合規性:查看平台是否持有美國FinCEN、歐盟MiCA等牌照。 3. 安全性:冷錢包存儲比例和保險機制是關鍵指標。 4. 服務能力:是否提供專屬客戶經理和定制化交易工具。

優先選擇合規平台如OKX和Coinbase,啟用多重驗證,資產自託管可減少依賴:1. 選擇有監管牌照的交易所;2. 開啟2FA和提幣白名單;3. 使用硬件錢包或支持自託管的平台。

gate.io(全球版)核心優勢是界面極簡,支持中文,法幣交易流程直觀;幣安(簡版)核心優勢是全球交易量第一,簡版模式僅保留現貨交易;OKX(香港版)核心優勢是界面簡潔,支持粵語/普通話,衍生品交易門檻低;火幣全球站(香港版)核心優勢是老牌交易所,推出元宇宙交易終端;KuCoin(中文社區版)核心優勢是支持800 幣種,界面採用微信式交互;Kraken(香港版)核心優勢是美國老牌交易所,持有香港SVF牌照,界面簡潔;HashKey Exchange(香港持牌)核心優勢是香港知名持牌交易所,支持法

國內用戶適配方案包括合規渠道和本地化工具。 1. 合規渠道:通過OTC平台如Circle Trade進行法幣兌換,境內需通過香港或海外平台。 2. 本地化工具:使用幣圈網獲取中文資訊,火幣全球站提供元宇宙交易終端。

提供各種複雜的交易工具和市場分析。覆蓋 100 多個國家,日均衍生品交易量超 300 億美元,支持 300 多個交易對與 200 倍槓桿,技術實力強大,擁有龐大的全球用戶基礎,提供專業的交易平台、安全存儲解決方案以及豐富的交易對。
